Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

基于Kettle快速构建基础数据仓库平台入门培训

Notifications You must be signed in to change notification settings

Jacksn2014/KettleQuickStartGuide

Repository files navigation

KettleQuickStartGuide

微信公众号:"以数据之名"



1、简要介绍ETL是什么?

2、Kettle的架构及优势

2.1、商业/开源社区支持
2.2、底层基于Java,支持跨平台
2.3、插件架构,可扩展性好
2.4、全面的数据访问支持
2.5、流式设计方便易用
2.6、全面优化高效稳定
2.7、多种方式应用集成
2.8、研发成本极低,ETL开发人员接入方便

3、Kettle的基础运行环境和搭建过程(建议版本、操作系统、JDK)

3.1、推荐:kettle6.X版本+jdk1.7+Linux(或kettle7.X版本+jdk1.8+Linux)

4、Kettle常用核心组件介绍

作业:
4.1、通用:(Start、作业、转换、DUMMY、成功)
4.2、邮件:(发送邮件)
4.3、脚本:(Shell、SQL、JS)
4.4:资源库:(导出资源库到文件)
转换:
4.1、输入:(表输入、Excel输入、文本文件输入、Kafka Consumer等)
4.2、输出:(表输出、删除、更新、插入/更新、Excel输出、文本文件输出、Cube输出、Kafka Producer等)
4.3、转换:(值映射、字段选择、排序记录等)
4.4、应用:(写日志、发送邮件、延迟行等)
4.5、流程:(Switch/Case、调用转换、调用作业、中止、空操作、过滤记录、阻塞数据)
4.6、脚本:(Java代码、Javascript代码、执行Sql脚本、正则表达式等)
4.7、查询:(Http Post、Http Client、Rest Client、数据库查询、数据库连接、调用DB存储过程)
4.8、连接:(记录集连接、排序合并、合并记录)
4.9、统计:(分组、在内存中分组)
4.10、BigData:(Hbase、Hadoop、Hive)
4.11、作业:(复制记录到结果、从结果中获取记录、设置变量)

5、Kettle参数引用几种方式

5.1、${参数名}
5.2、?

6、Kettle循环控制的几种方式

6.1、转换内控制
6.2、利用作业和转换结合控制

7、Kettle作业和转换的几种存储方式

7.1、文件
7.2、文件资源库(推荐)
7.3、数据库资源库

8、Kettle作业和转换的几种运行方式

8.1、windows和linux命令行
8.2、Java API

9、Kettle作业和转换的几种调度方式

9.1、windows和linux任务计划
9.2、利用开源oozie或azkaban等、商用TaskCTL、自研ETL调度管理平台

10、具体应用场景

10.1、基础模型数据全量清洗&增量清洗
10.2、增量准实时数据同步的关键CDC
10.3、通用ETL监控邮件告警
10.4、通用报表生成

11、ETL错误处理和补偿机制

12、ETL性能调优

13、自定义插件开发

升华篇

1、执行引擎集群模式构建

1.1、基于Carte构建多节点执行引擎
1.2、基于Quartz+Zk+xxl Job构建综合分布式ETL调度管理运行平台

2、迁移文件资源库到Hdfs分布式文件系统

3、自研分布式日志解析工具

4、结合BI或者报表平台,完成可视化输出

About

基于Kettle快速构建基础数据仓库平台入门培训

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

AltStyle によって変換されたページ (->オリジナル) /