Skip to content

Mrkuhuo/bigdata_learning

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 282 Commits
.idea		.idea
cassandra_samples		cassandra_samples
doris_samples		doris_samples
flink-cdc-samples		flink-cdc-samples
flink_samples		flink_samples
hbase-samples		hbase-samples
hudi-samples		hudi-samples
imges		imges
iotdb_example		iotdb_example
presto_samples		presto_samples
seatunnel-examples		seatunnel-examples
seatunnel_samples		seatunnel_samples
spark_amples		spark_amples
storm_samples		storm_samples
README.md		README.md

Repository files navigation

大数据学习文档、实战代码、源码解析、测试数据

包含python、mysql、shell、 hadoop、hive、zookeeper、hbase、flume、kafka、spark、flink、dolphinscheduler、elasticsearch、sqoop、clickhouse、flinkcdc、canal、debezuim、datax、hudi、starrocks、iceberg、doris、cdh、superset、docker、kubernetes、strampark、maxwell等组件学习、实战、面试持续更新中...

码字不易,路过的朋友们右上角请点个 ★star★ 鼓励一下~,感谢(抱拳)。

【 cassandra 代码持续更新中...】

【 doris 代码持续更新中...】

【 flink 代码持续更新中...】

【 hbase 代码持续更新中...】

【 hudi 代码持续更新中...】

【 presto 代码持续更新中...】

【 spark 代码持续更新中...】

【 storm 代码持续更新中...】

一、python

【 1. python 基础】

【 2. python Numpy 】

【 3. python Pandas 】

【 4. Anaconda 搭建pyflink开发环境】

【 5. Anaconda Jupyter Notebook中配置多版本Python 】

二、shell

【1. shell基础】

【2. 安装包下载】

【 3. 一键搭建hive集群】

【 4. 一键搭建dolphinscheduler集群】

【 5. 一键搭建flume集群】

【 6. 一键搭建elasticsearch集群】

【 7. 一键搭建flink集群】

【 8. 一键搭建flink集群】

【 9. 一键搭建hbase集群】

【 10. 一键搭建kafka集群】

【 11. 一键搭建hadoop集群】

三、大数据基础环境准备

【 1. 安装虚拟机Centos7 】

【 2. 安装MobaXterm 】

【 3. centos7免密设置】

【 4. centos7安装JDK1.8 】

【 5. centos7安装mysql 】

四、hadoop

【 1. CentOS7安装hadoop集群】

【 2. hadoop基于 HDFS HA 集群高可用安装】

【 3. hadoop基于 YARN HA 集群高可用安装】

【 4. hadoop shell 命令】

【 5. hadoop mapreduce实战】

五、hive

【 1. CentOS7安装hive集群】

【 2. hive 基本概念】

【 3. hive 查询】

【 4. hive 窗口函数】

【 5. hive 整合 hbase 】

六、zookeeper

【 1. CentOS7安装zookeeper集群】

【 2. zookeeper基础】

【 3. zookeeper实战】

七、hbase

【 1. CentOS7安装Hbase集群】

【 2. hbase原理】

【 3. hbase shell命令】

【 4. hbase 实时同步elasticsearch 案例】

八、flume

【 1. CentOS7安装Flume集群】

九、kafka

【 1. kafka 安装(集群版)】

【 2. ★ kafka 面试之高可用 ★ 】

【 3. kafka 面试30问】

【 4. kafka 分区数真的越多越好吗】

【 5. kafka 事务实现原理】

【 6. kafka 常见故障处理】

【 7. kafka 真实项目最佳实践】

【 8. 超惊艳的Kafka可视化工具,用了以后效率翻倍! 】

十、spark

十一、flink

【 1. ★ flink 面试 100 问 ★ 】

【 2. flink 消费kafka的四种起始位置】

【 3. pyflink Table API 基本操作案例】

【 4. pyflink Table API wordcount案例】

【 5. pyflink DataStream API wordcount案例】

【 6. pyflink 集成 hive catalog模式建设数仓】

【 7. pyflink 集成 hive catalog模式读写数据】

【 8. FlinkSql 集成 hive catalog模式进行读写数据】

【 9. ★ Flink checkpoint 执行流程及优化方案 ★ 】

【 10. ★ Flink 内存优化方案 ★ 】

【 11. Flink任务执行与资源划分】

【 12. Flink 算子链与槽位共享】

【 13. Flink 命令行工具】

【 14. 拒绝背锅,FlinkCDC采集表操作日志】

【 15. 还不会修改Flink源码?请看这篇教程→ 】

【 16. 这三种场景,建议使用Flink→ 】

【 16. FlinkSQL搭配Hive构建批流一体数仓完整过程】

【 17. Flink实现运输公司车辆超速实时监测】

【 18. 源码剖析 | Flink源码修改编译保姆级教程】

【 19. 这三种场景,建议使用Flink 】

【 20. 还不会修改Flink源码?请看这篇教程】

【 21. 万字长文 | 透过现象看本质 | 从WordCount 到Flink Streaming API 源码详细解读】

【 22. Flink Table Api 完整源码解析】

【 23. Flink《任务执行流程十步走》详细总结】

【 24. 翻遍Flink源码,发现Client任务提交之后运行步骤竟然还有45步之多... 】

【 25. 5000字彻底讲清什么是Flink状态与容错】

【 26. 一张图彻底说清楚 Flink checkpoint 过程中 Coordinator 到底做了哪些事】

【 27. Flink源码分析 | barrier(屏障) 如何传输】

【 28. Flink源码解析|状态的更新和存储流程详解】

【 29. Flink源码解析 | 元信息的存储】

【 30. Flink源码解析 | 状态恢复如何进行元数据读取】

【 31. Flink源码解析 | 状态的重分配】

【 32. Flink源码解析 | 状态数据的恢复】

【 33. Flink状态的重分配策略详解】

【 34. Flink窗口基本概念和设计思想】

【 35. Flink调优 | 动态调整并行度】

【 36. Flink调优 | 自适应查询执行】

【 37. Flink 反压机制详解】

【 38. FlinkSQL 用户自定义connector 扩展实战】

【 39. Flink State Processor Api 读写 Flink State 实战】

十二、dolphinscheduler

【 1. dolphinscheduler 定时任务编写详细教程】

【 2. dolphinscheduler 定时任务编写详细教程】

【 3. dolphinscheduler 文件/任务组/UDF管理】

【 4. dolphinscheduler 配置DataX,Flink,Hive教程】

【 5. dolphinscheduler 配置spark、SQL、Sqoop教程】

十三、elasticsearch

【 1. ES增删改查代码实战】

十四、sqoop

十五、clickhouse

【 1. clickhouse 简介、安装及实操】

【 2. clickhouse 基本操作】

【 3. clickhouse 物化视图】

【 4. clickhouse字典操作】

【 5. clickhouse 测试数据集及SQL练习】

【 6. clickhouse集成mysql 】

十六、flinkcCDC

【 1. OceanBase CDC 导入 Elasticsearch 】

【 2. MongoDB CDC 导入 Elasticsearch 】

【 3. Oracle CDC 导入 Elasticsearch 】

【 4. PolarDB-X CDC 导入 Elasticsearch 】

【 5. SqlServer CDC 导入 Elasticsearch 】

【 6. TiDB CDC 导入 Elasticsearch 】

【 7. 涨知识!Flink旁侧流同步Mysql多表到Doris 】

十七、canal

十八、debezium

十九、datax

【 1. DataX Ftp远程文件读写操作】

【 2. DataX Oracle 读写教程】

【 3. DataX MySQL读写教程】

二十、hudi

二十一、starrocks

二十二、iceberg

【 1. 基于Flink+Iceberg构建准实时数仓】

二十三、doris

【 1. Doris安装与部署】

【 2. doris如何导入本地数据? 】

【 3. doris数据表的创建与数据导入】

【 4. doris 导入的数据转换、列映射及过滤】

【 5. 再见Hive,新一代数仓Doris横空出世,真香! 】

【 6. Doris真贴心,连测试数据都提供了,整整100G!建议收藏。】

【 7. 这款Doris运维组件,同事用了都说香... 】

【 8. 基于Doris的OLAP查询和实时数据仓库实战】

【 9. Doris 集群扩缩容实战】

【 10. Flink Doris Connector使用详解】

【 11. 腾讯一面:Doris有哪几种方式连接外部表】

【 12. Doris查询太慢?看一下这些优化方法... 】

【 13. 网易一面:七种Doris数据导入方式你知道几种? 】

【 14. 超级详细Doris安装部署教程】

【 15. 万字长文 | 详解Doris数据对象】

二十四、cdh centos

【 1. cdh6 搭建大数据集群(centos版本) 】

二十五、cdh ubuntu

【 1. CDH6搭建大数据平台(Ubuntu版) 】

二十六、superset

【 1. Superset整合Doris进行报表开发实战】

二十七、docker

二十八、kubernetes

二十九、streampark

三十、maxwell

三十一、Github

【 1. 想参与开源,不懂怎么PR(Pull Request),看这篇就够了】

【 2. 超级详细的github操作教程(万字长文) 】

三十二、NIFI

【 1. NiFI实时同步MySQL数据到Kafka保姆级教程! 】

三十三、SEATUNNEL

【 1. 完美替代DataX,Seatunnel初体验. 】

【 2. 手搓一个全新 Seatunnel Connector 】

【 3. 共建开源】手把手教你贡献一个Seatunnel PR,超级详细教程! 】

【 4. seatunnel配置写入Kafka任务,附300个案例demo 】

【 5. dolphinscheduler+flink+seatunnel集成详细教程】

【 6. Seatunnel 热门问题解答】

【 7. SeaTunnel配置秘籍 | 400页文档详尽指南】

【 8. SeaTunnel配置大全 | 50页详解Transform 】

三十四、Dinky

【 1. Dinky0.7安装详细教程... 】

三十五、Paimon

【 1. Paimon 初体验... 】

三十六、Datasophon

【 1. 国产大数据平台Datasophon安装详细教程! 】

大数据面试系列

【 1. 百度一面:什么是Flink状态? 】

【 2. 面试数据治理工程师,让介绍一下什么是数据治理】

【 3. Flink面试高频题:Flink两阶段提交】

三十七、Trino

【 1. 联邦查询神器Trino初体验】

【 2. Trino联邦查询Mysql,Sqlserver,Kafka实战】

大数据技能总结

【 1. 一文讲透企业级大数据开发流程】

【 2. 智能风控系统架构】

【 3. 7张图看懂用户画像】

【 4. 推荐系统知多少】

【 5. 知识图谱经典总结】

【 6. 什么是数据中台? 】

【 7. 云原生大数据如何实现? 】

【 8. 数据治理超强总结】

【 9. 数据仓库和数据湖】

【 10. 数据集成方案总结】

【 11. 数据仓库的起源,流行及未来】

实时离线数仓V1

【 1. 大数据版《上春山》 | 《实时/离线数仓实战》系列视频文章抢鲜发布】

【 2. 建议收藏 | 《实时/离线数仓实战》配套组件安装文档】

【 3. 视频 | 实时离线数仓实战NO.1 概览篇】

【 4. 视频 | 实时离线数仓实战No.2 业务库设计及模拟数据一键生成】

【 5. 视频 | 实时离线数仓实战No.3 Flink消费Kafka实时写入 Paimon ods 层】

【 6. 视频 | 实时离线数仓实战No.4 Dolphinscheduler搭配Seatunnel定时同步MySQL数据到Doris 】

【 7. 视频 | 实时离线数仓实战No.5 基于Dinky开发FlinkSQL清洗Paimon ODS层数据到DWD层】

【 8. 视频 | 实时离线数仓实战No.6 DS调度DorisSQL清洗ODS层数据到DWD层】

【 9. 视频 | 实时离线数仓实战No.7 基于Dinky开发Flink代码聚合Paimon DWD数据到DWS层】

【 10. 实时离线数仓实战No.8 基于Dolphinscheduler调度DorisSQL聚合DWD数据到DWS层】

【 11. 视频 | 实时离线数仓实战No.9 基于Dinky开发Flink代码关联DWS数据到ADS层】

【 12. 实时离线数仓实战No.10 DolphinScheduler调度DorisSQL 关联DWS层到ADS层】

【 13. 视频 | 实时离线数仓实战No.10 dolphinscheduler任务编排】

【 14. 《实时离线数仓实战》第一阶段总结及第二阶段展望】

实时离线数仓V2

【 1. 实时离线数仓实战V2 | 发布预告】

AI应用开发

【 1. AI榜单开源啦!欢迎各位圈友体验】

【 2. AI榜单使用手册】

其他

【 1. 超级惊艳的一款免费在线画图工具,完美适配程序员! 】

【 2. Snowflake算法个人魔改版... 】

【 3. FTP服务搭建教程(虚拟用户访问FTP服务) 】

【 4. 大数据精彩应用 | 催债也能有超高用户体验】

【 5. 国内AI大模型已近200个,我心中的排名前十的是哪些? 】

【 6. 自从用了这款开源大数据平台监控系统 HertzBeat ,睡觉超级香】

【 7. 数据可视化新篇章:Superset之后,Datart如何重塑行业格局? 】

关注微信公众号《大数据技能圈》

添加作者微信

About

大数据组件学习代码

Topics

python java elasticsearch spark hive hadoop clickhouse hbase flink sqoop iceberg datax cdh5 doris hudi dolphinscheduler

Resources

Stars

Watchers

Forks

Report repository

Releases

No releases published

Packages

No packages published

Languages