Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

Mrkuhuo/bigdata_learning

Repository files navigation

大数据学习文档、实战代码、源码解析、测试数据

包含python、mysql、shell、 hadoop、hive、zookeeper、hbase、flume、kafka、spark、flink、dolphinscheduler、elasticsearch、sqoop、clickhouse、flinkcdc、canal、debezuim、datax、hudi、starrocks、iceberg、doris、cdh、superset、docker、kubernetes、strampark、maxwell等组件学习、实战、面试 持续更新中...

码字不易,路过的朋友们右上角请点个 ★star★ 鼓励一下~,感谢(抱拳)。

【 cassandra 代码 持续更新中...】

【 doris 代码 持续更新中...】

【 flink 代码 持续更新中...】

【 hbase 代码 持续更新中...】

【 hudi 代码 持续更新中...】

【 presto 代码 持续更新中...】

【 spark 代码 持续更新中...】

【 storm 代码 持续更新中...】

【 1. python 基础 】

【 2. python Numpy 】

【 3. python Pandas 】

【 4. Anaconda 搭建pyflink开发环境 】

【 5. Anaconda Jupyter Notebook中配置多版本Python 】

【1. shell基础 】

【2. 安装包下载 】

【 3. 一键搭建hive集群 】

【 4. 一键搭建dolphinscheduler集群 】

【 5. 一键搭建flume集群 】

【 6. 一键搭建elasticsearch集群 】

【 7. 一键搭建flink集群 】

【 8. 一键搭建flink集群 】

【 9. 一键搭建hbase集群 】

【 10. 一键搭建kafka集群 】

【 11. 一键搭建hadoop集群 】

【 1. 安装虚拟机Centos7 】

【 2. 安装MobaXterm 】

【 3. centos7免密设置 】

【 4. centos7安装JDK1.8 】

【 5. centos7安装mysql 】

【 1. CentOS7安装hadoop集群 】

【 2. hadoop基于 HDFS HA 集群高可用安装 】

【 3. hadoop基于 YARN HA 集群高可用安装 】

【 4. hadoop shell 命令 】

【 5. hadoop mapreduce实战 】

【 1. CentOS7安装hive集群 】

【 2. hive 基本概念 】

【 3. hive 查询 】

【 4. hive 窗口函数 】

【 5. hive 整合 hbase 】

【 1. CentOS7安装zookeeper集群 】

【 2. zookeeper基础 】

【 3. zookeeper实战 】

【 1. CentOS7安装Hbase集群 】

【 2. hbase原理 】

【 3. hbase shell命令 】

【 4. hbase 实时同步elasticsearch 案例 】

【 1. CentOS7安装Flume集群 】

【 1. kafka 安装(集群版)】

【 2. ★ kafka 面试之高可用 ★ 】

【 3. kafka 面试30问 】

【 4. kafka 分区数真的越多越好吗 】

【 5. kafka 事务实现原理 】

【 6. kafka 常见故障处理 】

【 7. kafka 真实项目最佳实践 】

【 8. 超惊艳的Kafka可视化工具,用了以后效率翻倍! 】

【 1. ★ flink 面试 100 问 ★ 】

【 2. flink 消费kafka的四种起始位置 】

【 3. pyflink Table API 基本操作案例 】

【 4. pyflink Table API wordcount案例 】

【 5. pyflink DataStream API wordcount案例 】

【 6. pyflink 集成 hive catalog模式建设数仓 】

【 7. pyflink 集成 hive catalog模式读写数据 】

【 8. FlinkSql 集成 hive catalog模式进行读写数据 】

【 9. ★ Flink checkpoint 执行流程及优化方案 ★ 】

【 10. ★ Flink 内存优化方案 ★ 】

【 11. Flink任务执行与资源划分 】

【 12. Flink 算子链与槽位共享 】

【 13. Flink 命令行工具 】

【 14. 拒绝背锅,FlinkCDC采集表操作日志 】

【 15. 还不会修改Flink源码?请看这篇教程→ 】

【 16. 这三种场景,建议使用Flink→ 】

【 16. FlinkSQL搭配Hive构建批流一体数仓完整过程 】

【 17. Flink实现运输公司车辆超速实时监测 】

【 18. 源码剖析 | Flink源码修改编译保姆级教程 】

【 19. 这三种场景,建议使用Flink 】

【 20. 还不会修改Flink源码?请看这篇教程 】

【 21. 万字长文 | 透过现象看本质 | 从WordCount 到Flink Streaming API 源码详细解读 】

【 22. Flink Table Api 完整源码解析 】

【 23. Flink《任务执行流程十步走》详细总结 】

【 24. 翻遍Flink源码,发现Client任务提交之后运行步骤竟然还有45步之多... 】

【 25. 5000字彻底讲清什么是Flink状态与容错 】

【 26. 一张图彻底说清楚 Flink checkpoint 过程中 Coordinator 到底做了哪些事 】

【 27. Flink源码分析 | barrier(屏障) 如何传输 】

【 28. Flink源码解析|状态的更新和存储流程详解 】

【 29. Flink源码解析 | 元信息的存储 】

【 30. Flink源码解析 | 状态恢复如何进行元数据读取 】

【 31. Flink源码解析 | 状态的重分配 】

【 32. Flink源码解析 | 状态数据的恢复 】

【 33. Flink状态的重分配策略详解 】

【 34. Flink窗口基本概念和设计思想 】

【 35. Flink调优 | 动态调整并行度 】

【 36. Flink调优 | 自适应查询执行 】

【 37. Flink 反压机制详解 】

【 38. FlinkSQL 用户自定义connector 扩展实战 】

【 39. Flink State Processor Api 读写 Flink State 实战 】

【 1. dolphinscheduler 定时任务编写详细教程 】

【 2. dolphinscheduler 定时任务编写详细教程 】

【 3. dolphinscheduler 文件/任务组/UDF管理 】

【 4. dolphinscheduler 配置DataX,Flink,Hive教程 】

【 5. dolphinscheduler 配置spark、SQL、Sqoop教程 】

【 1. ES增删改查代码实战 】

【 1. clickhouse 简介、安装及实操 】

【 2. clickhouse 基本操作 】

【 3. clickhouse 物化视图 】

【 4. clickhouse字典操作 】

【 5. clickhouse 测试数据集及SQL练习 】

【 6. clickhouse集成mysql 】

【 1. OceanBase CDC 导入 Elasticsearch 】

【 2. MongoDB CDC 导入 Elasticsearch 】

【 3. Oracle CDC 导入 Elasticsearch 】

【 4. PolarDB-X CDC 导入 Elasticsearch 】

【 5. SqlServer CDC 导入 Elasticsearch 】

【 6. TiDB CDC 导入 Elasticsearch 】

【 7. 涨知识!Flink旁侧流同步Mysql多表到Doris 】

【 1. DataX Ftp远程文件读写操作 】

【 2. DataX Oracle 读写教程 】

【 3. DataX MySQL读写教程 】

【 1. 基于Flink+Iceberg构建准实时数仓 】

【 1. Doris安装与部署 】

【 2. doris如何导入本地数据? 】

【 3. doris数据表的创建与数据导入 】

【 4. doris 导入的数据转换、列映射及过滤 】

【 5. 再见Hive,新一代数仓Doris横空出世,真香! 】

【 6. Doris真贴心,连测试数据都提供了,整整100G!建议收藏。 】

【 7. 这款Doris运维组件,同事用了都说香... 】

【 8. 基于Doris的OLAP查询和实时数据仓库实战 】

【 9. Doris 集群扩缩容实战 】

【 10. Flink Doris Connector使用详解 】

【 11. 腾讯一面:Doris有哪几种方式连接外部表 】

【 12. Doris查询太慢?看一下这些优化方法... 】

【 13. 网易一面:七种Doris数据导入方式你知道几种? 】

【 14. 超级详细Doris安装部署教程 】

【 15. 万字长文 | 详解Doris数据对象 】

【 1. cdh6 搭建大数据集群(centos版本) 】

【 1. CDH6搭建大数据平台(Ubuntu版) 】

【 1. Superset整合Doris进行报表开发实战 】

【 1. 想参与开源,不懂怎么PR(Pull Request),看这篇就够了 】

【 2. 超级详细的github操作教程(万字长文) 】

【 1. NiFI实时同步MySQL数据到Kafka保姆级教程! 】

【 1. 完美替代DataX,Seatunnel初体验. 】

【 2. 手搓一个全新 Seatunnel Connector 】

【 3. 共建开源】手把手教你贡献一个Seatunnel PR,超级详细教程! 】

【 4. seatunnel配置写入Kafka任务,附300个案例demo 】

【 5. dolphinscheduler+flink+seatunnel集成详细教程 】

【 6. Seatunnel 热门问题解答 】

【 7. SeaTunnel配置秘籍 | 400页文档详尽指南 】

【 8. SeaTunnel配置大全 | 50页详解Transform 】

【 1. Dinky0.7安装详细教程... 】

【 1. Paimon 初体验... 】

【 1. 国产大数据平台Datasophon安装详细教程! 】

【 1. 百度一面:什么是Flink状态? 】

【 2. 面试数据治理工程师,让介绍一下什么是数据治理 】

【 3. Flink面试高频题:Flink两阶段提交 】

【 1. 联邦查询神器Trino初体验 】

【 2. Trino联邦查询Mysql,Sqlserver,Kafka实战 】

【 1. 一文讲透企业级大数据开发流程 】

【 2. 智能风控系统架构 】

【 3. 7张图看懂用户画像 】

【 4. 推荐系统知多少 】

【 5. 知识图谱经典总结 】

【 6. 什么是数据中台? 】

【 7. 云原生大数据如何实现? 】

【 8. 数据治理超强总结 】

【 9. 数据仓库和数据湖 】

【 10. 数据集成方案总结 】

【 11. 数据仓库的起源,流行及未来 】

【 1. 大数据版《上春山》 | 《实时/离线数仓实战》系列视频文章抢鲜发布 】

【 2. 建议收藏 | 《实时/离线数仓实战》配套组件安装文档 】

【 3. 视频 | 实时离线数仓实战NO.1 概览篇 】

【 4. 视频 | 实时离线数仓实战No.2 业务库设计及模拟数据一键生成 】

【 5. 视频 | 实时离线数仓实战No.3 Flink消费Kafka实时写入 Paimon ods 层 】

【 6. 视频 | 实时离线数仓实战No.4 Dolphinscheduler搭配Seatunnel定时同步MySQL数据到Doris 】

【 7. 视频 | 实时离线数仓实战No.5 基于Dinky开发FlinkSQL清洗Paimon ODS层数据到DWD层 】

【 8. 视频 | 实时离线数仓实战No.6 DS调度DorisSQL清洗ODS层数据到DWD层 】

【 9. 视频 | 实时离线数仓实战No.7 基于Dinky开发Flink代码聚合Paimon DWD数据到DWS层 】

【 10. 实时离线数仓实战No.8 基于Dolphinscheduler调度DorisSQL聚合DWD数据到DWS层 】

【 11. 视频 | 实时离线数仓实战No.9 基于Dinky开发Flink代码关联DWS数据到ADS层 】

【 12. 实时离线数仓实战No.10 DolphinScheduler调度DorisSQL 关联DWS层到ADS层 】

【 13. 视频 | 实时离线数仓实战No.10 dolphinscheduler任务编排 】

【 14. 《实时离线数仓实战》第一阶段总结及第二阶段展望 】

【 1. 实时离线数仓实战V2 | 发布预告 】

【 1. AI榜单开源啦!欢迎各位圈友体验 】

【 2. AI榜单使用手册 】

【 1. 超级惊艳的一款免费在线画图工具,完美适配程序员! 】

【 2. Snowflake算法个人魔改版... 】

【 3. FTP服务搭建教程(虚拟用户访问FTP服务) 】

【 4. 大数据精彩应用 | 催债也能有超高用户体验 】

【 5. 国内AI大模型已近200个,我心中的排名前十的是哪些? 】

【 6. 自从用了这款开源大数据平台监控系统 HertzBeat ,睡觉超级香 】

【 7. 数据可视化新篇章:Superset之后,Datart如何重塑行业格局? 】

关注微信公众号《大数据技能圈》

公众号

添加作者微信

作者微信

AltStyle によって変換されたページ (->オリジナル) /