Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

SpringDamon/jiron-cloud

Repository files navigation

请各位朋友点个 ★star★ 支持一下,非常感谢~

【 Github地址:https://github.com/642933588/jiron-cloud 】

【 Gitee 地址:https://gitee.com/642933588/jiron-cloud 】

【 推荐实时数仓(数据湖)项目:https://github.com/Mrkuhuo/data-warehouse-learning 】

这是一款功能全面的数据开发平台。平台提供了强大的数据集成、数据开发、数据查询、数据服务、数据质量管理、工作流调度和元数据管理功能。dinky ,dolphinscheduler ,datavines ,flinkcdc ,openmetadata ,flink ,数据开发 ,数据平台 ,数据开发平台 ,大数据

目录

功能

数据质量管理 (Datavines)

  • 数据质量监控:定义和执行数据质量规则,如空值检测、重复值检测、范围检查等,确保数据的准确性和完整性。
  • 告警和通知:当数据质量出现问题时,Datavines 通过电子邮件、短信等方式发送告警通知,确保相关人员能够及时响应和处理问题。
  • 数据治理:支持数据分类、标签和权限管理,确保数据的合规性和安全性。
  • 数据质量报告:生成详细的数据质量报告,帮助用户了解和改进数据质量。

工作流调度 (DolphinScheduler)

  • 分布式架构:处理大规模的数据处理任务,确保系统的高可用性和扩展性。
  • 任务依赖管理:定义复杂的任务依赖关系,确保任务按照预定的顺序执行。
  • 丰富的任务类型:支持多种类型的任务,包括 Shell、Python 脚本、SQL、MapReduce、Spark、Flink 等。
  • 可视化工作流设计:提供直观的图形化用户界面,通过拖拽方式设计和配置工作流。
  • 任务调度:支持灵活的调度策略,包括定时调度、依赖触发、手动触发等。
  • 任务监控与告警:实时监控任务的执行状态,并提供告警通知功能,确保问题及时处理。
  • 资源管理:管理任务所需的资源,确保资源合理分配和使用。

元数据管理 (OpenMetadata)

  • 元数据管理:捕获和存储各种数据资产的元数据,包括表、列、数据集、仪表板、机器学习模型等。
  • 数据发现:提供强大的数据发现工具,帮助用户搜索和发现企业内的数据资源。
  • 数据血缘分析:支持详细的数据血缘分析,显示数据的来源和流向,提高数据透明度。
  • 数据治理:定义和执行数据治理策略,包括数据分类、标签、访问控制、合规性检查等。
  • 数据质量管理:与 Datavines 集成,监控和管理数据质量,检测数据中的错误和异常。
  • 集成与互操作性:支持与多种数据源和数据工具的集成,适应多样化的数据环境。
  • API 和 SDK:提供丰富的 API 和 SDK,支持开发者扩展和定制功能。
  • 可视化界面:提供用户友好的可视化界面,便于浏览和管理元数据,查看数据血缘关系图,配置数据治理策略等。

实时数据处理 (Dinky)

  • 实时数据处理:Dinky 提供了强大的实时数据处理能力,支持 Flink 等流处理框架。
  • 实时计算任务:用户可以定义和执行实时计算任务,处理实时数据流。
  • 数据集成:支持多种数据源和目标,能够将实时数据流集成到不同的数据系统中。
  • 可视化开发:提供直观的图形化界面,用户可以通过拖拽方式设计和配置实时计算任务。
  • 监控与告警:实时监控数据流处理状态,并在出现异常时提供告警通知。
  • 高可用性:设计了高可用性和容错机制,确保实时数据处理的稳定性和可靠性。

数据集成

  • 多数据源支持:支持多种数据源的集成,包括数据库、API、文件系统等,能够灵活应对不同的数据来源。
  • 多执行引擎支持:支持多种执行引擎,包括 DataX、Sqoop、Flink CDC,满足不同场景的数据同步需求。
  • 全库同步:支持整个数据库的同步,方便全面的数据迁移和复制。
  • 多表同步:支持多表同步,简化复杂的数据集成任务。
  • 全量和增量同步:提供全量和增量同步功能,实现数据的一体化同步。
  • 断点续传:支持断点续传机制,确保数据集成过程的可靠性和稳定性。

数据查询

  • 灵活高效的数据查询:基于 Kyuubi 提供灵活高效的数据查询功能,支持 SQL 和非 SQL 查询,满足各种数据检索需求。
  • 多数据源支持:支持多种数据源的数据查询,适用于不同的数据存储系统。
  • 高性能:优化的查询引擎,确保数据查询的高性能和低延迟。

数据分析

  • 集成多种数据分析工具:集成多种数据分析和可视化工具,帮助用户快速获取洞见。
  • 可视化分析:提供丰富的可视化组件,用户可以通过图表、仪表板等方式展示分析结果。
  • 高级分析功能:支持机器学习模型、统计分析等高级分析功能,满足复杂数据分析需求。

数据服务

  • 数据服务接口:提供数据服务接口,支持 RESTful API 和 GraphQL,方便数据的对外提供和集成。
  • 灵活的数据访问:通过 API 提供灵活的数据访问方式,满足不同应用和系统的集成需求。
  • 高可用性和安全性:设计了高可用性和安全性机制,确保数据服务的可靠性和数据的安全性。

架构

架构图

安装

目前演示环境还在筹备中,知识星球有完整部署文件,可以先本地环境部署体验(二维码在最下面)

知识星球有什么: 1 部署资料搭建环境 2 平台及数据开发常见问题分析 3 平台二次开发教程 4 实时数仓(数据糊)实战教程 5 问题解答

演示

首页

0

系统管理

0-0

数据开发

0-0 0-2 0-3 0-4 0-5 1-0 1-1 1-2 2-0 3-0 4-0 5-0 5-1 5-2 6-0 6-1 6-2 6-3 6-4 6-5 6-6

工作流开发

0-0 0-1 0-2 0-3 0-4 0-5 0-6 1-0 2-0 3-0 4-0 4-1 4-2 4-3

数据质量

0 1 2 3-1 3 4 5 6 7 8

数据资产

0-1 0-2 1-1

1-2 1-3 1-4 1-5 1-6 1-8 1-9 1-10 1-7 2-1 2-2 2-3 3-1 4-1 5-1 6-1 9-1 9-2

实践

《实时数仓(数据湖)实战》是一个以电商系统为基础,围绕电商业务指标统计需求而构建的实时数仓(数据湖)项目,涉及组件flink、paimon、doris、seatunnel、dolphinscheduler、datart、dinky、hudi、iceberg。通过该项目,可以快速掌握实时数仓(数据湖)基本概念、数仓分层构建步骤及所涉及各类大数据组件实战用法。代码地址:https://github.com/Mrkuhuo/data-warehouse-learning

贡献指南

我们欢迎任何形式的贡献!如果你有好的建议或发现了问题,请提交一个 Issue 或 Pull Request。 提供或赞助云服务器资源搭建云学习环境。

许可

本项目采用 apache-2.0 license 许可证。详情请参阅 LICENSE

联系我们

image image image

About

该项目整合了多款优秀的开源产品,构建了一个功能全面的数据开发平台。平台提供了强大的数据集成、数据开发、数据查询、数据服务、数据质量管理、工作流调度和元数据管理功能。#dinky #dolphinscheduler #datavines #flinkcdc #openmetadata #flink #数据开发 #数据平台 # 数据开发平台 #大数据

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

Contributors

Languages

  • Java 85.7%
  • PLpgSQL 14.1%
  • Shell 0.2%

AltStyle によって変換されたページ (->オリジナル) /