Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

ChenProgramer/treasurebox

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

26 Commits

Repository files navigation

TreasureBox

大数据百宝箱

大纲

这个框架封装了日常大数据工作的数据集处理,监控,评估等任务,并将大数据工作流程化,以此提高开发时间

因为数据体量的原因,大数据集的开发调试工作较其他开发而言很不一样,在总结多次开发实践之后,将调试工作单独抽出来,以方便调试

在大数据工作没有任何规范,约束的日子里,调试和开发的代码可读性很差,这个框架的目的也有提供一个可行的规范,使得代码可读性更强

快速开始

1 安装 java8 在本地

2 安装 scala 在本地

3 下载并打包本程序

4 执行example中的示例main方法

处理流程

本框架的总体流程如下图所示

1 DataLoader负责原始数据集的载入工作,因为这部分工作很多重复性劳动,所以可以抽离出来。目前共封装了3个数据源:hbase,hive,redis

2 DataCleaner负责数据清洗,目前是以组件的形式封装在DataLoader中,主要以BigDataVO的数据传输类进行约束

3 DataCutter负责数据集切分,这一块主要是评估任务用到,将训练集和测试集分离

4 DataConverter负责多个模型数据集之间的转换,这个也是大量重复性的劳动,因此也可以单独抽离出来

5 DataDebuger主要是将调试任务流程化,将每次调试都常用的操作固定出来

6 DataMoniter负责数据集任务的监控,正在开发中

7 DataProcessor 大数据工作开始的入口,封装了以上组件

当前计划

1 数据源的完善 2 切分器的通用性 3 修复评估处理器的部分bug 4 增加通用工具类 5 维护

About

Hey there! here it is treasure box ! enjoy it!

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

Contributors

Languages

AltStyle によって変換されたページ (->オリジナル) /