Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings
forked from jnuchen/meteor

a realtime platform with technology of spark,kafka,cassandra and redis

Notifications You must be signed in to change notification settings

will2love/meteor

Repository files navigation

流星实时数据开发平台

一个实时地干离线的活的流式计算平台!
基于hive sql,能进行任何复杂业务的sql运算。
UV,PV,新UV,跟踪类指标,在线时长、在线人数等等,都可以算。并且是0误差。

本平台已用每天几十亿行的数据验证通过。
交流QQ群:50319142

一、特点:

1、支持任何量级的0误差去重。
2、支持任何量级的大表join。
3、基于hive sql,支持创建中间表。
4、分钟级时延,一般为2分钟。(依赖于spark stream去kafka取数据的间隔频次)

二、使用技术

1、框架:kafka,spark-stream,spark-sql,redis集群,cassandra(可选),mysql
2、开发语言:java,scala

三、示意图

image

1、系统按固定间隔(如1min)去kafka拉数据,叫时间片数据。
2、系统将各时间片数据转换成表,基于hive sql进行运算。
3、系统对各时间片数据独立无干扰进行运算。每个表系统都会自动加上当前时间片的uuid。
4、通过函数:c_sum,c_distinct,c_join,c_max和c_min。利用redis或cassandra,对所有时间片进行全局运算。

四、SQL帮助文档

查看详情

五、demo安装示例

demo安装
demo示例

六、问题

查看详情

About

a realtime platform with technology of spark,kafka,cassandra and redis

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Java 51.2%
  • JavaScript 19.2%
  • CSS 15.0%
  • Scala 8.8%
  • HTML 5.8%

AltStyle によって変換されたページ (->オリジナル) /