我是最早做java、ruby,一个偶然机会转型到大数据、数据仓库,最近想研究下spark,有兴趣的可以一块讨论了..
你先讲讲你在做的大数据吧,我见过无数人说在做大数据,但是具体做什么好像都语焉不详的样子
1楼 @tinyfool 平时工作主要数据仓库的建设、维护..给bi系统提供数据支持。最近公司提倡平台化、接口化.组里正开发平台工具,让下游或者外部更方面使用仓库的数据. spark的考虑是因为基于hive的数据仓库想开放给策略人员使用,而策略人员使用数据的特点是多次、快速迭代.各种算法.hive支持不够..so so 工具底层要引入spark.提高分析性能和功能支持..
2楼 @smallbaby_dns :)好吧,基本上没听懂
50万个用户资料算不算大数据呢?应该在一般的定义里面不算吧?
昨天刚听到一个故事,某医院费尽功夫收集了某类患者50万份资料,但是结果是呢?没有会处理......
我觉得 得提个醒 大数据的定义是 样本即为总体或者接近总体, 而不是 数量一定就是很庞大。
5楼 @vinnsung 也许跟名字有关,叫做全数据就不会有这个误解了
总之,感谢上了一课
4楼 @tinyfool 以前经常处理上亿条的数据,移动的用户都不敢叫做大数据呢。
6楼 @tinyfool 推荐一本书,虽然感觉废话有点多。 《大数据时代》http://book.douban.com/subject/20429677/
7楼 @jinyangnet 按照5楼的定义,核心看你这上亿是全部数据,还仅是全部数据的一个小子集了
8楼 @vinnsung 不着急看,我最近倒是没那么关注这个问题,这个论坛的数据不大,哈哈
AltStyle によって変換されたページ (->オリジナル) / アドレス: モード: デフォルト 音声ブラウザ ルビ付き 配色反転 文字拡大 モバイル