Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

GoAlers/Bigdata_Eshop

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

5 Commits

Repository files navigation

Bigdata_Eshop

本项目分别电商数据统计模块及业务采集及数仓搭建模块,利用hive统计每个区域热门商品进行统计;依据业务数据实现离线业务数仓搭建。
项目详解链接:https://blog.csdn.net/qq_36816848/article/details/113865910

一、电商热门商品统计项目

项目描述:模拟常规电商
数仓分析流程,利用hive、spark统计对用户行为日志及区域热门商品进行统计,支持用户决策。依据业务数据实现离线业务数仓导入及分层实现离线数仓搭建,实时数仓部分后续更新。

本项目总共分为三个模块,分别是:

一、电商热门商品统计模块

二、业务采集导入模块

三、离线数仓搭建模块

(一)项目介绍

针对常规电商网站进行大数据分析,对每个区域热门商品进行统计,支持用户决策。

项目流程及框架:Python-->Flume-->HDFS-->Mapreduce/Spark ETL-->HDFS-->Hive-->Sqoop-->Mysql

1.数据采集(ETL)

电商日志一般存储在日志服务器,通过 Flume 拉取到 HDFS 上,本文通过编写python程序模拟日志数据。

业务数据通过 Sqoop 从关系型数据库mysql中读取数据,然后导入到HDFS。

因为要访问数据库,所以会对数据库造成很大的压力,而且在真实的生产环境中,一般没有权限直接访问数据库。可以把数据导出成csv文件,放到日志服务器上,再通过Flume采集到HDFS上。假如有权限访问数据库,数据库也需要设置成读写分离的模式,来缓解压力。

2.数据清洗

使用 MapReduce 进行数据清洗。

使用 Spark Core 进行数据清洗。

3.各区域热门商品计算

使用 Hive 进行数据的分析和处理。

使用 Spark SQL 进行数据的分析和处理

4.数仓搭建

About

本项目分别电商数据统计模块及业务采集及数仓搭建模块,利用hive统计每个区域热门商品进行统计;依据业务数据实现离线业务数仓搭建。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

Contributors

AltStyle によって変換されたページ (->オリジナル) /