angelOnly / spark-session Public

Notifications You must be signed in to change notification settings
Fork 2
Star 5

spark用户访问session分析 (Spark,Java,MySQL)

angelOnly/spark-session

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
analysis		analysis
.DS_Store		.DS_Store
.gitattributes		.gitattributes
0.0. 项目简介.md		0.0. 项目简介.md
0.1 项目服务集群搭建.md		0.1 项目服务集群搭建.md
1.1 离线日志收集流程.md		1.1 离线日志收集流程.md
1.2 实时日志收集流程.md		1.2 实时日志收集流程.md
2.1 用户访问分析 Session 介绍.md		2.1 用户访问分析 Session 介绍.md
2.2 数据库表.md		2.2 数据库表.md
2.3 大数据平台介绍.png		2.3 大数据平台介绍.png
2.4 需求分析.md		2.4 需求分析.md
3.1 数据库表设计与创建.md		3.1 数据库表设计与创建.md
3.2 Eclipse 连接 MySQL 案例.md		3.2 Eclipse 连接 MySQL 案例.md
3.3 数据库连接池原理.md		3.3 数据库连接池原理.md
3.4 JDBC 辅助组件.md		3.4 JDBC 辅助组件.md
3.5 DAO 模式.md		3.5 DAO 模式.md
4.1 生成 Session 模拟数据并写入MySQL.md		4.1 生成 Session 模拟数据并写入MySQL.md
4.2 用户访问session分析 - 按session粒度聚合.md		4.2 用户访问session分析 - 按session粒度聚合.md
4.3 用户访问session分析 - 按筛选参数对聚合数据进行过滤.md		4.3 用户访问session分析 - 按筛选参数对聚合数据进行过滤.md
4.4 用户访问session分析 - session聚合统计之自定义Accumulator.md		4.4 用户访问session分析 - session聚合统计之自定义Accumulator.md
4.5 用户访问Session分析 - 重构Session聚合.md		4.5 用户访问Session分析 - 重构Session聚合.md
4.6 用户访问Session分析 - Session过滤重构.md		4.6 用户访问Session分析 - Session过滤重构.md
4.7 Session聚合之随机抽取Session.md		4.7 Session聚合之随机抽取Session.md
4.8 session聚合统计之计算统计结果并写入MySQL.md		4.8 session聚合统计之计算统计结果并写入MySQL.md
4.9 用户访问session分析 - 本地模拟数据测试.md		4.9 用户访问session分析 - 本地模拟数据测试.md
5.1 top10 热门品类实现思路.md		5.1 top10 热门品类实现思路.md
5.2 top10 热门品类之获取session访问过的所有品类.md		5.2 top10 热门品类之获取session访问过的所有品类.md
5.3 top10 热门品类之自定义二次排序key.md		5.3 top10 热门品类之自定义二次排序key.md
5.4 top10 热门品类之获取top10品类并写入MySQL.md		5.4 top10 热门品类之获取top10品类并写入MySQL.md
5.5 top10 热门品类之本地测试.md		5.5 top10 热门品类之本地测试.md
5.6 top10活跃session之top10品类RDD生成.md		5.6 top10活跃session之top10品类RDD生成.md
5.7 获取top10热门品类.md		5.7 获取top10热门品类.md
5.8 分组取top10品类session并存入MySQL.md		5.8 分组取top10品类session并存入MySQL.md
5.9 获取top10品类session之本地测试.md		5.9 获取top10品类session之本地测试.md
6.0 Spark 性能调优.md		6.0 Spark 性能调优.md
7.0 页面单跳转化率.md		7.0 页面单跳转化率.md
7.1 页面切片转化率实现.md		7.1 页面切片转化率实现.md
7.2 页面切片转化率数据表.md		7.2 页面切片转化率数据表.md
7.3 将页面切片转化率写入MySQL.md		7.3 将页面切片转化率写入MySQL.md
7.4 页面切片转化率 - 本地模拟数据测试.md		7.4 页面切片转化率 - 本地模拟数据测试.md
7.5 页面切片转化率 - 生产环境测试(Hive 表).md		7.5 页面切片转化率 - 生产环境测试(Hive 表).md
CategorySortKey.scala		CategorySortKey.scala
README.md		README.md

Repository files navigation

Spark 用户 Session 分析项目简介

项目环境搭建

CentOS7
Hadoop-2.7.6
Hive-1.2.2
Zookeeper-3.4.10
Kafka-2.11-2.1.0
Flume-1.9.0
Spark-2.3.1
Mongodb-linux-2.4.9
Scala-2.11.8
Jdk1.8.0_191
MySQL

编程语言

Java / Scala

项目架构搭建

配置管理组件
JDBC辅助组件 (内置数据库连接池)
工具类
模拟数据生成
单元测试
Domain 和 DAO

项目开发流程

数据分析(数据来源分析)
需求分析(基于数据,要实现的功能和需求)
技术方案设计(根据数据和需求,设计方案实现功能)
数据库设计(设计数据库表)
编码实现(基于掌握的Spark技术,编码实现)
功能测试(本地测试,单元测试,spark的client和cluster说明)
性能调优(spark core,spark sql,spark streaming,troubleshooting< 项目上线后,要及时解决出现的线上故障与报错 >,数据倾斜< 后期维护过程中,可能出现严重的性能问题 >)

项目模块

用户访问session分析
- session粒度聚合,按筛选条件进行过滤
- session聚合统计:统计出访问时长和访问步长,各个区间范围的session数量,占总session数量的比例
- session随机抽取:按时间比例,随机抽取出10个session
- top10热门品类:获取通过筛选条件的session,点击,下单和支付次数最多的10个品类。
- top10活跃session:获取top10热门品类中,每个品类点击次数最多的10个session。
- 自定义Accumulator
- 按时间比例随机抽取算法
- 二次排序
- 分组取topN
页面单跳转化率
- 页面单跳转化率计算业务
- 页面切片生成以及页面流匹配算法

技术点

项目架构(公共组件封装,包的划分)
复杂的分析需求(纯Spark作业)
Spark core 算子的综合实战:map,reduce,count,group
高级技术:自定义Accumulator,按时间比例随机抽取算法,二次排序,分组取topN算法

生成环境测试

hive 表

About

spark用户访问session分析 (Spark,Java,MySQL)

Releases

No releases published

Packages

No packages published

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

angelOnly/spark-session

Folders and files

Latest commit

History

Repository files navigation

Spark 用户 Session 分析项目简介

项目环境搭建

编程语言

Java / Scala

项目架构搭建

项目开发流程

项目模块

技术点

生成环境测试

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages

Languages

angelOnly/spark-session

Folders and files

Latest commit

History

Repository files navigation

Spark 用户 Session 分析项目简介

项目环境搭建

编程语言

Java / Scala

项目架构搭建

项目开发流程

项目模块

技术点

生成环境测试

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages