日期
2019年12月15日
小组协作式数据交互可视化项目
TED演讲数据可视化分析
完成情况
完成
小组成员
@卢佳燕 @李虹霓 @黄嘉雯
TED由Richard Saulman创立于1984年,是一家旨在将技术(technology),娱乐(entertainment)和设计(design)领域的专家聚集在一起的非盈利组织。Ted的口号是"Ideas worth spreading",也就是"值得传播的思想"。本研究首先针对ted_main.csv数据集,该数据集包含了2017年9月21日之前上传到官方网站TED.com的所有TED Talks演讲录制信息。
另一个数据集transcripts.csv包含了具体的演讲文本信息,我们稍晚一些时候再进行分析。
首先,让我们简单看一下ted_main.csv数据集的概况,并对数据集进行初步调整,看看有什么值得探索的方向。
- 浏览量最高的10个TED视频可视化分析
- 讨论量最高的10个TED视频可视化分析
- 浏览和讨论是否成正比
- 演讲的人多数来是什么职业
- 什么时候演讲比较多
- TED演讲的评价分析
- 不同时间的观看数和评论数对比
- 交互部分
下拉选单联动可视化
分类筛选
不同主题标签的浏览量对比
可视化图关联表格处理
表单折叠
表格数据太长不美观问题
TED演讲top5视频
点击图片跳转至对应TED视频连接
top视频连接及对应图片封面
- 可视化部分
各分类主题和浏览数量
条形图
浏览量vs评论量
相关关系图
不同时间的评论和观看数
交互折线图
演讲者职业和演讲数量
条形图
时间和演讲数量
折线图
- pandas做数据清理和处理
- plotly可视化
- dashipynb文件
- flask模块渲染页面
- pythonanywhere交互图片需要点击"数据分析展示"下面链接内容
- pythonanywhere2基于@李虹霓的版本加了故事描述
- 参考一些代码做美化 (Bootstrap 表单、面板、折叠、图片排版等、网上css样式)
简述:本数据集包含了2017年9月21日之前上传到官方网站TED.com的所有TED Talks演讲录制信息。
文件列表:
- ted_main.csv: 包含演讲主要信息,包括演讲标题,发言人,演讲内容,观看次数,评论数量,演讲评分等。
- transcripts.csv: 包含演讲链接和官方英文字幕。
数据内容源自于kaggle平台用户分享,基于Creative Commons License发布,具体信息内容源自TED官网。
TED数据主题分析学习
| 版本 | 日期 | 修改内容 | 涉及人员 |
|---|---|---|---|
| V1.1 | 2019年12月15日 | 展示PRD、原型,招募人员 | 卢佳燕 |
| V2 | 2019年12月18日 | 数据清洗及部分可视化 | 卢佳燕 |
| V3 | 2019年12月30日 | dash、flask本地内容 | 卢佳燕 |
| V4 | 2019年1月1日 | 页面顶部标题图样式和交互处理 | 李虹霓 |
| V5 | 2019年1月1日 | 页面底部图片样式和交互处理 | 黄嘉雯 |
| V6 | 2019年1月5日 | Pythonanywhere部署 | 李虹霓 |
| V6 | 2019年1月6日 | Pythonanywhere部署基础上加文字描述和样式 | 卢佳燕 |