Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

bainingchao/DataProcess

Repository files navigation

慕课网公开课:《Python数据预处理》

本课程是作者跟慕课网合作开发的一款数据预处理课程,归作者和慕课网共同所有,仅限学习使用。

技术交流群 机器学习和自然语言(QQ群号:436303759)是一个研究深度学习、机器学习、自然语言处理、数据挖掘、图像处理、目标检测、数据科学等AI相关领域的技术群。其宗旨是纯粹的AI技术圈子、绿色的交流环境。为解决成员交流中的时间壁垒,为提高群体技术交流效率。本群禁止有违背法律法规和道德的言谈举止。群成员备注格式:城市-自命名。微信订阅号:datathinks

第一部分:抽取多源数据文本信息

第一章:Python数据预处理介绍

  • 第一小节:什么是数据预处理
  • 第二小节:为什么做这门课
  • 第三小节:本课程可以学习到什么
  • 第四小节:开发环境说明
  • 第五小节:课程体系介绍
  • 第六小节:源码获取

第二章:抽取文本信息

  • 第一小节:常见数据类型与采集策略
  • 第二小节:一堆杂乱无章的数据
  • 第三小节: 文本抽取的3种方法分析
  • 第四小节:Pywin32实现文本格式转换
  • 第五小节:抽取Word文本算法实现
  • 第六小节:抽取PDF文本算法实现
  • 第七小节:文本抽取与编码工具的封装
  • 第八小节:批量读取目录文件
  • 第九小节:实战案例:遍历文件自动抽取新闻文本

第二部分:清洗文本数据

第三章:清洗文本信息

  • 第一小节:准备30万新闻数据
  • 第二小节:Yield生成器
  • 第三小节: 递归方法遍历30万新闻
  • 第四小节: 高效方法遍历30万新闻
  • 第五小节: 正则清洗字符串数据
  • 第六小节: 正则清洗网页数据
  • 第七小节: 简繁字体转换
  • 第八小节:实战案例:高效批量清洗新闻文本数据

第四章: 文本特征提取

  • 第一小节:结巴分词精讲
  • 第二小节:HanLp分词精讲
  • 第三小节:自定义去除停用词
  • 第四小节:NLTK词频统计
  • 第五小节:高低词频选择方法
  • 第六小节: 命名实体快捷抽取
  • 第七小节: 计算多分类下的TF-IDF值
  • 第八小节:实战案例:高效批量提取新闻文本特征

第三部分:文本特征向量化

第五章:手工实现文本特征向量化

  • 第一小节:解析数据文件
  • 第二小节:处理数据缺失值
  • 第三小节:不均衡数据归一化
  • 第四小节: 计算文本相似度
  • 第五小节:特征词转文本向量
  • 第六小节:词频与逆词频TF-IDF
  • 第七小节:词集模型与词袋模型
  • 第八小节:实战案例:新闻文本特征向量化

第六章: Gensim实现文本特征向量化

  • 第一小节:Ginsim介绍
  • 第二小节:Ginsim 构造语料词典
  • 第三小节:Ginsim统计特征词频
  • 第四小节:Ginsim 计算TF-IDF
  • 第五小节:LSA潜在语义分析主题实现
  • 第六小节: LDA隐含狄利克雷分布主题实现
  • 第七小节: RP生成随机映射主题实现
  • 第八小节:HDP分层狄利克雷过程主题实现
  • 第九小节:实战案例:Gensim实现新闻文本特征向量化

第四部分:特征降维与可视化

第七章:主成分分析PCA实现特征降维

  • 第一小节:数据降维介绍
  • 第二小节:二维数据降维
  • 第三小节:PCA 算法原理与实现
  • 第四小节: PCA降维特征可视化
  • 第五小节:特征数据主成分分析
  • 第六小节:实战案例:PCA技术实现新闻文本特征降维

第八章: Matplotlib数据可视化

  • 第一小节:Matplotlib介绍
  • 第二小节:Matplotlib绘制折线图
  • 第三小节:Matplotlib绘制散点图
  • 第四小节:Matplotlib绘制直方图
  • 第五小节:Matplotlib绘制复杂图
  • 第六小节:Matplotlib绘制3D图

第五部分:XGBoost实现网络新闻自动分类

第九章: XGBoost实现新闻文本分类

  • 第一小节:文本分类概述
  • 第二小节:XGBoost概述
  • 第三小节:XGBoost官方案例:预测毒蘑菇
  • 第四小节:XGBoost 参数介绍
  • 第五小节:XGBoost 调参案例:预测糖尿病患者
    • 加载官网比赛数据
    • 训练算法模型
    • 最佳决策树
    • 最佳min_child_weight和max_depth
    • 最佳gamma和subsample
    • 最佳参数与结果分析)
  • 第六小节:新闻文本数据预处理全过程
    • 通用方法类库
    • 生成词典模型
    • 生成TF-IDF向量模型
    • 生成LSI主题模型
    • 特征降维与选择模型
  • 第七小节:XGBoost构建分类器模型
  • 第八小节:XGBoots分类器模型评估
  • 第九小节:综合案例:XGBoost实现网络新闻自动分类

开源视频共享

本群倡导"AI技术视频共享"项目,纯粹的收集大家珍藏的技术视频资源,汇少成多,更多的服务大家。本群中的技术视频均由成员无偿自愿上传,以供所有共享者学习。择其部分视频供无共享者成员学习,此技术视频属于公益无偿的,仅供个人学习。不可进行商业活动,违者自行承担后果。截止2019年4月10日经过严格视频质量审核通过的视频为8类包括Python Web技术视频3套、大数据技术视频3套、机器学习技术视频3套、深度学习技术视频8套、数据科学视频6套、数据挖掘视频2套、自然语言处理视频6套和图像处理视频2套,共计33套,约1300G。具体如下:

  • Python Web技术视频
    • Django网站开发(贡献者:顽主)
    • Python Web开发完整视频(贡献者:顽主)
    • Python最新就业班(贡献者:顽主)
  • 大数据技术视频
    • Hadoop44集入门视频(贡献者:数据思维)
    • Hadoop全套视频(贡献者:数据思维)
    • Hadoop实战视频(贡献者:数据思维)
  • 机器学习技术视频
    • 吴恩达机器学习视频(贡献者:烟花易冷)
    • 机器学习视频(贡献者:Candymoon)
    • 2017机器学习升级(贡献者:北京-sunboy)
  • 深度学习技术视频
    • Tensorflow源码级技术分享(贡献者:数据思维)
    • 深度神经网络算法全套(贡献者:流音)
    • 吴恩达深度学习视频(贡献者:烟花易冷)
    • 神经网络算法与推荐系统实战(贡献者:水上书)
    • 深度学习(贡献者:顽主)
    • 深度学习实战视频-人脸检测(贡献者:张顺)
    • Tensorflow实战视频-文本分类(贡献者:张顺)
    • TensorFlow打造唐诗生成网络(贡献者:张顺)
  • 数据科学视频
    • Scrapy爬虫框架进阶课程(贡献者:数据思维)
    • 分布式爬虫实战视频(贡献者:Timothy)
    • Python数据分析与机器学习实战(贡献者:小佐)
    • 廖雪峰商业爬虫(贡献者:顽主)
    • Python量化金融项目(贡献者:顽主)
    • Python数据分析与机器学习实战(贡献者:顽主)
  • 数据挖掘视频
    • 大数据数据分析与挖掘(贡献者:顽主)
    • Python3数据分析与挖掘实战(贡献者:顽主)
  • 自然语言处理视频
    • 知识图谱视频(贡献者:Candymoon)
    • 自然语言处理(贡献者:微笑,向着太阳)
    • 知识图谱(贡献者:微笑,向着太阳)
    • 机器学习之自然语言处理(贡献者:大白菜)
    • 自然语言处理之序列模型(贡献者:无为而立)
    • 文本挖掘与自然语言处理(贡献者:海蓝你喜欢吗)
  • 图像处理视频
    • 中科院图像处理系列课程(贡献者:顽主)
    • 2018深度学习之目标检测 (贡献者:顽主)

About

慕课网公开课:数据预处理

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

AltStyle によって変換されたページ (->オリジナル) /