数据新闻所需要的爬虫和数据分析代码
Corpus文件夹里面是爬虫爬来和各种手段整出来的语料原始文件
- xxx讲话.txt里面就是xxx的讲话合集汇总了。
Code文件夹里面是用到的代码。
Data2Analyse文件夹里面是处理后用来进行可视化文件
- xxx讲话分词版.txt是文本分词后的结果,强行删除了一些无效的词。
- xxx讲话.xls是词频统计后的结果,有调整前比率和调整后比率。调整后比率=调整前比率*10
| Name | Name | Last commit message | Last commit date | |
|---|---|---|---|---|
Latest commit | ||||
数据新闻所需要的爬虫和数据分析代码