Skip to content

wavewangyue/text-classification

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
data_process		data_process
README.md		README.md
bys.py		bys.py
cnn.py		cnn.py
fasttext.py		fasttext.py
knn.py		knn.py
lstm.py		lstm.py
mlp.py		mlp.py
svm.py		svm.py
svm_doc2vec.py		svm_doc2vec.py
svm_word2vec.py		svm_word2vec.py
test_contents.txt		test_contents.txt
test_labels.txt		test_labels.txt
train_contents.txt		train_contents.txt
train_labels.txt		train_labels.txt
word_vector_cnn.py		word_vector_cnn.py
word_vector_lstm.py		word_vector_lstm.py

Repository files navigation

新闻上的文本分类:机器学习大乱斗 2017年05月05日

查看完整文档: https://zhuanlan.zhihu.com/p/26729228

目标

从头开始实践中文短文本分类,记录一下实验流程与遇到的坑
运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处理过程与结果差别

工具

深度学习:keras

传统机器学习:sklearn

参与比较的机器学习方法

CNN 、 CNN + word2vec
LSTM 、 LSTM + word2vec
MLP(多层感知机)
朴素贝叶斯
KNN
SVM
SVM + word2vec 、SVM + doc2vec 第 1-3 组属于深度学习方法,第 4-6 组属于传统机器学习方法,第 7 组算是种深度与传统合作的方法,画风清奇,拿来试试看看效果

数据集

搜狗实验室搜狐新闻数据下载地址:http://www.sogou.com/labs/resource/cs.php

先上结果

实验结论

引入预训练的 word2vec 模型会给训练带来好处,具体来说:(1)间接引入外部训练数据,防止过拟合;(2)减少需要训练的参数个数,提高训练效率
LSTM 需要训练的参数个数远小于 CNN,但训练时间大于 CNN。CNN 在分类问题的表现上一直很好,无论是图像还是文本;而想让 LSTM 优势得到发挥,首先让训练数据量得到保证
将单词在 word2vec 中的词向量加和求平均获得整个句子的语义向量的方法看似 naive 有时真挺奏效,当然仅限于短句子,长度 100 以内应该可以
机器学习方法万千,具体选择用什么样的方法还是要取决于数据集的规模以及问题本身的复杂度,对于复杂程度一般的问题,看似简单的方法有可能是坠吼地

About

新闻上的文本分类:机器学习大乱斗

Resources

Stars

Watchers

Forks

Report repository

Releases

No releases published

Packages

Contributors

Languages

Python 100.0%