Python 3.6.0
- 文本输入支持txt文本和数据库输入文本
- 分词采用结巴模块
- TF-IDF算法将文档向量化
- 文本距离采用余弦距离
- 聚类算法使用sklearn的AgglomerativeClustering聚类算法
""" 文本聚类的配置文件 """ # ################ 输入设置 ######################### # 文本预处理 所需过滤字符或关键词 filter_item = "\ |[A-z]|\d|>|<|\.|。|》|《|=|,|,|?|\?|、|(|)|/|-|:|:|"|"" # 文本的路径及文件名 file_path = "." file_name = "content.txt" # 指定数据库的配置 db_info = dict( host="localhost", user="root", passwd="", db="work", charset="gbk" ) # ################### 聚类设置 ###################### # 文本分类数目 n_cluster = 4 # ################# 导出路径 ################### export_path = "." # 所有数据的分类 export_name_all = "分类统计.xls"