Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

okcing/textCluster

Repository files navigation

简单文本聚类程序

程序编辑环境

Python 3.6.0

流程说明

  1. 文本输入支持txt文本和数据库输入文本
  2. 分词采用结巴模块
  3. TF-IDF算法将文档向量化
  4. 文本距离采用余弦距离
  5. 聚类算法使用sklearn的AgglomerativeClustering聚类算法

基本配置文件为:

"""
文本聚类的配置文件
"""
# ################ 输入设置 #########################
# 文本预处理 所需过滤字符或关键词
filter_item = "\ |[A-z]|\d|>|<|\.|。|》|《|=|,|,|?|\?|、|(|)|/|-|:|:|"|""
# 文本的路径及文件名
file_path = "."
file_name = "content.txt"
# 指定数据库的配置
db_info = dict(
 host="localhost",
 user="root",
 passwd="",
 db="work",
 charset="gbk"
)
# ################### 聚类设置 ######################
# 文本分类数目
n_cluster = 4
# ################# 导出路径 ###################
export_path = "."
# 所有数据的分类
export_name_all = "分类统计.xls"

About

这是一个文本聚类的小程序

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%

AltStyle によって変換されたページ (->オリジナル) /