Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

supercoderhawk/DNN_CWS

Repository files navigation

基于深度学习的中文分词

使用TensorFlow实现基于深度学习的中文分词

本项目使用python3编写,没有支持python2的计划。

注:本项目主要是为了进行中文分词等相关自然语言处理研究而创建,暂时不推荐在正式的生产环境使用,另外本项目目前还在开发阶段

使用方法

准备

  1. 安装tensorflow:
pip install tensorflow
  1. clone本项目至本地.

  2. 运行文件init.py,生成训练用数据

开始使用

在本项目文件夹下创建一个文件,在里面添加如下代码并运行:

from seg_dnn import SegDNN
import constant
cws = SegDNN(constant.VOCAB_SIZE,50,constant.DNN_SKIP_WINDOW)
print(cws.seg('我爱北京天安门')[0])

详细示例可见文件test.py

相关代码文件说明

  • seg_dnn.py: 使用(感知机式)神经网络进行中文分词,对应论文1
  • seg_lstm.py: 使用LSTM神经网络进行中文分词,对应论文2
  • seg_mmtnn.py: 使用MMTNN网络进行中分分词,对应论文3
  • prepare_data.py: 预处理语料库,包括msr和pku
  • init.py: 用于生成进行训练和测试的数据的脚本文件

参考论文:

Todo List

  • 支持pip
  • 添加更加详细的注释
  • 提供词性标注功能

About

利用深度学习实现中文分词

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

AltStyle によって変換されたページ (->オリジナル) /