Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

Online Segmentation ans POS tagger with Average Perceptron

Notifications You must be signed in to change notification settings

hitwsl/OnlineLabel

Repository files navigation

目前系统提供了分词、词性标注训练和测试功能,但是不提供训练语料
系统测试时支持多线程,默认设置为单线程使用,可在调用时设置thread参数来设置线程数
分词训练和测试命令可参考目录下的seg.train.sh和seg.test.sh文件
词性标注训练和测试命令可参考目录下的pos.train.sh和pos.test.sh文件
目前训练算法只提供Average Perceptron,后续将增加新的训练算法
在每次迭代的时候,都会保存当前模型,并使用开发集对当前模型进行性能测试,用户可根据训练的log文件直接选择性能最优的模型
在sample.java文件中是调用相关分词和词性标注程序的示例
所有输入输出文件均使用UTF-8编码
文件说明:
data目录:
(1)pos
	conll06.pos.dic:conll06训练语料中抽取的词性标注词典,词典获取的方法是将语料中出现次数大于等于3次的词语及相关词性保存为词典
	dev.conll06.pos.gold:conll06语料词性标注开发集gold文件,在训练的时候做为模型的性能评价文件
	test.conll06.seg:conll06语料词性标注测试集测试文件
	test.conll06.pos:conll06语料词性标注测试集gold文件
	pos.tran.sample:词性标注训练语料格式样例
(2)seg
	pku.seg.dic: 北大词典
	pku.test.gold:pku语料测试集gold文件
	pku.test:pku语料测试集文件
	seg.train.sample:分词训练语料格式样例
model目录:
	conll06.pos.model:使用conll06语料训练的词性标注模型,目前模型在开发集上的性能为94.3%,测试集性能为93.7%
	pku.seg.model:使用pku语料训练的分词模型,目前模型在测试集上分词性能: P: 96.36% R: 96.23% F:96.29%
lib目录:
	包含引用的jar包
config目录:
	存放相关的配置文件。目前只包含log4j的配置文件。
log目录:
	存放系统运行的log文件,词性标注日志文件为pos.log,分词日志文件为seg.log
程序中使用的词性标注特征:
词语的n_gram特征:	
	w_i (i = -2,-1,0,1,2)
	w_i,w_i+1 (i = -1,0)
	w_-1,w_1
词边界特征:
	last_char(w_-1)w_0
	first_char(w_0)w_1
	其中first_char和last_char表示词语的第一个和最后一个字
词前后缀信息:
	first_char(w_0)last_char(w_0)
	prefix(w_0,i) (i =1,2,3)
	suffix(w_0,i) (i = 1,2,3)
	prefix代表词长度为i的前缀,suffix代表词长度为i的后缀
词长度信息:
	len(w_0)
	词的长度大于五的时候,统一使用五表示
词典信息:
	postag_lexicon(w_0)
	表示词语在词典中的候选词性
叠字信息:
	词语中每一个字和词语中的第一个字的组合
	词语中的每一个字和词语的最后一个字的组合
	词语中的第i个字和第i+1个字是否相同
	词语中的第i个字和第i+2个字是否相同
词语类别信息:
	digit,letter,punctuation以及other
程序中使用的分词特征:
字符n_gram特征:
	c_i (i = -2,-1,-,1,2)
	c_i,c_i+1 (i = -2,-1,0,1)
	c_i,c_i+2 (i = -2,-1,0)
	c_i,c_i+1,c_i+2 (i = -1)
叠字信息:
	dup(c_i,c_i+1): c_i和c_i+1是否是相同字
	dup(c_i,c_i+2): c_i和c_i+2是否是相同字
	chartype(c_0): c_0的字符类别,包括字母、标点、数字和其他
	prefix(c_0,D): 以c_0开始的在词典D中的最长前缀的长度
	middle(c_0,D): c_0位于中间的存在于词典中的最长子串的长度
	suffix(c_0,D): 以c_0结束的存在于词典中的最长后缀的长度
	

About

Online Segmentation ans POS tagger with Average Perceptron

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

AltStyle によって変換されたページ (->オリジナル) /