Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

argb/hanzi-data

Repository files navigation

-

这个项目会收集、整理各种汉语字词相关的数据,比如常用汉字、词组的列表,常用汉字的词频统计数据、HSK大纲要求掌握的字词数据等。

相关说明:

1、cedict_1_0_ts_utf-8_mdbg.txt.gz 一个开源的英汉词典数据 来自:https://www.mdbg.net/chinese/dictionary?page=cedict

2、现代汉语常用字表.csv 现代汉语汉字频率表.csv 以上数据来自国内一个语料库网站, http://corpus.zhonghuayuwen.org/index.aspx。 看起来比较官方并且年久失修的样子,不过此类数据几年甚至十几年不更新并没有太大影响。 我对其进行了简单的整理。

原数据中有些小问题:

  1. 现代汉语汉字频率表 有100多条重复的""记录,首先它不是个汉字,其次,它大量重复。所以我将其删除了。 2)对比了"现代汉语常用字表.csv"跟"现代汉语汉字频率表.csv"两个文件,取差集后发现有几个字在"现代汉语汉字频率表"中没有记录, 这几个字是:"玖","柒","捌",还有"",不过这个下划线符号已经被我剔除了。 为了保持数据的一致性,我手动加入了上面三个字,将其字频设置为4,原数据不会统计频率低于5的汉字。这几个字既然出现在了常用字表里,说明 使用频率还是有一些的,但是频率统计表里却没有,我估计原因可能有两个:一个是语料问题,如果真这样的话那整个统计数据就都有问题了,但是可能性不大。 就算有一点问题也应该不是大问题;另一个是这几个字其实使用频率很低,统计次数低于5,原数据的的说明里提到出现频率低于5的词没有进行记录。

3、HSK相关数据 HSK相关数据网上收集。 俄语翻译版的hsk-level-6-russian.csv(该文件包含hsk1~6级的数据) 整理自网上收集的一份pdf数据

4、我把HSK1~6级单词列表中的词汇涉及到的单字整理出来,发现共有2632个,这个数据跟2500个最常用汉字的数据吻合,并且这些字"全部存在于(差一个:D) 存在于"现代汉语汉字频率表"中,或许可以推断,仅仅是或许,hsk大纲的制定也参考了这份数据。

5、对字频表中的数据进行补充 1)、加上常用等级标记和hsk等级标记 2)、加上了汉语拼音 3)、加上音频数据字段 (音频数据待补充)

About

这个项目会收集、整理各种汉语字词相关的数据,比如常用汉字、词组的列表,常用汉字的词频统计数据、HSK大纲要求掌握的字词数据等。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

Contributors

AltStyle によって変換されたページ (->オリジナル) /