flashriver / four_corner_method Public

forked from howl-anderson/four_corner_method

Notifications You must be signed in to change notification settings
Fork 0
Star 0

中文「四角号码」数据与工具,可以将汉字拆解成和字形相关的编码,在机器学习中作为汉字的字形特征

0 stars 8 forks Branches Tags Activity

Star

Notifications

flashriver/four_corner_method

Branches Tags

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.idea		.idea
data		data
four_corner_method		four_corner_method
MANIFEST.in		MANIFEST.in
Makefile		Makefile
README.md		README.md
dev_requirements.txt		dev_requirements.txt
example_code.py		example_code.py
parse.py		parse.py
query.py		query.py
setup.py		setup.py

Repository files navigation

中文「四角号码」数据与工具

四角号码,汉语词典常用检字方法之一,用最多5个阿拉伯数字来对汉字进行归类。

四角号码最重要的特定之一是字型相似的字具有相同或者相似的编码。比如 门 和 闫 比较相似,它们都编码成了 37001。闩 和它们两个也比较接近,被编码成 37101

这种特性可以被深度学习模型用来作为字的特征之一:字形的特征。

使用

python ./query.py 民

from four_corner_method import FourCornerMethod
fcm = FourCornerMethod()
result = fcm.query('名')
print(result)

输出

从原始数据生成

数据来源

数据来自于资料共享——最全的《四角号码检字表》chm

chmlib 将 CHM 文件提取成 HTML

TODO

解析

pytohn ./parse.py

致谢

四角号码数据来自于 wangyanhan AT 资料共享——最全的《四角号码检字表》chm

About

中文「四角号码」数据与工具,可以将汉字拆解成和字形相关的编码,在机器学习中作为汉字的字形特征

Releases

No releases published

Packages

No packages published

Languages

HTML 100.0%

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

flashriver/four_corner_method

Folders and files

Latest commit

History

Repository files navigation

中文「四角号码」数据与工具

使用

从原始数据生成

数据来源

chmlib 将 CHM 文件提取成 HTML

解析

致谢

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages

Languages

flashriver/four_corner_method

Folders and files

Latest commit

History

Repository files navigation

中文「四角号码」数据与工具

使用

从原始数据生成

数据来源

chmlib 将 CHM 文件 提取成 HTML

解析

致谢

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

chmlib 将 CHM 文件提取成 HTML

Packages