Skip to content

keencodegithub / xuexin-ocr Public

forked from wycm/xuexin-ocr

Notifications You must be signed in to change notification settings
Fork 0
Star 0

学信网学籍&学历图片内容识别

0 stars 3 forks Branches Tags Activity

keencodegithub/xuexin-ocr

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
resources		resources
.gitignore		.gitignore
1.png		1.png
README.md		README.md
__init__.py		__init__.py
chinese_ocr.py		chinese_ocr.py
gen_printed_chinese_char.py		gen_printed_chinese_char.py
label_dict.py		label_dict.py
requirements.txt		requirements.txt
splitter.py		splitter.py
utils.py		utils.py
xuexin_segment.py		xuexin_segment.py

Repository files navigation

xuexin-ocr

xuexin-ocr是一个针对学信网 https://www.chsi.com.cn/ 学籍&学历图片信息内容识别项目

识别效果

使用

模型训练

样本字体图片生成:Run with gen_printed_chinese_char.py。字体相关参数使用默认参数,这组参数经过我多次调整后准确率相对较高的一组参数。样本集见label_dict.py,这里采用了6000+个汉字和数字等字符。其中字体文件在chinese_fonts目录。默认只放了一种字体
样本训练:Run with chinese_ocr.py。

字体切割&预测

Run with xuexin_segment.py。

训练需要的字体文件&训练好的模型下载

链接: https://pan.baidu.com/s/1h3pJ8UGQfCtfhNiyGA1NKg 提取码: nxyp

字符切割

图片的内容结构是固定的,把每一行和列的内容切割出来,然后再逐一把每个汉字切割出来。图片灰度、二值化(二值化过滤掉水印和一些不相关的内容)、切割为m * n张小图片、再对每一张图片处理、水平投影、垂直投影、根据字体最小宽度和空隙进行切割。
切割准确度问题:因为存在汉字和数字,并且2类字体的宽度还不一致,为了保证切割的准确性,设定一个字体的最小宽度,然后根据投影的空隙来进行切割。如果最小宽度设定过小,可能导致部分数字切割失败。如果最小宽度设定过大,可能会导致一些如("法")类似字体被切割为两个字体。为了解决这个问题,在首次切割完成后,如果字体宽度属于较小宽度类型的。则认为该字体是数字,如果预测结果是数字的准确率超过0.1。则认为结果没问题,否则认为该分割有误,分割了一个完整的汉字,再根据预测结果对汉字进行合并。(该方法对识别结果有所提升)

参考

训练相关参考:https://github.com/AstarLight/CPS-OCR-Engine

About

学信网学籍&学历图片内容识别

Resources

Stars

Watchers

Forks

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%