Skip to content

hrmzone/DocOCR

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
.idea		.idea
META-INF		META-INF
imgs		imgs
out		out
screenshot		screenshot
src/main/java/cn/hrmzone		src/main/java/cn/hrmzone
target/classes/cn/hrmzone		target/classes/cn/hrmzone
DocOCR.iml		DocOCR.iml
README.md		README.md
pom.xml		pom.xml

Repository files navigation

a OCR tool for chinese documents.一个中文文档OCR工具.

初衷

我是一职业培训机构edueasy的老师,经常整理、打印各科目历年真题、预测题的试卷,但试卷只有纸质文件,没有电子版,所以做个小工具将试卷识别出来,整理为电子版,有需要的可以试试。

更新(2022年3月10日)

增加了对表格图片的识别功能,详细内容见更新文档

环境

Java要求:JDK7及以上;

原理

使用百度AI的OCR接口,将指定文件、指定目录的图片文件上传,并将结果解析出来,保存为同名的TXT文本文件
普通中文文档的识别率非常高,而且速度很快,比微软的Office lens正确率和速度快不少。
百度OCR接口调用有次数限制,普通文字识别是50000次/天,需求大的同学请自行修改代码的API key,修改文件为:OCRAction.java。
仅少量使用,可在release中下载DocOCR.jar,在命令行中使用。

使用方法

下载DocOCR.jar,在bash或命令行中进入该目录
识别单个文件:java -jar -f filename,-f识别单个图片文件

批量识别多个文件:java -jar -d filepath,-d识别目录下的全部图片

识别效果

错误提示

做个广告

edueasy,一所具备人社局许可的职业培训机构,专注于职业资格培训(人力资源管理师、中小学教师资格证)以及学历提升(成人教育、网络教育、自考),欢迎咨询,QQ:78049500

About

a OCR tool for chinese documents.一个中文文档OCR工具.

Resources

Stars

Watchers

Forks

Report repository

Releases 1

DocOCR.jar Latest

Packages

Contributors

Languages

Java 100.0%