Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

hrmzone/DocOCR

Repository files navigation

a OCR tool for chinese documents.一个中文文档OCR工具.

初衷

我是一职业培训机构edueasy的老师,经常整理、打印各科目历年真题、预测题的试卷,但试卷只有纸质文件,没有电子版,所以做个小工具将试卷识别出来,整理为电子版,有需要的可以试试。

更新(2022年3月10日)

增加了对表格图片的识别功能,详细内容见更新文档

环境

Java要求:JDK7及以上;

原理

  1. 使用百度AI的OCR接口,将指定文件、指定目录的图片文件上传,并将结果解析出来,保存为同名的TXT文本文件
  2. 普通中文文档的识别率非常高,而且速度很快,比微软的Office lens正确率和速度快不少。
  3. 百度OCR接口调用有次数限制,普通文字识别是50000次/天,需求大的同学请自行修改代码的API key,修改文件为:OCRAction.java。
  4. 仅少量使用,可在release中下载DocOCR.jar,在命令行中使用。

使用方法

  • 下载DocOCR.jar,在bash或命令行中进入该目录
  • 识别单个文件:java -jar -f filename,-f识别单个图片文件

SingleImg


  • 批量识别多个文件:java -jar -d filepath,-d识别目录下的全部图片

MultiImg


  • 识别效果

result


  • 错误提示

error


做个广告

edueasy,一所具备人社局许可的职业培训机构,专注于职业资格培训(人力资源管理师、中小学教师资格证)以及学历提升(成人教育、网络教育、自考),欢迎咨询,QQ:78049500

About

a OCR tool for chinese documents.一个中文文档OCR工具.

Resources

Stars

Watchers

Forks

Packages

Contributors

Languages

AltStyle によって変換されたページ (->オリジナル) /