エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
はじめに 日本語OCR, 有料の業務用ソフトには色々と高性能なものがあるんですが、無料の場合の選択肢は... はじめに 日本語OCR, 有料の業務用ソフトには色々と高性能なものがあるんですが、無料の場合の選択肢は意外に限られてます。最近ではGeminiなどにOCRさせることも試みてますが、縦書きに弱いのが欠点。加えて、私がやっているような著作権が切れた戦前の本のデジタル化の場合、認識率の低い旧字体が多いのが悩みの種。 そこで最近知ったのが、国立国会図書館が公開しているOCRライブラリ、NDLOCRです。国会図書館のデジタル資料(国立国会図書館デジタルコレクション)から全文テキストデータを作成するために開発されたとのこと。 NDLOCRは、現在ver2.1がGithubに公開されています。古い本が多い国会図書館の資料向けに作られているだけあって、旧字体でも高い精度で認識してくれます。今回は、このライブラリを試してみました。基本、Githubサイトに書いてある通りなんですが、いくつか注意すべき点をメモ