[フレーム]

サクサク読めて、
アプリ限定の機能も多数!

はてなブックマーク
テクノロジー
pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

気に入った記事をブックマーク

気に入った記事を保存できます
保存した記事の一覧は、はてなブックマークで確認・編集ができます
記事を読んだ感想やメモを書き残せます
非公開でブックマークすることもできます

pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

テクノロジーカテゴリーの変更を依頼記事元:note.com/kan_hatakeyama

適切な情報に変更

エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます

コメントを非表示にできますコメント表示の設定

ブックマークしました

ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

次回からTwitterへ自動リダイレクト

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

462users がブックマークコメント 36

ゲスト

コメントするにはログインが必要ですブックマークを追加

ブックマークを追加

よく使うタグ

pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

462 users note.com/kan_hatakeyama

よく使うタグ

はてなブックマーク

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページへ

記事へのコメント36件

注目コメント
新着コメント

K-Ono

K-Ono ここれれはは役役ににたたつつ。。あありりががたたいい

2024年02月24日リンク

その他

tettekete37564

tettekete37564 PDFの中身は見た目のテキスト構造とは違う構造になってる事が多いのでピクセルレンダリングしてして段組構造をAIにでも判定させてOCRかけるのが一番安定しそうかな、と思う。

2024年02月24日リンク

その他

tanakatowel

tanakatowel 画像にしてからgoogle driveに上げて、右クリでgoogle documentで開くと文字起こししてくれる。少ページならかなり楽。

2024年02月24日リンク

その他

roshi

roshi 官公庁のネ申エクセルのように論文の二段書きと句読点に,.を使う文化は早く廃れて欲しい。

2024年02月24日リンク

その他

stealthinu

stealthinu PDFをText化する手法について。UnstructuredよりもPyMuPDFが塩梅良かったとのこと。

2024年02月23日リンク

その他

kyukyunyorituryo

kyukyunyorituryo pdf.jsが精度高いと聞いたことがある。 https://zenn.dev/ptna/articles/63df4a8007f9d3

2024年02月23日リンク

その他

finefinethankyou

finefinethankyou pdfを直接AIに任せて翻訳・要約!てな話をよくみるけど、AI以前に正確なテキスト抽出ができないだろと思ってやっていない

2024年02月24日リンク

その他

hamanasawa

hamanasawa よし、マクロ組んで全選択してコピーしたのをテキストエディタに貼り付けよう!

2024年02月24日リンク

その他

knok

knok Adobe AI APIはほぼ完ぺきにセクションを抽出してくれるが高いのだよな...

2024年02月25日リンク

その他

dexia2

dexia2 AcrobatのOCRは絶妙に精度が悪いので、結局自分でOCRをかけて再チェックしてます。量が多いので、GoogleDriveではなく、AzureのAPIを自分で叩いてる。Acrobatの精度が上がって欲しい......

2024年02月25日リンク

その他

ghrn

ghrn まずWordで開く→参照で読み込みさせてみてる。ダメならOCR。テキスト主体ならOCRで充分だけど、ページ番号も拾うので、正規表現置換で整える。

2024年02月25日リンク

その他

easy-breezy

easy-breezy 過去に多くの人々がチャレンジしたやつ。抽出精度を求めると汎用性が低くなって大変だった。

2024年02月25日リンク

その他

Kmusiclife

Kmusiclife Adobe acrobatでテキスト認識させてChatGPTで整形。あっという間。

2024年02月24日リンク

その他

akapeso

akapeso ページ数少ないなら、画像として出力してGoogleキープに放り込むこむと、テキストを抽出してくれる。ページの端で改行が勝手に入るのが難点。

2024年02月24日リンク

その他

mysql8

mysql8 arXivが悪い

2024年02月24日リンク

その他

theta

theta ノイズのない綺麗なフォント表示なら確実にOCR出来ると思うじゃないですか。やってみればわかりますけど、全然そんなことないんだなこれがorz

2024年02月24日リンク

その他

mr_yamada

mr_yamada 画像化してOCRの方が手間がかからなかったりして。AIの進歩のほうが早そうだし。

2024年02月24日リンク

その他

nmcli

nmcli こういう情報ありがたい

技術

2024年02月24日リンク

その他

ht_s

ht_s pdfじゃない&こんな高度な話じゃないけど右クリックや文章選択許さないサイトからhtmlタグつきのソース丸出しテキストChatGPT渡して「きれいにして」って言うだけでレシピの形に整えてくれるので助かってる。

2024年02月24日リンク

その他

dekawo

dekawo pdf to text

2024年02月24日リンク

その他

xxxxxxxxlarge

xxxxxxxxlarge Chat GPTに突っ込んだらどんなもんなのかな

2024年02月24日リンク

その他

mohno

mohno 「PDFビューアーを開き、全選択し、コピーペースト」←これで取り出せるヤツはいいけど、何でPDF化したのか、コピペで完全に文字化けするパターンがあったんだよな。OCRしても精度が悪くて、結局手作業で全部入力した。

2024年02月24日リンク

その他

ToTheEndOfTime

ToTheEndOfTime 精度でいえばCloud OCRの方がずっと良いです

2024年02月24日リンク

その他

ni66ling

ni66ling Unstructured, Grobid, PyMuPDFを検証してPyMuPDFが相対的によく、二段カラムにもおおよそ対応できたとのこと

2024年02月24日リンク

その他

ch1248

ch1248 PDFのText抜き出しは鬼門だからなあ......

python

2024年02月24日リンク

その他

kamayan1980

kamayan1980 PDFはPDF作成者がポンコツだとテキストデータがひどいことになるので、画像に変換したあとで読み取ったほうが安定する認識

2024年02月24日リンク

その他

odz

odz pdfminerとか?https://github.com/pdfminer/pdfminer.six

2024年02月24日リンク

その他

hamanasawa

hamanasawa よし、マクロ組んで全選択してコピーしたのをテキストエディタに貼り付けよう!

2024年02月24日リンク

その他

at_yasu

at_yasu AIでOCRが個人的にはすっきりするのかなといまは思う。

2024年02月24日リンク

その他

tohokuaiki

tohokuaiki PDFがどう作られているかによるからこんなの無理ゲー。画像化してOCRが一番いいのではないかな。

2024年02月24日リンク

その他

hiroshe

hiroshe Wordでそのまま開いても、結構いけるときあるで。

2024年02月24日リンク

その他

ytn

ytn Power automate desktop 意外とバカにできねーぞ?

2024年02月24日リンク

その他

cyber_bob

cyber_bob PDFをスクショ画像にしてGeminiに食わせたらスプレッドシートになるよ。

2024年02月24日リンク

その他

H_He_Li_Be

H_He_Li_Be 全選択してコピーアンドペーストで成功するのか。じゃあ失敗してるライブラリは何をやってるんだろう。画像認識で処理してるのかな。

2024年02月24日リンク

その他

tanakatowel

tanakatowel 画像にしてからgoogle driveに上げて、右クリでgoogle documentで開くと文字起こししてくれる。少ページならかなり楽。

2024年02月24日リンク

その他

strawberryhunter

strawberryhunter 素直に抜き出せる種類のPDFなら何も苦労は無いけど、そもそもアウトライン化されていたり、埋め込みサブセットフォントの何番目みたいな鬼畜なデータもあると聞く。全体を画像にする粗悪なPDFプリンタドライバもある。

未分類

2024年02月24日リンク

その他

rrringress

rrringress OCRからやるのはどうなんだろうか

2024年02月24日リンク

その他

welchman

welchman xdoc2txt以外を使ったことが無いので、新手を検討しようかな。

2024年02月24日リンク

その他

ゲスト

コメントするにはログインが必要ですログインしてコメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

[<a href="https://b.hatena.ne.jp/entry.parts?url=https%3A%2F%2Fnote.com%2Fkan_hatakeyama%2Fn%2Fn1773c588ecb4">フレーム</a>]

プレビュー

[フレーム]

はてなブックマークボタンを作成して埋め込むこともできます

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック!

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

usersに達しました!

さんが1番目にブックマークした記事「pdfからtextを抜き...」が注目されています。

気持ちをシェアしよう

ツイートする

pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましい... これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。参考記事導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。解析コード: from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード: for structure in pdf_elements: print(structure) 結果: 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ

ブックマークしたユーザー

zakkie2025年09月08日 zakkie
hoge2411072025年02月22日 hoge241107
gurutakezawa2024年09月09日 gurutakezawa
techtech05212024年06月26日 techtech0521
taka0024jp2024年04月08日 taka0024jp
clavier2024年03月26日 clavier
TakayukiN6272024年03月24日 TakayukiN627
cretgp2024年03月16日 cretgp
bootJP2024年03月06日 bootJP
d128922024年03月02日 d12892
o9bYGFqG2024年03月02日 o9bYGFqG
mgl2024年02月28日 mgl
misshiki2024年02月27日 misshiki
stntaku2024年02月26日 stntaku
fivestech2024年02月25日 fivestech
kkeisuke2024年02月25日 kkeisuke
knok2024年02月25日 knok
jamg2024年02月25日 jamg

気に入った記事をブックマーク

エントリーの編集

タイトルガイドライン

ブックマークしました

おすすめタグタグについて

よく使うタグすべて表示

pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

おすすめタグタグについて

よく使うタグすべて表示

はてなブックマークで関心をシェアしよう

記事へのコメント36件

リンクを埋め込む

プレビュー

関連記事

usersに達しました!

pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

ブックマークしたユーザー

ブックマークしたすべてのユーザー

同時期にブックマークされた記事

公式Twitter

はてなのサービス

よく使うタグ

よく使うタグ

はてなブックマークで
関心をシェアしよう