[フレーム]
はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

気に入った記事をブックマーク

  • 気に入った記事を保存できます
    保存した記事の一覧は、はてなブックマークで確認・編集ができます
  • 記事を読んだ感想やメモを書き残せます
  • 非公開でブックマークすることもできます
適切な情報に変更

エントリーの編集

loading...

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

タイトルガイドライン

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます
コメントを非表示にできます コメント表示の設定

ブックマークしました

ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

462users がブックマーク コメント 36

ガイドラインをご確認の上、良識あるコメントにご協力ください

0 / 0
入力したタグを追加

現在プライベートモードです 設定を変更する

おすすめタグタグについて

よく使うタグ

pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

ガイドラインをご確認の上、良識あるコメントにご協力ください

0 / 0
入力したタグを追加

現在プライベートモードです 設定を変更する

おすすめタグタグについて

よく使うタグ

はてなブックマーク

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページ

記事へのコメント36

  • 注目コメント
  • 新着コメント
K-Ono
ここれれはは役役ににたたつつ。。あありりががたたいい

その他
tettekete37564
PDFの中身は見た目のテキスト構造とは違う構造になってる事が多いのでピクセルレンダリングしてして段組構造をAIにでも判定させてOCRかけるのが一番安定しそうかな、と思う。

その他
tanakatowel
画像にしてからgoogle driveに上げて、右クリでgoogle documentで開くと文字起こししてくれる。少ページならかなり楽。

その他
roshi
官公庁のネ申エクセルのように論文の二段書きと句読点に,.を使う文化は早く廃れて欲しい。

その他
stealthinu
PDFをText化する手法について。UnstructuredよりもPyMuPDFが塩梅良かったとのこと。

その他
kyukyunyorituryo
pdf.jsが精度高いと聞いたことがある。 https://zenn.dev/ptna/articles/63df4a8007f9d3

その他
finefinethankyou
pdfを直接AIに任せて翻訳・要約!てな話をよくみるけど、AI以前に正確なテキスト抽出ができないだろと思ってやっていない

その他
hamanasawa
よし、マクロ組んで全選択してコピーしたのをテキストエディタに貼り付けよう!

その他
knok
Adobe AI APIはほぼ完ぺきにセクションを抽出してくれるが高いのだよな...

その他
dexia2
AcrobatのOCRは絶妙に精度が悪いので、結局自分でOCRをかけて再チェックしてます。量が多いので、GoogleDriveではなく、AzureのAPIを自分で叩いてる。Acrobatの精度が上がって欲しい......

その他
ghrn
まずWordで開く→参照で読み込みさせてみてる。ダメならOCR。テキスト主体ならOCRで充分だけど、ページ番号も拾うので、正規表現置換で整える。

その他
easy-breezy
過去に多くの人々がチャレンジしたやつ。抽出精度を求めると汎用性が低くなって大変だった。

その他
Kmusiclife
Adobe acrobatでテキスト認識させてChatGPTで整形。あっという間。

その他
akapeso
ページ数少ないなら、画像として出力してGoogleキープに放り込むこむと、テキストを抽出してくれる。ページの端で改行が勝手に入るのが難点。

その他
mysql8
arXivが悪い

その他
theta
ノイズのない綺麗なフォント表示なら確実にOCR出来ると思うじゃないですか。やってみればわかりますけど、全然そんなことないんだなこれがorz

その他
mr_yamada
画像化してOCRの方が手間がかからなかったりして。AIの進歩のほうが早そうだし。

その他
nmcli
こういう情報ありがたい

その他
ht_s
pdfじゃない&こんな高度な話じゃないけど右クリックや文章選択許さないサイトからhtmlタグつきのソース丸出しテキストChatGPT渡して「きれいにして」って言うだけでレシピの形に整えてくれるので助かってる。

その他
dekawo
pdf to text

その他
xxxxxxxxlarge
Chat GPTに突っ込んだらどんなもんなのかな

その他
mohno
「PDFビューアーを開き、全選択し、コピーペースト」←これで取り出せるヤツはいいけど、何でPDF化したのか、コピペで完全に文字化けするパターンがあったんだよな。OCRしても精度が悪くて、結局手作業で全部入力した。

その他
ToTheEndOfTime
精度でいえばCloud OCRの方がずっと良いです

その他
ni66ling
Unstructured, Grobid, PyMuPDFを検証してPyMuPDFが相対的によく、二段カラムにもおおよそ対応できたとのこと

その他
ch1248
PDFのText抜き出しは鬼門だからなあ......

その他
kamayan1980
PDFはPDF作成者がポンコツだとテキストデータがひどいことになるので、画像に変換したあとで読み取ったほうが安定する認識

その他
odz
pdfminerとか?https://github.com/pdfminer/pdfminer.six

その他
hamanasawa
hamanasawa よし、マクロ組んで全選択してコピーしたのをテキストエディタに貼り付けよう!

2024年02月24日 リンク

その他
at_yasu
AIでOCRが個人的にはすっきりするのかなといまは思う。

その他
tohokuaiki
PDFがどう作られているかによるからこんなの無理ゲー。画像化してOCRが一番いいのではないかな。

その他
hiroshe
Wordでそのまま開いても、結構いけるときあるで。

その他
ytn
Power automate desktop 意外とバカにできねーぞ?

その他
cyber_bob
PDFをスクショ画像にしてGeminiに食わせたらスプレッドシートになるよ。

その他
H_He_Li_Be
全選択してコピーアンドペーストで成功するのか。じゃあ失敗してるライブラリは何をやってるんだろう。画像認識で処理してるのかな。

その他
tanakatowel
tanakatowel 画像にしてからgoogle driveに上げて、右クリでgoogle documentで開くと文字起こししてくれる。少ページならかなり楽。

2024年02月24日 リンク

その他
strawberryhunter
素直に抜き出せる種類のPDFなら何も苦労は無いけど、そもそもアウトライン化されていたり、埋め込みサブセットフォントの何番目みたいな鬼畜なデータもあると聞く。全体を画像にする粗悪なPDFプリンタドライバもある。

その他
rrringress
OCRからやるのはどうなんだろうか

その他
welchman
xdoc2txt以外を使ったことが無いので、新手を検討しようかな。

その他

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

プレビュー
アプリのスクリーンショット
いまの話題をアプリでチェック!
  • バナー広告なし
  • ミュート機能あり
  • ダークモード搭載
アプリをダウンロード

関連記事

usersに達しました!

さんが1番目にブックマークした記事「pdfからtextを抜き...」が注目されています。

気持ちをシェアしよう

ツイートする

pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましい... これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード: from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード: for structure in pdf_elements: print(structure) 結果: 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ

ブックマークしたユーザー

  • zakkie2025年09月08日 zakkie
  • hoge2411072025年02月22日 hoge241107
  • gurutakezawa2024年09月09日 gurutakezawa
  • techtech05212024年06月26日 techtech0521
  • taka0024jp2024年04月08日 taka0024jp
  • clavier2024年03月26日 clavier
  • TakayukiN6272024年03月24日 TakayukiN627
  • cretgp2024年03月16日 cretgp
  • bootJP2024年03月06日 bootJP
  • d128922024年03月02日 d12892
  • o9bYGFqG2024年03月02日 o9bYGFqG
  • mgl2024年02月28日 mgl
  • misshiki2024年02月27日 misshiki
  • stntaku2024年02月26日 stntaku
  • fivestech2024年02月25日 fivestech
  • kkeisuke2024年02月25日 kkeisuke
  • knok2024年02月25日 knok
  • jamg2024年02月25日 jamg
すべてのユーザーの
詳細を表示します

ブックマークしたすべてのユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

同時期にブックマークされた記事

いま人気の記事 - 企業メディア

企業メディアをもっと読む

はてなブックマーク

公式Twitter

はてなのサービス

Copyright © 2005-2025 Hatena. All Rights Reserved.
設定を変更しましたx

AltStyle によって変換されたページ (->オリジナル) /