エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
Pythonを使いPDFファイルをテキスト抽出する機会があったので、pypdfium2とpypdfの使い方をメモ。 現時... Pythonを使いPDFファイルをテキスト抽出する機会があったので、pypdfium2とpypdfの使い方をメモ。 現時点では、比較できるほど使い込んではいない。 要件 言語は日本語 複数ページのPDFファイル レイアウトは1段 Pythonから使いたい スピードは不要 選定 GitHub 上にPythonのPDFライブラリを様々な観点から比較しているベンチマークレポジトリがある 具体的には、テキスト抽出(Text Extraction Quality)の上位は以下の通り 上位3ライブラリの中から、 pypdfium2 と pypdf で実際にテキスト抽出するところまでを動作確認 pypdfium2 精度が一番よかった pypdfium2 は Google が提供する pdfium の Python バインディング。 $ pip install -U pypdfium2 でインストール完了