エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
PDFからきれいなプレーンテキストを抽出するオープンソースツール、olmOCRをご紹介します! 規模に合わ... PDFからきれいなプレーンテキストを抽出するオープンソースツール、olmOCRをご紹介します! 規模に合わせて構築されたolmOCRは、多くの種類のドキュメントを高いスループットで処理します。3000トークン/秒以上、100万ページあたり190ドル相当、GPT-4oの1/32のコストです! PDFはテキストを抽出するのが難しいことで有名です。列、表、数式などの複雑なレイアウトを持つこともあります。標準的なツールでは、読み取り順序に苦労し、特にスキャン文書や手書き✍️のテキストでは、テキストが乱れたり、コンテンツが完全に欠落したりすることがよくあります。 olmOCRを構築するために、我々は100KのクロールされたPDFから260Kページの多様なデータセットを調達し、PDFメタデータとページラスタを組み合わせた*ドキュメントアンカリング*と呼ばれる特殊なプロンプトを使用してGPT-4oを使用