エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
とちぎ Ruby 会議 05 の懇親会の LT で発表したネタですが、一部の方から関心を持って頂けたようなので... とちぎ Ruby 会議 05 の懇親会の LT で発表したネタですが、一部の方から関心を持って頂けたようなので記事にします。 関心事の全体 まず、下記のような流れをサーバーで定期的に自動で行いたいという目的があるとします。 WEB で公開されてる PDF を取得 テキストを抽出 テキスト整形 データベースへ格納 今回やること 今回は PDF の取得やテキスト整形やデータベースへの格納は割愛します。 PDF からのテキスト抽出についての紹介だけをします。 今回の題材 今回は適当な go.jp サイトから文化庁の「敬語の指針」を選びました。この PDF を適当に開くと、1ページ目に「敬語の指針」「平成19年2月2日」「文化審議会答申」と書いてあるのが分かると思います。このテキストを Ruby で抽出してみましょう。 なんかライブラリに喰わせればテキストがポンと出てくるでしょ 色々調べた中で、P