エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
微妙に反響があったので。 ルールを変えて同じようなことをやってみたい! という方もいるかもしれない... 微妙に反響があったので。 ルールを変えて同じようなことをやってみたい! という方もいるかもしれないので、方法を共有します。 昔は気合の総当たりスクレイピング(やめましょう)をやっていましたが、一応これが合理的ではないかと思う方法を示します。 データ取得 https://dumps.wikimedia.org/jawiki/latest/ に全データがあります......とは言っても、全データなのですごい量です。今回の解析では記事タイトルだけ必要なので、「jawiki-latest-all-titles-in-ns0.gz」のデータを使えば良いですが、タイトルだけでも 14,865,482ドル$ B、つまり約 14ドル$ MBあります。展開すると更に倍ぐらいになります。 「gz」という拡張子は UNIX 系で使われる拡張子で、Windows だと馴染みがないですが、7-zip を使えば対応可能です。 展