エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
動画データは、2000万件ある。2000万件であれば、DBに入れられるが、コメント情報は、41億件あるため、B... 動画データは、2000万件ある。2000万件であれば、DBに入れられるが、コメント情報は、41億件あるため、BigQueryなどの大規模なデータ集計が得意なものに入れたほうが良いだろう。 今回は、GCPのDataFlowを利用して、BigQueryにニコニコ動画のデータを入れることにする。 結論 ニコ動画のコメント情報は、41億件あるため、DataFlowなどを用いて、大規模分散システムで入れるのに適している。 ニコ動のコメント情報は、動画IDがjson内に無く、アーカイブされたファイル名にあるため、そちらを取得してdataflowにデータを入れる。 Dataflowを用いてGCSにおいたzipファイルから、データをロードする。 サンプルコードはこちらにある。 コメントのロードのREADME コメント github readme ビデオ情報の README ビデオ情報 github rea