エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
はじめに 古くから、自然言語処理の世界では、単語をスコアリングする手法として、TF-IDFというのがあり... はじめに 古くから、自然言語処理の世界では、単語をスコアリングする手法として、TF-IDFというのがあります。 古くからあるにもかかわらず、普通に暮らしていると馴染みのない概念だと思います。かく言う私も、Pythonで自然言語処理を学ぶまでは名前すら聞いたことがありませんでした。 ここでは、そんなTF-IDFについて、はじめて触れる方にも分かるように概念を丁寧に説明するとともに、Pythonを使った実装方法についてご紹介していきたいと思います。 🐱TF-IDFとは 一言でいうと、ある文書の含まれる単語の重要度を示す指標です。文書の中で重要な単語をとらえることで、その文書の特徴を知ることができます。 具体的には以下の式で計算します。 単語の重要度というと、パッと思いつくのが、単語の出現頻度ではないでしょうか。それはある意味で正しいのですが、単語の出現頻度だけでみてしまうと、極端にいうと、「