はじめに 以前、BERTを使って歌詞の文章ベクトルを算出し可視化する試みを行いました。BERTは優秀なんですが、入力できるトークン数が512に限られるため、長い文章のベクトル算出には向いていないんですよね。 今回は、上場企業約2,500社が有価証券報告書で書いている割と長文の文章について、Doc2Vecを使って文章ベクトルを算出し、あわせて、文章ベクトルから類似文書を検索してみました。 個人的には、BERTよりもDoc2Vecの方が納得感のいく結果を出している気がしています。 ここでは、文章ベクトルの算出方法・類似文書検索方法について、お伝えしていきたいと思います。 文章ベクトルのイメージ 1野球を観戦した 2サッカーの試合を見た 3犬の散歩にでかけた の3つの文章を2次元のベクトルに変換することを考えてみましょう。 文章の内容を考えると1と2が近く、3が少し離れているイメージですね。 こ