エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
チャンク分割の手法を調べる機会があって、この手法を新しく知ったので紹介 セマンティックチャンキング... チャンク分割の手法を調べる機会があって、この手法を新しく知ったので紹介 セマンティックチャンキングとは そもそもセマンティックチャンクはドキュメント内のテキストを意味・関連ごとに分けていく方法のこと。 決めた文字数ごとに分けたりページごとに分けるわけではないので、チャンク内のテキストが整合性を保てるようになる。 あとはチャンク内に不要なノイズも含まれなくなるメリットがある。 Adjacent Sequence Clusteringとは そんなセマンティックチャンキングの手法の一つである。 方法はテキストを文章ごとに分割して、前後の文章の意味が近ければ結合、離れていれば次のチャンクに分割していく。 文章は一度ベクトル化して類似度を計算する。 意味ごとに分けていくので、チャンクごとに文字数はかなり前後する。 処理の流れは以下 まずはドキュメントを1文単位(。や改行コードなどで判別)で分割 1文