cos類似度の次元の呪い 元ネタはこちらの記事 コサイン類似度が高いベクトルはどれくらい似ているか(岩波データサイエンス刊行イベントより) - 木曜不足. cos類似度は計算しやすいので,言語処理界隈では単語ベクトルや画像理処理界隈ではヒストグラムをベクトルに見立てその2つが似ているかどうかに使われやすい. 上記の記事をよくよく考えると,cos類似度は次元数によって珍しい類似度の値が変わるので 極端に1に近い数字,0に近い数字が出ても鵜呑みにしてはいけないんじゃないかと思ったので,それについてのメモ. (この解釈が正しいのか,スパース界隈の論文探せば触れてそうだけど似たような図が出てこなかったのでちょっとわからん.) cos類似度おさらい 参考:コサイン類似度 2つのベクトルがどのくらい似ているかを角度を使って表す. マイナス成分もあれば[-1, 1]で表され,1に近ければ平行より類似して