下記の数式で表され、ベクトルのなす角のコサインを表す。
2つのベクトルの方向が近いほど、そのなす角は小さくなり、向きが異なるほど大きくなり、2つのベクトルが完全に同じ方向を向いていれば「1」、逆向きであれば「-1」という数値になる。
ベクトル同士の成す角度の近さを表現するため、三角関数の普通のコサインの通り、1に近ければ類似しており、-1に近ければ似ていないことになる。
正規化(最大値を1、最小値を0)された単位ベクトルについてはベクトルの内積を求めるだけでいい。
文章を形態素解析し、各単語の出現回数をベクトルとして格納し、TF-IDFで一般的な文脈の影響を避けた上で、文章同士の類似度を測るのに使用される。
TF-IDFとは
文書内に出現する単語について、単語の出現頻度(TF値)と単語の逆文書頻度(:ある単語が含まれている文章の割合の逆数:IDF値)の2つの情報から、その単語の重要度を算出する手法である。
TF値によって、単語の出現回数を計測するが、共通でよく使用されている単語をIDF値で弾くことで、それぞれの文章の特徴を示す単語を抽出する。