パープレキシティ
情報理論において、パープレキシティ(英: perplexity)は、確率分布や確率モデルがサンプルをどの程度正確に予測するかを示す指標である。確率モデルを比較するために使用することができる。パープレキシティが低いということは、確率分布がサンプルを予測するのに優れていることを示している。
確率分布のパープレキシティ
[編集 ]離散確率分布 {\displaystyle p} のパープレキシティ {\displaystyle PP} は次のように定義される。
- {\displaystyle {\mathit {PP}}(p):=2^{H(p)}=2^{-\sum _{x}p(x)\log _{2}p(x)}=\prod _{x}p(x)^{-p(x)}}
ここで、{\displaystyle H(P)} は分布のエントロピー(ビット単位)であり、 {\displaystyle x} はイベントの範囲である。(基数は{\displaystyle 2}である必要はない。そのエントロピーとべき乗の基数が同じ場合、パープレキシティは基数に依存しない。) この尺度は、ある学問領域では(次数{\displaystyle 1}の真の)多様性 (en:英語版) としても知られている。
確率変数 {\displaystyle X} のパープレキシティは、その可能な値 {\displaystyle x} に対する分布のパープレキシティと定義することができる。
{\displaystyle p} が公平な {\displaystyle k} 面ダイス({\displaystyle k} 個の離散イベントに対する一様分布)をモデル化している特別な場合、そのパープレキシティは {\displaystyle k} である。パープレキシティが {\displaystyle k} の確率変数は、公平な {\displaystyle k} 面ダイスと同じ不確実性を持ち、その確率変数の値について「{\displaystyle k} 点パープレックス({\displaystyle k}-ways perplexed)」であるという。(公平な {\displaystyle k} 面ダイスでない限り、{\displaystyle k} を超える値が可能であるが、これらの値の中には {\displaystyle 1/k} より大きい確率を持つものがあり、それを合計すると全体の値が減少するため、全体の不確実性は増加しない)。
パープレキシティは、予測問題の難しさを示す尺度として使われることがある。しかし、必ずしも正確ではない。2つの選択肢があり、そのうち1つの確率が 0.9 だとすると、最適な戦略で正解する確率は 90 %である。パープレキシティは {\textstyle 2^{-0.9\log _{2}{0.9}-{0.1}\log _{2}{0.1}}=1.38}である。パープレキシティの逆数(公平な {\displaystyle k} 面ダイスの場合、正しく推測できる確率を表す)は、0.9 ではなく、1/1.38 = 0.72 である。
パープレキシティはエントロピーの指数化であり、より明確な量である。エントロピーとは、たとえば理論的に最適な可変長符号を使用して、確率変数の結果を符号化するために必要なビット数の期待値、あるいは平均値を示す尺度である。これは、確率変数の結果を学習することによる期待情報利得と等価と考えることができる。
確率モデルのパープレキシティ
[編集 ]未知の確率分布 p のモデルは、p から抽出された訓練サンプルに基づいて提案されることがある。提案された確率モデル q が与えられたとき、同じく p から抽出された別のテストサンプル x1, x2, ..., xN をどの程度予測できるかを問うことによって q を評価することができる。モデル q のパープレキシティは次のように定義される。
- {\displaystyle b^{-{\frac {1}{N}}\sum _{i=1}^{N}\log _{b}q(x_{i})}=\left(\prod _{i}q(x_{i})\right)^{-1/N}}
ここで、 {\displaystyle b} は通常 2 とされる。未知分布 p のより優れたモデル q は、テストイベントにより高い確率 q(xi) を割り当てる傾向がある。したがって、そのパープレキシティは低くなり、テストサンプルに当惑することは少なくなる。
上記の指数は、q に基づく最適な符号を使用した場合に、テストイベント xi を表現するのに必要な平均ビット数と考えることができる。パープレキシティが低いモデルは、テストサンプルを圧縮することに優れていて、 q(xi) が高くなる傾向にあるため、テスト要素あたり必要とするビット数は平均して少なくなる。
指数 {\displaystyle -{\frac {1}{N}}\sum _{i=1}^{N}\log _{b}q(x_{i})} は、交差エントロピーと解釈することもできる。
- {\displaystyle H({\tilde {p}},q)=-\sum _{x}{\tilde {p}}(x)\log _{b}q(x)}
ここで、 {\displaystyle {\tilde {p}}} はテストサンプルの経験分布 (英語版)を表す(すなわち、サイズ N のテストサンプルに x が n 回出現した場合、{\displaystyle {\tilde {p}}(x)=n/N})。 カルバック・ライブラー情報量の定義により、これは{\displaystyle H({\tilde {p}})+D_{KL}({\tilde {p}}\|q)}とも等しく、これは {\displaystyle \geq H({\tilde {p}})} となる。したがって、{\displaystyle q={\tilde {p}}} のときに、パープレキシティは最小となる。
単語ごとのパープレキシティ
[編集 ]自然言語処理(NLP)において、コーパスは文やテキストの集合であり、言語モデル は文やテキスト全体に対する確率分布である。したがって、コーパスに対する言語モデルのパープレキシティを定義することができる。しかし、NLPでは、より一般的に使われる尺度は単語ごとのパープレキシティ(perplexity per word)であり、次のように定義される。{\displaystyle \left(\prod _{i=1}^{n}q(s_{i})\right)^{-1/N}}ここで、 {\displaystyle s_{1},...,s_{n}} はコーパス内の {\displaystyle n} 個の文、 {\displaystyle N} はコーパス内の単語数である。
コーパスの平均的な文 xi が言語モデルに応じて {\displaystyle 2^{-190}} の確率を持つとする。そうすると、1文あたり 2190 という膨大なモデルパープレキシティを生じる。ただし、文の長さで正規化する方法が一般的である。たとえば、テストサンプルの文が 1,000 語で、1単語あたり 7.95 ビットで符号化できたとした場合、1単語あたり 27.95 = 247 のモデルパープレキシティを得ることができる。言い換えれば、モデルはテストデータ上で、各単語の 247 の可能性の中から一様に独立して選択しなければならないのと同じくらい混乱している。
ブラウン・コーパス
[編集 ]1992年に発表されたブラウン・コーパス (英語版)(さまざまなトピックやジャンルの100万語のアメリカ英語)の最小パープレキシティは、実に1単語あたり約 247 であり、トライグラム (英語版)モデルを使用した場合の交差エントロピーは、log2247 = 7.95 ビット/単語、または 1.75 ビット/文字に相当する[1] 。より専門的なコーパスの場合は、予測可能性が高くなるために、より低いパープレキシティを達成することがよくある。
ところが、ブラウン・コーパスの次の単語が「the」であると単純に推測した場合の精度は 7%になり、予測可能性の尺度としてパープレキシティを単純に使用した 1/247 = 0.4 %ではない。この推定値は、ブラウン・コーパスのユニグラム (英語版)統計に基づくもので、パープレキシティ 247 を生成したトライグラム統計に基づくものではない。トライグラム統計を使用すると正しい推測の可能性はさらに向上する。
関連項目
[編集 ]脚注
[編集 ]- ^ Brown, Peter F. (March 1992). "An Estimate of an Upper Bound for the Entropy of English". Computational Linguistics 18 (1). https://www.cs.cmu.edu/~roni/11761/PreviousYearsHandouts/gauntlet.pdf 2007年2月7日閲覧。.