コンテンツにスキップ
Wikipedia

コルモゴロフ–スミルノフ検定

出典: フリー百科事典『ウィキペディア(Wikipedia)』

コルモゴロフ–スミルノフ検定(コルモゴロフ–スミルノフけんてい、: Kolmogorov–Smirnov test)は統計学における仮説検定の一種であり、有限個の標本に基づいて、二つの母集団確率分布が異なるものであるかどうか、あるいは母集団の確率分布が帰無仮説で提示された分布と異なっているかどうかを調べるために用いられる。しばしばKS検定と略される。

1標本KS検定は、経験分布を帰無仮説において示された累積分布関数と比較する。主な応用は、正規分布および一様分布に関する適合度検定である。正規分布に関する検定については、リリフォースによる若干の改良が知られている(リリフォース検定)。正規分布の場合、一般にはリリフォース検定よりもシャピロ-ウィルク検定アンダーソン-ダーリング検定の方がより強力な手法である。

2標本KS検定は、二つの標本を比較する最も有効かつ一般的なノンパラメトリック手法の一つである。これは、この手法が二つの標本に関する経験分布の位置および形状の双方に依存するためである。

検定統計量

[編集 ]
経験分布(青)と累積分布(赤)の例。検定統計量はこれらの「ズレ」を測っている。

n個の標本y1, y2, ..., ynに対する経験分布 Fnは以下のように与えられる。

F n ( x ) = # { 1 i n y i x } n {\displaystyle F_{n}(x)={\frac {\#\{,1円\leq i\leq n\mid y_{i}\leq x,円\}}{n}}} {\displaystyle F_{n}(x)={\frac {\#\{,1円\leq i\leq n\mid y_{i}\leq x,円\}}{n}}}

このとき F(x) を帰無仮説で提示される分布、またはもう一方の経験分布とすると、二つの片側KS検定統計量は、以下で与えられる[1]

D n + = sup x ( F n ( x ) F ( x ) ) {\displaystyle D_{n}^{+}=\sup _{x}(F_{n}(x)-F(x))} {\displaystyle D_{n}^{+}=\sup _{x}(F_{n}(x)-F(x))}
D n = sup x ( F ( x ) F n ( x ) ) {\displaystyle D_{n}^{-}=\sup _{x}(F(x)-F_{n}(x))} {\displaystyle D_{n}^{-}=\sup _{x}(F(x)-F_{n}(x))}

二つの分布が等しいという帰無仮説が棄却されないと仮定する場合、上記の二つの統計量が従うべき確率分布は、仮説で提示される分布が連続分布である限りにおいて、分布の形に依存しない。

クヌースはこの1対の統計量に関する有意性を解析する方法に関する詳細な記述を与えている。多くの人々は2つの統計量の代わりに

D n = sup x | F n ( x ) F ( x ) | = max ( D n + , D n ) {\displaystyle D_{n}=\sup _{x}\vert F_{n}(x)-F(x)\vert =\max(D_{n}^{+},D_{n}^{-})} {\displaystyle D_{n}=\sup _{x}\vert F_{n}(x)-F(x)\vert =\max(D_{n}^{+},D_{n}^{-})}

という統計量を用いるが、この統計量の分布はさらに扱いにくい。

有意確率

[編集 ]

1標本KS検定では、サンプル数nが十分大きいとき、経験分布Fn(x)が帰無仮説に従う(すなわち、経験分布が帰無仮説で提示された分布F(x)と一致する)と仮定した下での場合の検定量の分布は

Prob ( n D n x ) = 1 2 i = 1 ( 1 ) i 1 e 2 i 2 x 2 = 2 π x i = 1 e ( 2 i 1 ) 2 π 2 / ( 8 x 2 ) {\displaystyle \operatorname {Prob} ({\sqrt {n}}D_{n}\leq x)=1-2\sum _{i=1}^{\infty }(-1)^{i-1}e^{-2i^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{i=1}^{\infty }e^{-(2i-1)^{2}\pi ^{2}/(8x^{2})}} {\displaystyle \operatorname {Prob} ({\sqrt {n}}D_{n}\leq x)=1-2\sum _{i=1}^{\infty }(-1)^{i-1}e^{-2i^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{i=1}^{\infty }e^{-(2i-1)^{2}\pi ^{2}/(8x^{2})}}

で与えられる。したがって、有意水準を α {\displaystyle \alpha } {\displaystyle \alpha }とするとき、検定量Dn n D n > K α {\displaystyle {\sqrt {n}}D_{n}>K_{\alpha }} {\displaystyle {\sqrt {n}}D_{n}>K_{\alpha }}(ただし K α {\displaystyle K_{\alpha }} {\displaystyle K_{\alpha }} Prob ( n D n K α ) = 1 α . {\displaystyle \operatorname {Prob} ({\sqrt {n}}D_{n}\leq K_{\alpha })=1-\alpha .,円} {\displaystyle \operatorname {Prob} ({\sqrt {n}}D_{n}\leq K_{\alpha })=1-\alpha .,円}を満たす数)を満たすとき、帰無仮説は棄却され、経験分布Fn(x)は帰無仮説で提示された分布F(x)とは異なることが示唆される。

その他

[編集 ]

1年のうちの1日や、あるいは1週間のうちの1日といったように、独立変数が周期性を持つ場合、カイパー検定の方がより適切である。数値解析の有名な著作である"Numerical Recipes"には、このことに関する詳しい情報が記載されている[2]

さらに、コルモゴロフ-スミルノフ検定は分布の裾の部分よりも中央値付近の方に強く依存する。これに対して、アンダーソン-ダーリング検定は裾でも中央値付近でも等しい感度を与える。

脚注

[編集 ]

参考文献

[編集 ]

関連項目

[編集 ]

外部リンク

[編集 ]
標本調査
記述統計学
連続データ
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
相関係数
その他
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定 (英語版)
その他
統計図表
生存時間分析
歴史
応用
出版物
全般
その他
カテゴリ カテゴリ

AltStyle によって変換されたページ (->オリジナル) /