コルモゴロフ分布は確率変数の分布である
K=sup t∈|B(t)|{\displaystyle K=\sup_{t\in}|B(t)|}
ここで、B(t)はブラウン橋である。 の累積分布関数Kで与えられます
Pr(K≤x)=1−2∑k=1∞(−1)k−1e−2k2×2=2π×∑k=1∞e(2k−1)2π2/(8×2),{\displaystyle\operatorname{Pr}K\leq x)=1-2\sum_{k=1}^{\infty}(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac{\sqrt{2\pi}}{x}}\sum_{k=1}^{\infty}e^{-(2k-1)^{2}\pi^{2}/(8^{2})},}
する ヤコビのシータ関数θ01(z=0;θ=2ix2/θ){\displaystyle\vartheta_{01}(z=0;\tau=2ix^{2}|\pi)}
で表すこともできる。 Kolmogorov–Smirnov検定統計量の形式と帰無仮説の下での漸近分布の両方がAndrey Kolmogorovによって出版され、分布の表がNikolai Smirnovによって出版されました。 有限サンプルにおける検定統計量の分布の漸化式関係が利用可能である。 サンプルが仮説分布F(x)に由来するという帰無仮説の下で、n D n→n→∞sup t|B(F(t))|{\displaystyle{\sqrt{n}}D_{n}{\xrightarrow{n\to\infty}}\sup_{t}|B(F(t))|}
Fが連続ならば帰無仮説n D n{\displaystyle{\sqrt{n}}D_{n}}
はFに依存しないコルモゴロフ分布に収束する。 この結果はコルモゴロフの定理としても知られている。 N{\displaystyle n}
が有限であるとき、K{\displaystyle K}
の正確なcdfへの近似としてのこの極限の精度はあまり印象的ではない。n=1000{\displaystyle n=1000}
、対応する最大誤差は約0.9%{\displaystyle0.9\%}
;この誤差は2.6%{\displaystyle2.6\%}
n=100{\displaystyle n=100}
そして完全に受け入れられない7%{\displaystyle7\%}
n=10{\displaystyle n=10}
。 しかし、x{\displaystyle x}
をx+1 6n+x−1 4n{\displaystyle x+{\frac{1}{6{\sqrt{n}}}}+{\frac{x-1}{4n}}}
,0.027%{\displaystyle0.027\%}
、および0.27%{\displaystyle0.27\%}
それぞれ;このような精度は、通常、すべての実用的なアプリケーションに対して十分であると考えられていた。
適合度検定またはKolmogorov-Smirnov検定は、Kolmogorov分布の臨界値を使用して構築できます。 この検定はn→∞{\displaystyle n\to\infty}
のとき漸近的に有効である。 帰無仮説をレベルα{\displaystyle\alpha}
if N D n>K α,{\displaystyle{\sqrt{n}}D_{n}>K_{\alpha},\,}
if n D n>K α,{\displaystyle{\sqrt{n}}D_{n}>K_{\alpha},\,}
この検定の漸近的なべき乗は1です。
cdf Pr(d n≤x){\displaystyle\operatorname{Pr}(D_{n}\leq x)}
または任意のn{\displaystyle n}
とx{\displaystyle X}
は、
- から利用可能であり、cとjavaのコードを含む連続ヌル分布には利用可能である。
- 統計計算のためのrプロジェクトのKSgeneralパッケージに実装された純粋に離散、混合、または連続null分布の場合、与えられたサンプルについてもKS検定統計量とそのp値を計算します。 代替のC++実装が利用可能です。
推定パラメータ付き検定
データXiからf(x)の形式またはパラメータのいずれかが決定された場合、このように決定された臨界値は無効です。 このような場合、モンテカルロなどの方法が必要になることがありますが、いくつかの場合に備えて表が用意されています。 検定統計量への必要な変更、および正規分布と指数分布の臨界値の詳細が公開されており、後の出版物にはGumbel分布も含まれています。 Lilliefors検定は、正規分布に対するこの特殊なケースを表します。 対数変換は、コルモゴロフ検定データが正規分布から来たという仮定に適合していないように見える場合を克服するのに役立つかもしれません。
推定されたパラメータを使用すると、どの推定方法を使用すべきかという疑問が生じます。 通常、これは最尤法ですが、たとえば正規分布の場合、mleはシグマに大きなバイアス誤差を持ちます。 代わりにモーメントフィットまたはKS最小化を使用すると、臨界値に大きな影響を与え、テストパワーにもある程度の影響を与えます。 データが正常であるかどうかをKS検定を介してdf=2のStudent-Tデータを決定する必要がある場合、h0に基づくML推定値(データは正常なので、スケールの標準偏差 この場合、サンプル標準偏差はT-2データでは非常に大きい可能性があるため、MLEの場合はH0を棄却する必要がありますが、KSの最小化ではH0を棄却 Student-Tの場合、MLEの代わりにKS推定値を持つ修正されたKS検定は、実際にはKS検定をわずかに悪化させます。 しかし、他の場合には、このような修正されたKS試験は、わずかに良好な試験電力をもたらす。
離散および混合ヌル分布編集
F(x){\displaystyle F(x)}
が非減少かつ右連続であり、ジャンプ数が可算(おそらく無限)であるという仮定の下で、KS検定統計量は次のように表すことができる。D n=sup x|F n(x)−F(x)|=sup0≤t≤1/f n(f-1(T))-f(f−1(t))/. {\displaystyle D_{n}=\sup|x}|F_{n}(x)-F(x)|=\sup_{0\leq t\leq1}|F_{n}(f^{-1}(t))-F(F^{-1}(t))|。}
の右連続性から、F(f−1(t))≤t{\displaystyle F(F^{-1}(t))\geq t}
となるので、d n{\displaystyle d_{n}}
はヌル分布f(x){\displaystyle f(x)}
、つまり、連続した場合のように配布フリーではなくなりました。 したがって、F(x){\displaystyle F(x)}
が純粋に離散または混合であり、C++およびksgeneralパッケージで実装されている場合、D n{\displaystyle D_{n}}
の正確かつ漸近的な分布を計算するための高速かつ正確な方法が開発されている。r言語。 関数disc_ks_test()
mixed_ks_test()
cont_ks_test()
は、純粋に離散、混合、または連続のヌル分布および任意のサンプルサイズのKS検定統計量とp値も計算 離散ヌル分布と小さなサンプルサイズに対するKS検定とそのp値も、R言語のdgofパッケージの一部として計算されます。 SASPROC NPAR1WAY
,Stataksmirnov
の主要な統計パッケージは、F(x){\displaystyle F(x)}
が連続的であるという仮定の下でKS検定を実装しており、これはヌル分布が実際には連続的でない場合により保守的である(参照)。