Kolmogorov-Smirnov-Test

Illustration der PDF-Datei der Kolmogorov-Distribution.

Die Kolmogorov-Verteilung ist die Verteilung der Zufallsvariablen K = sup t ∈ | B ( t ) | {\displaystyle K=\sup _{t\in }|B(t)|}

K=\sup _{t\in }|B(t)/

wobei B(t) die Brownsche Brücke ist. Die kumulative Verteilungsfunktion von K ist gegeben durch

Pr ⁡ ( K ≤ x ) = 1 − 2 ∑ k = 1 ∞ ( − 1 ) k − 1 e − 2 k 2 x 2 = 2 π x ∑ k = 1 ∞ e − (2 k − 1 ) 2 π 2 / (8 x 2 ) , {\displaystyle \operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2} x^{2}}={\frac {\sqrt {2\pi }}{x}}\Summe _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

{\displaystyle \operatorname {Pr} (K\leq x)=1-2\Summe _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\Summe _{k=1}^{\infty }e^{-(2k-1) ^{2}\pi ^{2}/(8x^{2})},}

welche kann auch durch die Jacobi-Theta-Funktion ausgedrückt werden ϑ 01 ( z = 0; τ = 2 i x 2 / π ) {\displaystyle \vartheta _{01}(z=0;\tau =2ix^{2}/\pi )}

{\displaystyle \vartheta _{01}(z=0;\tau =2ix^{2}/\pi )}

. Sowohl die Form der Kolmogorov–Smirnov-Teststatistik als auch ihre asymptotische Verteilung unter der Nullhypothese wurden von Andrey Kolmogorov veröffentlicht, während eine Tabelle der Verteilung von Nikolai Smirnov veröffentlicht wurde. Wiederholungsrelationen für die Verteilung der Teststatistik in endlichen Stichproben sind verfügbar.

Unter Nullhypothese, dass die Probe aus der hypothetischen Verteilung F(x) stammt,

n D n → n → ∞ sup t | B ( F ( t ) ) | {\displaystyle {\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\sup _{t}|B(F(t))|}

{\sqrt {n}}D_{n} {\xrightarrow {n\to \infty }}\sup _{t}|B(F(t))|

in der Verteilung, wobei B(t) die Brownsche Brücke ist.

Wenn F stetig ist, dann konvergiert unter der Nullhypothese n D n {\displaystyle {\sqrt {n}}D_{n}}

{\sqrt {n}}D_{n}

zur Kolmogorov-Verteilung, die nicht von F abhängt. Dieses Ergebnis kann auch als Kolmogorov-Theorem bezeichnet werden. Die Genauigkeit dieser Grenze als Näherung an die exakte cdf von K {\displaystyle K}

K

, wenn n {\displaystyle n}

n

endlich ist, ist nicht sehr beeindruckend: Selbst wenn n = 1000 {\displaystyle n=1000}

n=1000

, der entsprechende maximale Fehler beträgt etwa 0,9 % {\displaystyle 0,9\%}

{\displaystyle 0,9\%}

; dieser Fehler erhöht sich auf 2,6 % {\displaystyle 2,6\%}

{\ in:displaystyle 2.6\%}

wenn n = 100 {\displaystyle n=100}

{\displaystyle n=100}

und zu den völlig inakzeptablen 7 % {\displaystyle 7\%}

{\displaystyle 7\%}

wenn n = 10 {\displaystyle n=10}

n=10

. Eine sehr einfache Möglichkeit, x {\displaystyle x}

x

durch x + 1 6 n + x − 1 4 n {\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

{\displaystyle x+{\ {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

im Argument der Jacobi-Theta-Funktion werden diese Fehler auf 0,003 % reduziert {\displaystyle 0,003\%}

{\displaystyle 0,003\%}

, 0,027 % {\displaystyle 0.027\%}

{\displaystyle 0.027\%}

und 0.27 % {\displaystyle 0.27\%}

{\displaystyle 0.27\%}

; Eine solche Genauigkeit würde normalerweise für alle praktischen Anwendungen als mehr als ausreichend angesehen. Der Goodness-of-Fit-Test oder der Kolmogorov–Smirnov-Test kann unter Verwendung der kritischen Werte der Kolmogorov-Verteilung konstruiert werden. Dieser Test ist asymptotisch gültig, wenn n → ∞ {\displaystyle n\to \infty }

{\displaystyle n\to \infty }

. Es weist die Nullhypothese auf Ebene α zurück {\displaystyle \alpha }

\alpha

wenn n D n > K α , {\displaystyle {\sqrt {n}}D_{n}>K_{\alpha },\,}

{\sqrt {n}}D_{n}K_{\alpha },\,

wobei Ka gefunden wird von

Pr ⁡ ( K ≤ K α ) = 1 − α . {\displaystyle \operatorname {Pr} (K\leq K_{\alpha })=1-\alpha .\,}

\operatorname {Pr} (K\leq K_{\alpha })=1-\alpha .\,

Die asymptotische Potenz dieses Tests ist 1.

Schnelle und genaue Algorithmen zur Berechnung des cdf Pr ⁡ ( D n ≤ x ) {\displaystyle \operatorname {Pr} (D_{n}\leq x)}

{\displaystyle \operatorname {Pr} (D_{n}\leq x)}

oder dessen Komplement für beliebige n {\displaystyle n}

n

und x {\displaystyle x}

x

, sind verfügbar von:

  • und für kontinuierliche Nullverteilungen mit Code in C und Java in.
  • für rein diskrete, gemischte oder kontinuierliche Nullverteilung, implementiert im KSgeneral-Paket des R-Projekts für statistisches Rechnen, das für eine gegebene Stichprobe auch die KS-Teststatistik und ihren p-Wert berechnet. Eine alternative C ++ – Implementierung ist verfügbar unter.

Test mit geschätzten Parameterbearbeiten

Wenn entweder die Form oder die Parameter von F(x) aus den Daten Xi bestimmt werden, sind die so ermittelten kritischen Werte ungültig. In solchen Fällen können Monte Carlo oder andere Methoden erforderlich sein, für einige Fälle wurden jedoch Tabellen erstellt. Details zu den erforderlichen Änderungen an der Teststatistik und zu den kritischen Werten für die Normalverteilung und die Exponentialverteilung wurden veröffentlicht, und spätere Veröffentlichungen umfassen auch die Gumbel-Verteilung. Der Lilliefors-Test stellt einen Sonderfall für die Normalverteilung dar. Die Logarithmus-Transformation kann helfen, Fälle zu überwinden, in denen die Kolmogorov-Testdaten nicht zu der Annahme passen, dass sie aus der Normalverteilung stammen.

Anhand von geschätzten Parametern stellt sich die Frage, welche Schätzmethode verwendet werden soll. Normalerweise wäre dies die Maximum-Likelihood-Methode, aber z. B. für die Normalverteilung hat MLE einen großen Verzerrungsfehler auf Sigma. Die Verwendung einer Momentanpassung oder KS-Minimierung hat stattdessen einen großen Einfluss auf die kritischen Werte und auch einen gewissen Einfluss auf die Testleistung. Wenn wir für Student-T-Daten mit df = 2 über KS-Test entscheiden müssen, ob die Daten normal sein könnten oder nicht, dann würde eine ML-Schätzung basierend auf H0 (Daten sind normal, daher wird die Standardabweichung für die Skala verwendet) einen viel größeren KS-Abstand ergeben als eine Anpassung mit minimalem KS. In diesem Fall sollten wir H0 ablehnen, was bei MLE häufig der Fall ist, da die Standardabweichung der Stichprobe für T-2-Daten sehr groß sein kann, aber bei KS-Minimierung erhalten wir möglicherweise immer noch ein zu niedriges KS, um H0 abzulehnen. Im Student-T-Fall macht ein modifizierter KS-Test mit KS-Schätzung anstelle von MLE den KS-Test in der Tat etwas schlechter. In anderen Fällen führt ein solcher modifizierter KS-Test jedoch zu einer etwas besseren Testleistung.

Diskrete und gemischte Nullverteilung

Unter der Annahme, dass F (x ) {\displaystyle F(x)}

F(x)

nicht abnehmend und rechtskontinuierlich ist, mit zählbarer (möglicherweise unendlicher) Anzahl von Sprüngen, kann die KS-Teststatistik ausgedrückt werden als: D n = sup x | F n (x ) – F ( x ) | = sup 0 ≤ t ≤ 1 | F n ( F − 1 ( t ) ) − F ( F − 1 ( t ) ) | . {\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))/.}

{\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.}

Aus der Rechtskontinuität von F (x ) {\displaystyle F(x)}

F(x)

folgt, dass F ( F – 1 ( t ) ) ≥ t {\displaystyle F(F^{-1}(t))\geq t}

{\displaystyle F(F^{-1}(t))\geq t}

und F − 1 ( F ( x ) ) ≤ x {\displaystyle F^{-1}(F(x))\leq x}

{\displaystyle F^{-1}(F(x))\leq x}

und damit die Verteilung von D n {\displaystyle D_{n}}

D_{n}

abhängig von der Nullverteilung F ( x ) {\displaystyle F(x)}

F(x)

, d.h. ist nicht mehr verteilungsfrei wie im kontinuierlichen Fall. Daher wurde eine schnelle und genaue Methode entwickelt, um die exakte und asymptotische Verteilung von D n {\displaystyle D_{n}}

D_{n}

zu berechnen, wenn F (x ) {\displaystyle F(x)}

F(x)

rein diskret oder gemischt ist, implementiert in C ++ und im KSgeneral-Paket der Sprache R. Die Funktionendisc_ks_test()mixed_ks_test()undcont_ks_test()berechnen auch die KS-Teststatistik und p-Werte für rein diskrete, gemischte oder kontinuierliche Nullverteilungen und beliebige Stichprobengrößen. Der KS-Test und seine p-Werte für diskrete Nullverteilungen und kleine Stichprobengrößen werden ebenfalls als Teil des dgof-Pakets der R-Sprache berechnet. Wichtige statistische Pakete, darunter SASPROC NPAR1WAY, Stataksmirnovimplementieren den KS-Test unter der Annahme, dass F (x ) {\displaystyle F(x)}

F(x)

kontinuierlich ist, was konservativer ist, wenn die Nullverteilung tatsächlich nicht kontinuierlich ist (siehe ).

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.