Kolmogorov-Smirnov test

Illustration of the Kolmogorov distribution ‘ s PDF.

De verdeling van Kolmogorov is de verdeling van de willekeurige variabele

K = sup t ∈ | B ( t ) | {\displaystyle K=\sup _{t\in }|B(t)|}

$K=\sup _{t\in }|B(t)|$

waarbij B(T) de Brownian Bridge. De cumulatieve distributie functie van K wordt gegeven door

Pr ⁡ ( K) ≤ x ) = 1 − 2 ∑ k = 1 ∞ ( − 1 ) k − 1 e − 2 k 2 x 2 = 2 π x ∑ k = 1 ∞ e − ( 2 k − 1 ) 2 π 2 / ( 8 x 2 ) , {\displaystyle \operatorname {Pr} (K\leq x)=1-2\som _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\som _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

$\operatorname {Pr} (K\leq x)=1-2\som _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\som _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},$

die kan ook worden uitgedrukt door de Jacobi Theta functie ϑ 01(z = 0 ; τ=2 i x 2 / π ) {\displaystyle \vartheta _{01} (z =0;\tau=2ix^{2}/\pi )}

$\vartheta _{01} (z = 0;\tau = 2ix^{2} / \ pi)$

. Zowel de vorm van de Kolmogorov–Smirnov teststatistiek als de asymptotische verdeling onder de nulhypothese werden gepubliceerd door Andrej Kolmogorov, terwijl een tabel van de verdeling werd gepubliceerd door Nikolaj Smirnov. Recidiefrelaties voor de verdeling van de teststatistiek in eindige monsters zijn beschikbaar.

onder nulhypothese dat het monster afkomstig is van de hypothetische verdeling F(x),

N d n → n → ∞ sup T | B ( F ( t ) ) | {\displaystyle {\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\sup _{t}|B(F(t))|}

${\sqrt {n}}D_{n}{\xrightarrow {N\to \infty }}\sup _{t}|b(f(t))|$

in distributie, waarbij b(T) de Brownse brug is.

als F continu is dan onder de nulhypothese n d n {\displaystyle {\sqrt {n}}D_{n}}

${\sqrt {n}}d_{n}$

convergeert naar de Kolmogorov-distributie, die niet afhankelijk is van F. Dit resultaat kan ook bekend staan als de stelling van Kolmogorov. De juistheid van deze limiet als een benadering voor de exacte cdf van K {\displaystyle K}

$K$

wanneer n {\displaystyle n}

$n$

eindig is, is niet erg indrukwekkend, zelfs wanneer n = 1000 {\displaystyle n=1000}

$n=1000$

, de bijbehorende maximale fout is ongeveer 0,9 % {\displaystyle 0.9\%}

$0.9\%$

; deze fout stijgt tot 2,6 % {\displaystyle 2.6\%}

$2.6\%$

wanneer n = 100 {\displaystyle n=100}

$n=100$

en het totaal onaanvaardbaar 7 % {\displaystyle 7\%}

$7\%$

wanneer n = 10 {\displaystyle n=10}

$n=10$

. Echter, een zeer eenvoudige noodzakelijk vervangen van x {\displaystyle x}

$x$

x + 1 6 n + x − 1 4 n {\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

$x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}$

in het argument van de Jacobi theta-functie vermindert deze fouten te 0.003 % {\displaystyle 0.003\%}

$0.003\%$

, 0.027 % {\displaystyle 0.027\%}

$0.027\%$

, en 0.27 % {\displaystyle 0.27\%}

$0.27\%$

respectievelijk; een dergelijke nauwkeurigheid zou gewoonlijk meer dan voldoende worden geacht voor alle praktische toepassingen.

De goodness-of-fit-test of de Kolmogorov-Smirnov-test kan worden geconstrueerd met behulp van de kritische waarden van de Kolmogorov-verdeling. Deze test is asymptotisch geldig wanneer n → ∞ {\displaystyle n \ to \ infty }

$N\to \infty$

. Het verwerpt de nulhypothese op niveau α {\displaystyle \alpha }

$\alpha$

indien n D n > K α , {\displaystyle {\sqrt {n}}D_{n}>K_{\alpha },\,}

${\sqrt {n}}D_{n}K_{\alpha },\,$

waar Ka gevonden van

Pr ⁡ ( K ≤ K α ) = 1 − α . {\displaystyle \ operatorname {Pr} (K\leq K_ {\alpha }) = 1-\alpha .\ ,}

$\operatornaam {Pr} (K\leq K_ {\alpha }) = 1-\alpha .\,$

het asymptotische vermogen van deze test is 1.

voor een Snelle en nauwkeurige algoritmen voor het berekenen van de cdf Pr ⁡ ( D n ≤ x ) {\displaystyle \operatorname {Pr} (D_{n}\leq x)}

$\operatorname {Pr} (D_{n}\leq x)$

of de aanvulling voor willekeurige n {\displaystyle n}

$n$

en x {\displaystyle x}

$x$

van:

en voor continue null-uitkeringen met code in Java en C worden gevonden in.

voor zuiver discrete, gemengde of continue null-distributie geïmplementeerd in het ksalgemenpakket van het R-project voor statistische berekening, dat Voor een bepaalde steekproef ook de KS-teststatistiek en de p-waarde ervan berekent. Alternatieve C++ implementatie is beschikbaar vanaf.

Test met geschatte parametersEdit

als de vorm of de parameters van F(x) worden bepaald op basis van de gegevens Xi, zijn de aldus bepaalde kritische waarden ongeldig. In dergelijke gevallen kunnen Monte Carlo of andere methoden vereist zijn, maar voor sommige gevallen zijn tabellen opgesteld. Details voor de vereiste wijzigingen in de teststatistiek en voor de kritische waarden voor de normale distributie en de exponentiële distributie zijn gepubliceerd, en latere publicaties omvatten ook de Gumbeldistributie. De Lilliefors-test is hiervan een speciaal geval voor de normale verdeling. De logaritmistransformatie kan helpen om gevallen te overwinnen waarin de Kolmogorov-testgegevens niet lijken te voldoen aan de veronderstelling dat het uit de normale verdeling kwam.

aan de hand van geschatte parameters rijst de vraag welke schattingsmethode moet worden gebruikt. Meestal zou dit de maximale waarschijnlijkheid methode, maar b. v. voor de normale distributie MLE heeft een grote bias fout op sigma. Het gebruik van een moment fit of KS minimalisatie in plaats daarvan heeft een grote impact op de kritische waarden, en ook enige impact op het testvermogen. Als we voor Student-T data met df = 2 Via KS test moeten beslissen of de data normaal zouden kunnen zijn of niet, dan zou een ML schatting op basis van H0 (data is normaal, dus met behulp van de standaarddeviatie voor schaal) veel grotere KS afstand geven, dan een fit met minimale KS. In dit geval moeten we H0 afwijzen, wat vaak het geval is met MLE, omdat de standaarddeviatie van het monster erg groot kan zijn voor T-2-gegevens, maar met KS-minimalisatie kunnen we nog steeds een te lage KS krijgen om H0 af te wijzen. In het geval Student-T maakt een aangepaste KS-test met KS-schatting in plaats van MLE de KS-test inderdaad iets erger. In andere gevallen leidt een dergelijke gewijzigde KS-test echter tot iets beter testvermogen.

Discrete en gemengde nuldistributiedit

onder de aanname dat F ( x ) {\displaystyle F(x)}

$F(x)$ niet-afnemend en rechts-continu is, met aftelbaar (mogelijk oneindig) aantal sprongen, kan de KS − teststatistiek worden uitgedrukt als: D n = sup x | F n ( x) − F ( x)) | = sup 0 ≤ t ≤ 1 | f n ( f − 1 ( t)) − f ( f-1 ( t))/. {\displaystyle D_{n}= \ sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|f_{n}(f^{-1}(t))-F(f^{-1}(t))/.}

$D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.$

Van het recht-de continuïteit van F ( x ) {\displaystyle F(x)}

$F(x)$

volgt dat F ( F − 1 ( t ) ) ≥ t {\displaystyle F(F^{-1}(t))\geq t}

$F(F^{-1}(t))\geq t$

en F − 1 ( F ( x ) ) ≤ x {\displaystyle F^{-1}(F(x))\leq x}

$F^{-1}(F(x))\leq x$

en daarmee de verdeling van D n {\displaystyle D_{n}}

$D_{n}$

is afhankelijk van de null-verdeling F ( x ) {\displaystyle F(x)}

$F(x)$

, d.w.z., is niet langer vrij van distributie zoals in het continue geval. Daarom is een snelle en nauwkeurige methode ontwikkeld om de exacte en asymptotische verdeling van D n te berekenen {\displaystyle D_{n}}

$d_{n}$

wanneer F ( x ) {\displaystyle F(x)}

$F(x)$

zuiver discreet of gemengd is, geïmplementeerd in C++ en in het ksgeneral pakket van de R taal. De functies disc_ks_test()mixed_ks_test() en cont_ks_test() berekenen ook de KS-teststatistieken en p-waarden voor zuiver discrete, gemengde of continue nuldistributies en willekeurige steekproefgrootten. De KS-test en de p-waarden voor discrete nuldistributies en kleine steekproefgrootten worden ook berekend als onderdeel van het dgof-pakket van de R-taal. Belangrijke statistische pakketten waaronder Sas PROC NPAR1WAY, Stata ksmirnov implementeren de KS-test onder de aanname dat F ( x ) {\displaystyle F(x)}

$F(x)$

continu is, wat conservatiever is als De null-verdeling eigenlijk niet continu is (zie ).

Test met geschatte parametersEdit

Discrete en gemengde nuldistributiedit

Geef een antwoord Antwoord annuleren

Meest recente berichten

Archieven

Meta