Kolmogorov-Smirnov test

Illustration av Kolmogorov distribution PDF.

Kolmogorov-fördelningen är fördelningen av den slumpmässiga variabeln

K = sup t ci | b ( t ) | {\displaystyle K=\sup _{t\in }|B(t)|}

$K=\sup _{t\in }|B(t)|$

där B(t) är den bruna bron. Den kumulativa fördelningsfunktionen av K ges av

Pr ⁡ ( K ≤ x ) = 1 − 2 ∑ k = 1 ∞ ( − 1 ) k − 1 e − 2 k-2 x 2 = 2 π x ∑ k = 1 ∞ e − ( 2 k − 1 ) 2 π 2 / ( 8 x 2 ) , {\displaystyle \operatorname {Pr} K\leq x)=1-2\summan _{n=1}^{\infty }(-1)^{n-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\summan _{n=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

$\operatorname {Pr} K\leq x)=1-2\summan _{n=1}^{\infty }(-1)^{n-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\summan _{n=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},$

som kan också uttryckas med Jacobi theta-funktionen 01 ( z = 0 ; 2 x 2 / 2 ) {\displaystyle \vartheta _{01}(z = 0;\tau=2IX^{2}/\pi )}

$\vartheta _{01}(z=0;\tau=2IX^{2}/\pi )$

. Både formen av Kolmogorov-Smirnov – teststatistiken och dess asymptotiska fördelning under nollhypotesen publicerades av Andrey Kolmogorov, medan en tabell över distributionen publicerades av Nikolai Smirnov. Återkommande relationer för distribution av teststatistiken i ändliga prover finns tillgängliga.

under nollhypotesen att provet kommer från den hypotetiska fördelningen F(x),

n d n sxi n sxi sup t | B ( f ( t ) ) | {\displaystyle {\sqrt {n}}d_{n}{\xrightarrow {n\to \infty }}\sup _{t}|b(f(t))|}

${\sqrt {n}}d_{n}{\xrightarrow {n\to \infty }}\sup _{t}|b(f(t))|$

i distribution, där b(t) är den bruna bron.

om F är kontinuerlig konvergerar n D n {\displaystyle {\sqrt {n}}D_{n}}

${\sqrt {n}}D_{n}$

till Kolmogorov-distributionen, som inte beror på F. Detta resultat kan också kallas Kolmogorov-satsen. Noggrannheten för denna gräns som en approximation till den exakta cdf av K {\displaystyle K}

$K$

när n {\displaystyle n}

$n$

är ändlig är inte särskilt imponerande: även när n = 1000 {\displaystyle n=1000}

$n=1000$

, motsvarande maximala fel är cirka 0,9 % {\displaystyle 0,9\%}

$0,9\%$

; detta fel ökar till 2,6 % {\displaystyle 2,6\%}

$2.6\%$

när n = 100 {\displaystyle n=100}

$n=100$

och till den helt oacceptabla 7 % {\displaystyle 7\%}

$7\%$

när n = 10 {\displaystyle n=10}

$n=10$

. Men en mycket enkel lämpligt att ersätta x {\displaystyle X}

$x$

med x + 1 6 n + x − 1 4 n {\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

$x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}$

i argumentet för Jacobi Theta-funktionen minskar dessa fel till 0,003 % {\displaystyle 0,003\%}

$0,003\%$

, 0,027 % {\displaystyle 0,027\%}

$0,027\%$

och 0,27 % {\displaystyle 0.27\%}

$0.27\%$

respektive; sådan noggrannhet anses vanligtvis vara mer än tillräcklig för alla praktiska tillämpningar.

goodness-of-fit-testet eller Kolmogorov-Smirnov-testet kan konstrueras med hjälp av de kritiska värdena för Kolmogorov-distributionen. Detta test är asymptotiskt giltigt när n {\displaystyle n\to \infty}

$n\to \infty$

. Det förkastar nollhypotesen på nivån α {\displaystyle \alpha }

$\alpha$

om n D n > K α , {\displaystyle {\sqrt {n}}D_{n}>K_{\alpha },\,}

${\sqrt {n}}D_{n}K_{\alpha },\,$

där Ka finns från

Pr ⁡ ( K ≤ K α ) = 1 − α . {\displaystyle \ operatorname {Pr} (K \ leq K_ {\alpha }) =1 – \ alpha .\ ,}

$\ operatörnamn {Pr} (K \ leq K_ {\alpha }) =1-\alpha .\ ,$

den asymptotiska effekten av detta test är 1.

snabba och exakta algoritmer för att beräkna cdf pr ( d n x ) {\displaystyle \operatorname {Pr} (D_{n}\leq x)}

$\operatorname {Pr} (D_{n}\leq x)$

eller dess komplement för godtycklig n {\displaystyle n}

$n$

och X {\displaystyle X}

$x$

, är tillgängliga från:

och för kontinuerliga null-distributioner med kod i C och Java som finns i.

för rent diskret, blandad eller kontinuerlig null-distribution implementerad i ksgeneral-paketet i r-projektet för statistisk beräkning, som för ett givet prov också beräknar ks-teststatistiken och dess p-värde. Alternativ C++ implementering är tillgänglig från.

Test med beräknad parametersEdit

om antingen formuläret eller parametrarna för F(x) bestäms från data Xi är de kritiska värdena som bestäms på detta sätt ogiltiga. I sådana fall kan Monte Carlo eller andra metoder krävas, men tabeller har förberetts för vissa fall. Detaljer för de nödvändiga ändringarna av teststatistiken och för de kritiska värdena för normalfördelning och exponentiell distribution har publicerats, och senare publikationer inkluderar också Gumbel-distributionen. Lilliefors-testet representerar ett speciellt fall av detta för normalfördelning. Logaritmtransformationen kan hjälpa till att övervinna fall där Kolmogorov-testdata inte verkar passa antagandet att det kom från normalfördelningen.

med hjälp av uppskattade parametrar uppstår frågorna vilken uppskattningsmetod som ska användas. Vanligtvis skulle detta vara den maximala sannolikhetsmetoden, men t.ex. för normalfördelningen har MLE ett stort biasfel på Sigma. Att använda en moment fit eller ks minimering har istället en stor inverkan på de kritiska värdena, och även en viss inverkan på testkraften. Om vi behöver bestämma för Student-T-data med df = 2 via KS-test om data kan vara normala eller inte, skulle en ML-uppskattning baserad på H0 (data är normalt, så att använda standardavvikelsen för skala) ge mycket större KS-avstånd än en passform med minsta KS. I det här fallet bör vi avvisa H0, vilket ofta är fallet med MLE, eftersom provstandardavvikelsen kan vara mycket stor för T-2-data, men med KS-minimering kan vi fortfarande få en för låg KS för att avvisa H0. I Student – t-fallet, ett modifierat KS-test med KS-uppskattning istället för MLE, gör KS-testet verkligen något sämre. I andra fall leder emellertid ett sådant modifierat KS-test till något bättre testkraft.

diskret och blandad null distributionEdit

under antagandet att F ( x ) {\displaystyle F(x)}

$F(x)$

är icke-minskande och höger kontinuerlig, med räknbart (eventuellt oändligt) antal hopp kan ks-teststatistiken uttryckas som: D n = sup x | F n ( x ) − F ( x ) | = Sup 0 ci t Ci 1 | f n ( f − 1 ( T ) ) − F ( F − 1 ( t ) ) | . {\displaystyle D_{n}= \ sup _ {x} / F_{n} (x) – F (x) / =\sup _ {0\leq t \ leq 1} / F_{n} (f^{-1} (t)) – F (F^{-1} (t))|.}

$D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.$

från höger-kontinuitet av F ( x ) {\displaystyle F(x)}

$F(x)$

följer att F ( F − 1 ( t)) reg {\displaystyle F(F^{-1}(t))\geq t}

$F(F^{-1}(t))\geq t$

och f − 1 ( F ( X)) {\displaystyle F^{-1}(f(x))\leq X}

$F^{-1}(f(x))\leq X$

och därmed fördelningen av d n {\displaystyle d_{n}}

$d_{n}$

beror på null fördelningen f ( x ) {\displaystyle F(x)}

$F(x)$ F(x)

, dvs är inte längre distributionsfri som i det kontinuerliga fallet. Därför har en snabb och exakt metod utvecklats för att beräkna den exakta och asymptotiska fördelningen av D n {\displaystyle D_{n}}

$D_{n}$

när F ( x ) {\displaystyle F(x)}

$F(x)$

är rent diskret eller blandad, implementerad i C++ och i ksgeneral-paketet i r-språket. Funktionernadisc_ks_test()mixed_ks_test()ochcont_ks_test()beräknar också ks-teststatistiken och p-värdena för rent diskreta, blandade eller kontinuerliga null-distributioner och godtyckliga provstorlekar. KS-testet och dess p-värden för diskreta null-distributioner och små provstorlekar beräknas också som en del av dgof-paketet i r-språket. Stora statistiska paket bland vilka SASPROC NPAR1WAY, Stataksmirnovimplementera ks-testet under antagandet att F ( x ) {\displaystyle F(x)}

$F(x)$

är kontinuerlig, vilket är mer konservativt om null-distributionen faktiskt är inte kontinuerlig (se ).

Test med beräknad parametersEdit

diskret och blandad null distributionEdit

Lämna ett svar Avbryt svar

Senaste inläggen

Arkiv

Meta