Kolmogorov-Smirnov test

Illustration af Kolmogorov distributionens PDF.

Kolmogorov-distributionen er fordelingen af den tilfældige variabel

K = sup t list | B ( t ) | {\displaystyle K=\sup _{t\in }|B(t)|}

K=\sup _{t\in }|B(t)|

hvor B(t) er den brune bro. Den kumulative fordelingsfunktion for K er givet ved

Pr ⁡ ( K ≤ x ) = 1 − 2 ∑ k = 1 ∞ ( − 1 ) k − 1 e − 2 k-2 x 2 = 2 π-x ∑ k = 1 ∞ e − ( 2 k − 1 ) 2 π 2 / ( 8 x 2 ) , {\displaystyle \operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

{\displaystyle \operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

som kan også udtrykkes ved hjælp af Jacobi theta-funktionen l 01 ( å = 0 ; L = 2 i * 2 / l ) {\displaystyle \vartheta _{01}(å=0;\tau =2iks^{2}/\pi )}

{\displaystyle \vartheta _{01}(å=0;\tau =2iks^{2}/\pi )}

{\displaystyle \ vartheta _ {01} (å = 0; \ tau = 2iks ^ {2}/ \ pi)}

. Både formen af Kolmogorov-Smirnov teststatistik og dens asymptotiske fordeling under nulhypotesen blev offentliggjort af Andrey Kolmogorov, mens en tabel over distributionen blev offentliggjort af Nikolai Smirnov. Gentagelsesrelationer til distribution af teststatistikken i endelige prøver er tilgængelige.

under nulhypotesen om, at prøven kommer fra den hypotetiske fordeling F(H),

n d n list n list sup t | b ( f ( t ) ) | {\displaystyle {\KVRT {n}}D_{N}{\KVRT {n\til \infty }}\sup _{t}|b(f(t))|}

{\KVRT {n}}D_{n}{\til\infty}} \sup _{t}|b(f(t))|

i distribution, hvor b(t) er den brune bro.

hvis F er kontinuerlig derefter under nulhypotesen n D n {\displaystyle {\kvm {n}}D_{n}}

{\kvm {n}}D_{n}

konvergerer til Kolmogorov-distributionen, som ikke afhænger af F. Dette resultat kan også være kendt som Kolmogorov sætning. Nøjagtigheden af denne grænse som en tilnærmelse til den nøjagtige cdf af K {\displaystyle K}

K

når n {\displaystyle n}

n

er endelig er ikke særlig imponerende: selv når n = 1000 {\displaystyle n=1000}

n=1000

, den tilsvarende maksimale fejl er omkring 0,9 % {\displaystyle 0,9\%}

{\displaystyle 0,9\%}

; denne fejl stiger til 2,6 % {\displaystyle 2,6\%}

{\displaystyle 2.6\%}

når n = 100 {\displaystyle n=100}

{\displaystyle n=100}

og til den helt uacceptable 7 % {\displaystyle 7\%}

{\displaystyle 7\%}

når n = 10 {\displaystyle n=10}

n=10

. Men det er meget simpelt at erstatte {\displaystyle}

med + 1 6 n + − 1 4 n {\displaystyle+{\frac {1}{6{\kvm {n}}}}+{\frac {1}{4n}}}

{\displaystyle+{\frac {1}{6{\frat {n}}}}+{\frac {h-1}{4N}}}

i argumentet for Jacobi theta-funktionen reduceres disse fejl til 0,003 % {\displaystyle 0,003\%}

{\displaystyle 0, 003\%}

, 0 , 027 % {\displaystyle 0, 027\%}

{\displaystyle 0, 027\%}

og 0, 27 % {\displaystyle 0.27\%}

{\displaystyle 0.27\%}

henholdsvis; en sådan nøjagtighed ville normalt betragtes som mere end tilstrækkelig til alle praktiske anvendelser.

goodness-of-fit-testen eller Kolmogorov–Smirnov-testen kan konstrueres ved hjælp af de kritiske værdier i Kolmogorov-distributionen. Denne test er asymptotisk gyldig, når n {\displaystyle n\til \infty }

{\displaystyle n\til \infty }

. Det afviser nulhypotesen på niveau α {\displaystyle \alpha }

\alpha

hvis n D n > K α , {\displaystyle {\sqrt {n}}D_{n}>K_{\alpha },\,}

{\sqrt {n}}D_{n}K_{\alpha },\,

hvor Ka er fundet fra

Pr ⁡ ( K ≤ K α ) = 1 − α . {\displaystyle \ operatorname {Pr} (K\LEKS K_{\alpha })=1 – \ alpha .\ ,}

\operatorname {Pr} (K\LEKS K_{\alpha })=1-\alpha .\ ,

den asymptotiske effekt af denne test er 1.

hurtige og nøjagtige algoritmer til beregning af cdf Pr – (DN -) {\displaystyle \operatorname {Pr} (D_{n}\lekv -)}

{\displaystyle \operatorname {Pr} (D_{n}\lekv -)}

eller dets komplement til vilkårlig n {\displaystyle n}

N

og

x

, er tilgængelige fra:

  • og for kontinuerlige null-distributioner med kode i C og Java, der findes i.
  • til rent diskret, blandet eller kontinuerlig nulfordeling implementeret i KSgeneral-pakken i r-projektet til statistisk databehandling, som for en given prøve også beregner KS-teststatistikken og dens p-værdi. Alternativ C++ implementering er tilgængelig fra.

Test med estimerede parametredit

Hvis enten formen eller parametrene for F(H) bestemmes ud fra dataene, er de kritiske værdier, der bestemmes på denne måde, ugyldige. I sådanne tilfælde kan Monte Carlo eller andre metoder være påkrævet, men der er udarbejdet tabeller i nogle tilfælde. Detaljer for de krævede ændringer af teststatistikken og for de kritiske værdier for normalfordelingen og den eksponentielle fordeling er blevet offentliggjort, og senere publikationer inkluderer også Gumbel-distributionen. Lilliefors-testen repræsenterer et specielt tilfælde af dette til normalfordelingen. Logaritmetransformationen kan hjælpe med at overvinde tilfælde, hvor Kolmogorov-testdataene ikke synes at passe til antagelsen om, at de kom fra normalfordelingen.

Ved hjælp af estimerede parametre opstår spørgsmålene, Hvilken estimeringsmetode der skal anvendes. Normalt ville dette være den maksimale sandsynlighedsmetode, men f.eks. for normalfordelingen har MLE en stor bias-fejl på sigma. Brug af en momentpasning eller KS-minimering har i stedet en stor indflydelse på de kritiske værdier og også en vis indflydelse på testkraften. Hvis vi har brug for at beslutte for Student-t-data med df = 2 via KS-test, om dataene kunne være normale eller ej, ville et ML-estimat baseret på H0 (data er normale, så brug af standardafvigelsen for skala) give meget større KS-afstand end en pasform med minimum KS. I dette tilfælde skal vi afvise H0, hvilket ofte er tilfældet med MLE, fordi prøvestandardafvigelsen kan være meget stor for T-2-data, men med KS-minimering kan vi stadig få en for lav KS til at afvise H0. I Student – t-sagen gør en modificeret KS-test med KS-estimat i stedet for MLE KS-testen faktisk lidt værre. I andre tilfælde fører en sådan modificeret KS-test imidlertid til lidt bedre testkraft.

diskret og blandet null distributionredit

under den antagelse, at f ( h ) {\displaystyle F(H)}

F(H) er ikke-faldende og højre-kontinuerlig, med tælleligt (muligvis uendeligt) antal spring, kan KS − teststatistikken udtrykkes som: D n = sup | F n ( H) − F ( H) | = Sup 0 ret t ret 1 | F n ( f − 1 ( t)) − F ( F-1 ( t))/. {\displaystyle D_{n}= \ sup _{k} / F_{n}|k) – F (K) / =\sup _{0 \ lekt t \ lekt 1} / F_{n} (F^{-1} (t))-F(F^{-1} (t))|.}

{\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.}

fra højre-kontinuitet af F ( H ) {\displaystyle F(H)}

F(H)

, følger det, at F ( F − 1 ( t)) ret t {\displaystyle F(F^{-1}(t)) ret t}

{\displaystyle F(F^{-1}(t))\GF t}

og F − 1 ( F ( H)) {\displaystyle F^{-1}(f(h)) \LF}

{\displaystyle F^{-1}(f(h))\LF}

og dermed fordelingen af D n {\displaystyle D_{n}}

D_{n}

afhænger af nulfordelingen f ( h) {\displaystyle F(H)}

F

, dvs.er ikke længere distributionsfri som i det kontinuerlige tilfælde. Derfor er der udviklet en hurtig og nøjagtig metode til at beregne den nøjagtige og asymptotiske fordeling af D n {\displaystyle D_{n}}

D_{n}

når F ( H ) {\displaystyle F(H)}

F(H)

er rent diskret eller blandet, implementeret i C++ og i ksgeneral-pakken på R-sproget. Funktionerne disc_ks_test()mixed_ks_test()og cont_ks_test() beregner også KS-teststatistikken og p-værdierne for rent diskrete, blandede eller kontinuerlige nulfordelinger og vilkårlige prøvestørrelser. KS-testen og dens p-værdier for diskrete nulfordelinger og små stikprøvestørrelser beregnes også som en del af dgof-pakken på R-sproget. Større statistiske pakker, blandt hvilke SAS PROC NPAR1WAY, Stata ksmirnov implementere KS-testen under antagelse om, at F ( H ) {\displaystyle F(H)}

F(H)

er kontinuerlig, hvilket er mere konservativt, hvis nulfordelingen faktisk er ikke kontinuerlig (se ).

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *