Kolmogorov-Smirnov test

Illustrasjon Av Kolmogorov distribusjonens PDF.

kolmogorov-fordelingen er fordelingen av den tilfeldige variabelenK = sup t ∈ | B ( t) |{\displaystyle K=\sup _{t\in}|B(t)/}

K=\sup _{t\in}/B(t) /

Hvor B(t) er den browniske broen. Den kumulative fordelingen funksjon av K er gitt ved

Pr ⁡ ( K ≤ x ) = 1 − 2 ∑ k = 1 ∞ ( − 1 ) k − 1 e − 2 k 2 x 2 = 2 π x ∑ k = 1 ∞ e − ( 2 k − 1 ) 2 π 2 / ( 8 x 2 ) , {\displaystyle \operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

{\displaystyle \operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

som Kan også uttrykkes Av Jacobi theta-funksjonen ϑ 01 ( z = 0 ; τ = 2 i x 2 / π ) {\displaystyle \vartheta _{01}(z=0;\tau =2ix^{2}/\pi )}

{\displaystyle \vartheta _{01}(z=0;\tau =2ix^{2}/\pi )}

. Både Formen På Kolmogorov-Smirnov – teststatistikken og dens asymptotiske fordeling under nullhypotesen ble publisert Av Andrey Kolmogorov, mens En tabell over fordelingen ble publisert Av Nikolai Smirnov. Gjentakelsesforhold for fordelingen av teststatistikken i endelige prøver er tilgjengelige.

under nullhypotesen at prøven kommer Fra den hypotetiske fordelingen F(x),

n d n → n → ∞ sup t | b ( F ( t ) ) | {\displaystyle {\sqrt {n}}d_{n}{\xrightarrow {n\til \infty }}\sup _{t}|b(f(t))|}

{\sqrt {n}}d_{N}{\xrightarrow {n\til \infty }}\sup _{t}|b(f(t))|

i distribusjon, hvor b(t) Er den brune broen.

hvis F er kontinuerlig under nullhypotesen n D n {\displaystyle {\sqrt {n}}D_{n}}

{\sqrt {n}}d_{n}

konvergerer Til kolmogorov-fordelingen, som ikke er avhengig Av F. Dette resultatet kan også være Kjent Som Kolmogorov teoremet. Nøyaktigheten av denne grensen som en tilnærming til den eksakte cdf Av K {\displaystyle K}

K

når n {\displaystyle n}

n

er endelig er ikke særlig imponerende: selv når n = 1000 {\displaystyle n=1000}

n=1000

, den tilsvarende maksimale feilen er omtrent 0,9 % {\displaystyle 0,9\%}

{\displaystyle 0,9\%}

; denne feilen øker til 2,6 % {\displaystyle 2,6\%}

{\displaystyle 2.6\%}

når n = 100 {\displaystyle n=100}

{\displaystyle n=100}

og til den totalt uakseptable 7% {\displaystyle 7\%}

{\displaystyle 7\%}

når n = 10 {\displaystyle n=10}

n=10

. Imidlertid er det svært enkelt å erstatte x {\displaystyle x}

x

med x + 1 6 n + x − 1 4 n {\displaystyle x+{\frac {1}{6{\sqrt {n}}}+{\frac {x-1} {4n}}

{\displaystyle x+{\frac {1} {6{\sqrt {n}}}+{\frac {x-1} {4n}}

i argumentet til jacobi theta-funksjonen reduseres disse feilene til 0,003 % {\displaystyle 0,003\%}

{\displaystyle 0,003\%}

, 0,027 % {\displaystyle 0,027\%}

{\displaystyle 0,027\%}

og 0,27 % {\displaystyle 0.27\%}

{\displaystyle 0,27\%}

henholdsvis; slik nøyaktighet vil vanligvis bli betraktet som mer enn tilstrekkelig for alle praktiske anvendelser. goodness-of-fit-testen Eller Kolmogorov-Smirnov-testen kan konstrueres ved å bruke De kritiske verdiene Til Kolmogorov-distribusjonen. Denne testen er asymptotisk gyldig når n → ∞ {\displaystyle n\til \infty}

{\displaystyle n\til \infty }

. Det avviser nullhypotesen på nivå α {\displaystyle \alpha }

\alpha

hvis n D n > K α , {\displaystyle {\sqrt {n}}D_{n}>K_{\alpha },\,}

{\sqrt {n}}D_{n}K_{\alpha },\,

hvor Ka er funnet

Pr ⁡ ( K ≤ K α ) = 1 − α . {\displaystyle\operatorname {Pr} (K\leq K_ {\alpha })=1 – \ alpha .\ ,}

\ operatorname {Pr} (K\leq K_{\alpha })=1- \ alpha .\ ,

asymptotisk effekt av denne testen er 1.

Raske og nøyaktige algoritmer for å beregne Cdf Pr ⁡ ( d n ≤ x ) {\displaystyle \operatorname {Pr} (D_{n}\leq x)}

{\displaystyle \operatorname {Pr} (D_{n}\leq x)}

eller komplementet for vilkårlig n {\displaystyle n}

N

og x {\displaystyle X}

x

, er tilgjengelig fra:

  • og for kontinuerlige nulldistribusjoner Med Kode I c og java som finnes i.
  • for rent diskret, blandet eller kontinuerlig nulldistribusjon implementert I ksgeneral-pakken Av r-prosjektet for statistisk databehandling, som for en gitt prøve også beregner ks-teststatistikken og dens p-verdi. Alternativ c++ implementering er tilgjengelig fra.

Test med estimerte parametererediger

hvis enten formen eller parametrene Til F(x) bestemmes Ut Fra Dataene Xi, er de kritiske verdiene som bestemmes på denne måten ugyldige. I Slike tilfeller Kan Monte Carlo eller andre metoder kreves, men tabeller er utarbeidet for noen tilfeller. Detaljer for de nødvendige endringene i teststatistikken og for de kritiske verdiene for normalfordelingen og eksponentiellfordelingen er publisert, og senere publikasjoner inkluderer Også gumbel-distribusjonen. Lilliefors-testen representerer et spesielt tilfelle av dette for normalfordelingen. Logaritmetransformasjonen kan bidra til å overvinne tilfeller Der Kolmogorov-testdataene ikke ser ut til å passe antagelsen om at den kom fra normalfordelingen.

ved hjelp av estimerte parametere oppstår spørsmålene hvilken estimeringsmetode som skal brukes. Vanligvis vil dette være den maksimale sannsynlighetsmetoden, men for normalfordelingen HAR MLE en stor bias-feil på sigma. Bruk av moment fit eller ks minimering har i stedet stor innvirkning på de kritiske verdiene, og også noen innvirkning på testkraften. Hvis Vi må bestemme For Student-T-data med df = 2 via KS-test om dataene kan være normale eller ikke, vil ET ML-estimat basert På H0 (data er normalt, så bruk av standardavviket for skala) gi mye større ks-avstand enn en passform med minimum KS. I dette tilfellet bør vi avvise H0, som ofte er tilfelle MED MLE, fordi utvalgsstandardavviket kan v re veldig stort For T – 2-data, men med ks minimering kan vi fa fortsatt en for lav KS til a avvise H0. I Student – t-saken gjør en modifisert ks-test med ks-estimat i stedet for MLE KS-testen faktisk litt verre. Men i andre tilfeller fører en slik modifisert ks-test til litt bedre testkraft.

Diskret og blandet nullfordelingrediger

under antagelsen Om At F ( x ) {\displaystyle F(x)}

F(x)

er ikke-avtagende og høyre kontinuerlig, med tellbart (muligens uendelig) antall hopp, KAN ks-teststatistikken uttrykkes som: D n = sup x | F n ( x ) − F ( x ) | = Sup 0 ≤ t ≤ 1 | f n ( f − 1 ( t ) ) − F ( f − 1 ( t ) ) | . {\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t \ leq 1} / F_{n}(F^{-1}(t)) – F (f^{-1} (t))|.}

{\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.}

fra høyre-kontinuitet Av F ( x ) {\displaystyle F(x)}

F(x)

følger Det At F ( F − 1 ( t ) ) ≥ t {\displaystyle F(f^{-1}(t))\geq t}

{\Displaystyle f(f^{-1}(t))\geq t}

og f − 1 ( f ( x ) ) ≤ x {\displaystyle f^{-1}(f(x))\leq X}

{\displaystyle f^{-1}(f(x))\leq x}

og dermed er fordelingen av d n {\displaystyle d_{n}}

d_{n}

avhenger av nullfordelingen f ( x ) {\displaystyle f(X)}

F (x)

, dvs., er ikke lenger distribusjonsfri som i det kontinuerlige tilfellet. Derfor har en rask og nøyaktig metode blitt utviklet for å beregne den nøyaktige og asymptotiske fordelingen Av D n {\displaystyle d_{n}}

D_{n}

Når F ( x ) {\displaystyle F(x)}

F(x)

er rent diskret eller blandet, implementert i c++ og i ksgenerell pakke av r-språket. Funksjonenedisc_ks_test()mixed_ks_test()ogcont_ks_test()beregner også ks-teststatistikken og p-verdiene for rent diskrete, blandede eller kontinuerlige nullfordelinger og vilkårlige utvalgsstørrelser. KS-testen og dens p-verdier for diskrete nullfordelinger og små utvalgsstørrelser beregnes også som en del av Dgof-pakken Til R-språket. Store statistiske pakker blant ANNET SASPROC NPAR1WAY, Stataksmirnovimplementer ks-testen under antagelsen Om At F ( x ) {\displaystyle F(x)}

F(x)

er kontinuerlig, noe som er mer konservativt hvis nullfordelingen faktisk ikke er kontinuerlig (se ).

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *