Kolmogorov-Smirnovin testi

kuvituskuva Kolmogorovin jakaumasta PDF.

Kolmogorovin jakauma on satunnaismuuttujan

k = sup T ∈ | B ( t ) | {\displaystyle K=\sup _{t\in }|B(t)|}

K=\sup _{t\in }|B(t)|

missä B(t) on Brownin silta. K: n kumulatiiviselle jakaumafunktiolle saadaan

Pr ⁡ ( k ≤ x ) = 1 − 2 ∑ K = 1 ∞ ( − 1 ) K − 1 e − 2 k 2 x 2 = 2 π x ∑ K = 1 ∞ e − ( 2 k − 1 ) 2 π 2 / ( 8 x 2 ) , {\displaystyle \operatorname {Pr} (k\leq x)=1-2\sum _{K=1}^{\infty }(-1)^{k-1}e^{-2K^{2}x^{2}}={\frac {\sqrt {2\pi }}{X}}\sum _{k=1}^{\infty }e^{-(2k-1)^{2}\Pi ^{2}/(8x^{2})},}

{\displaystyle \operatorname {PR} (k\leq x)=1-2\sum _{K=1}^{\infty }(-1)^{K-1}e^{-2K^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{K=1}^{\infty }e^{-(2k-1)^{2}\Pi ^{2}/(8x^{2})},}

joka voidaan ilmaista myös Jacobi Theta-funktiolla ϑ 01 ( z = 0 ; τ = 2 i x 2 / π ) {\displaystyle \vartheta _{01}(z=0;\tau =2ix^{2}/\pi )}

{\displaystyle \vartheta _{01}(z=0;\tau =2ix^{2}/\pi )}

. Sekä muodossa Kolmogorov–Smirnov testi tilasto ja sen asymptoottinen jakauma alle nollahypoteesi oli julkaissut Andrei Kolmogorov, kun taas taulukon jakauma oli julkaissut Nikolai Smirnov. Uusintasuhteet testin tilastollisen jakautumisen varmistamiseksi äärellisissä näytteissä ovat saatavilla.

nollahypoteesin mukaan näyte tulee hypoteettisesta jakaumasta F(x),

n d n → n → ∞ sup T | B ( F ( t ) ) | {\displaystyle {\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\sup _{T}|B(F(T))|}

{\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\SUP _{t}|b(f(t))|

jakaumassa, jossa b(t) on Brownin silta.

Jos F on jatkuva, niin nollahypoteesin mukaan n D n {\displaystyle {\sqrt {n}}D_{n}}

{\sqrt {n}}D_{n}

konvergoituu Kolmogorovin jakaumaan, joka ei riipu F: stä. Tätä tulosta voidaan kutsua myös Kolmogorovin teoreemaksi. Tämän rajan tarkkuus likiarvona k {\displaystyle k}

k

kun n {\displaystyle N}

n

on äärellinen , ei ole kovin vaikuttava: vaikka N = 1000 {\displaystyle N=1000}

n=1000

, vastaava suurin virhe on noin 0,9 % {\displaystyle 0,9\%}

{\displaystyle 0,9\%}

; tämä virhe kasvaa 2,6%: iin {\displaystyle 2,6\%}

{\displaystyle 2.6\%}

kun n = 100 {\displaystyle N=100}

{\displaystyle n=100}

ja täysin mahdottomaan 7 % {\displaystyle 7\%}

{\displaystyle 7\%}

kun n = 10 {\displaystyle N=10}

N=10

. Kuitenkin hyvin yksinkertainen keino korvata x {\displaystyle x}

x

x + 1 6 n + x − 1 4 n {\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

{\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

Jacobi Theta-funktion argumentissa nämä virheet vähenevät arvoon 0, 003 % {\displaystyle 0 , 003\%}

{\displaystyle 0 , 003\%}

, 0, 027 % {\displaystyle 0, 027\%}

{\displaystyle 0, 027\%}

ja 0, 27 % {\displaystyle 0.27\%}

{\displaystyle 0.27\%}

vastaavasti; tällaista tarkkuutta pidettäisiin yleensä enemmän kuin riittävänä kaikkiin käytännön sovelluksiin.

hyvyys-of-fit-testi tai Kolmogorovin-Smirnovin testi voidaan konstruoida Kolmogorovin jakauman kriittisten arvojen avulla. Tämä testi on asymptoottisesti Pätevä, kun n → ∞ {\displaystyle N\to \infty}

{\displaystyle N\to \infty}

. Se hylkää nollahypoteesin tasolla α {\displaystyle \alpha }

\alpha

if N D n > k α , {\displaystyle {\sqrt {n}}D_{n}>K_{\Alpha },\,}

{\sqrt {n}}D_{n}K_{\Alpha },\,

missä ka esiintyy

PR ⁡ ( k ≤ k α ) = 1 − α . {\displaystyle \operatorname {Pr} (k\leq K_{\alpha })=1-\alpha .\ ,}

\operatorname {Pr} (k\leq K_{\alpha })=1-\alpha .\,

tämän testin asymptoottinen teho on 1.

nopeat ja tarkat algoritmit laskea CDF Pr ⁡ ( D n ≤ x ) {\displaystyle \operatorname {Pr} (D_{n}\leq x)}

{\displaystyle \operatorname {Pr} (D_{n}\leq x)}

tai sen komplementti mielivaltaiselle n {\displaystyle n}

n

ja x {\displaystyle X}

x

, ovat saatavilla osoitteesta:

  • ja jatkuville Nollajakaumille, joiden koodi C ja Java löytyvät.
  • puhtaasti diskreetille, sekalaiselle tai jatkuvalle nollajakaumalle, joka on toteutettu tilastollisen laskennan R-projektin KSgeneral-paketissa, jossa tietylle otokselle lasketaan myös KS-testin tilastollinen arvo ja sen p-arvo. Vaihtoehtoinen C++ – toteutus on saatavilla osoitteesta.

testi estimoiduilla parametreilla

Jos tiedoista määritetään joko F(x): n muoto tai parametrit Xi näin määritetyt kriittiset arvot ovat virheellisiä. Tällaisissa tapauksissa voidaan tarvita Monte Carlo tai muita menetelmiä, mutta joissakin tapauksissa on laadittu taulukoita. On julkaistu yksityiskohtaiset tiedot testitilaston vaadittavista muutoksista sekä normaalijakauman ja eksponentiaalisen jakauman kriittisistä arvoista, ja myöhemmissä julkaisuissa on mukana myös Gumbel-jakauma. Lillieforsin testi edustaa tästä erikoistapausta normaalijakaumalle. Logaritmin muunnos voi auttaa voittamaan tapauksia, joissa Kolmogorovin testitulos ei näytä sopivan oletukseen, että se olisi tullut normaalijakaumasta.

estimoituja parametreja käyttäen herää kysymys, mitä estimointimenetelmää tulisi käyttää. Yleensä tämä olisi maksimitodennäköisyysmenetelmä, mutta esimerkiksi normaalijakaumassa MLE: llä on Sigmassa suuri biasvirhe. Moment fit-tai KS-minimoinnin käyttäminen sen sijaan vaikuttaa suuresti kriittisiin arvoihin ja myös jonkin verran testitehoon. Jos meidän täytyy päättää Opiskelija-t tiedot DF = 2 kautta KS testi, onko tiedot voisivat olla normaaleja vai ei, niin ML arvio perustuu H0 (data on normaali, joten käyttämällä keskihajonta mittakaavassa) antaisi paljon suurempi KS etäisyys, kuin sovi vähintään KS. Tällöin pitäisi hylätä H0, kuten usein MLE: n kohdalla, koska otoksen keskihajonta voi olla hyvin suuri T-2-datalle, mutta KS-minimoinnilla saatamme saada vielä liian alhaisen KS: n hylkäämään H0: n. Opiskelija-T: n tapauksessa muokattu KS-testi, jossa on MLE: n sijasta KS-arvio, tekee KS-testistä todellakin hieman huonomman. Muissa tapauksissa tällainen modifioitu KS-testi johtaa kuitenkin hieman parempaan testitehoon.

diskreetti ja sekamuotoinen nollajakauma

olettaen, että F ( x ) {\displaystyle F(x)}

F(x)

on ei-laskeva ja oikea-jatkuva, laskettavissa (mahdollisesti ääretön) hyppyjen määrä, KS − testin tilastollinen voidaan ilmaista seuraavasti: D n = sup x | F n ( x) − f ( x ) | = SUP 0 ≤ T ≤ 1 | f n ( f − 1 ( t)) − f ( f-1 ( t ) ) | . {\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|f_{n}(F^{-1}(t))-F(F^{-1}(t))/.}

{\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.}

f ( x ) {\displaystyle F(x)}

F(x)

tästä seuraa , että F ( F-1 ( t ) ) ≥ T {\displaystyle F(F^{-1}(t))\geq t}

{\displaystyle F(F^{-1}(t))\geq t}

ja F − 1 ( f ( x ) ) ≤ x {\displaystyle F^{-1}(f(x))\leq X}

{\displaystyle F^{-1}(f(x))\leq X}

ja siten D n {\displaystyle D_{n}}

D_{n}

riippuu nollajakaumasta f ( x ) {\displaystyle F(X)}

F(x)

, eli ei ole enää jakeluvapaa kuten jatkuvassa tapauksessa. Siksi on kehitetty nopea ja tarkka menetelmä D n {\displaystyle D_{n}}

D_{n}

kun f ( x ) {\displaystyle F(x)}F(x)on puhtaasti diskreetti tai Mixed, toteutettu C++: lla ja R-kielen ksgeneral-paketissa. Funktiotdisc_ks_test()mixed_ks_test()jacont_ks_test()laskevat myös KS-testin tilastolliset ja p-arvot puhtaasti diskreeteille, sekalaisille tai jatkuville nollajakaumille ja mielivaltaisille otoskooille. KS-testi ja sen p-arvot diskreeteille nollajakaumille ja pienille otoskooille lasketaan myös osana R-kielen dgof-pakettia. Tärkeimmät tilastolliset paketit, joista SASPROC NPAR1WAY, Stataksmirnovtoteuttaa KS-testin olettaen, että F ( x ) {\displaystyle F(x)}

F(x)

on jatkuva, mikä on konservatiivisempi, jos nollajakauma ei itse asiassa ole jatkuva (KS.).

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *