Kolmogorov-Szmirnov teszt

a Kolmogorov-disztribúció PDF-jének illusztrációja.

a Kolmogorov-Eloszlás a

k = sup t ∈ | B ( t ) | {\displaystyle k=\sup _{t\in }|B(t)|}

k=\sup _{t\in }|B(t)|

ahol B(t) a Brownian híd. A kumulatív eloszlás függvény K által adott

Pr ⁡ ( K ≤ x ) = 1 − 2 ∑ k = 1 ∞ ( − 1 ) k − 1 e − 2 k-2 x 2 = 2 π x ∑ k = 1 ∞ e − ( 2 k − 1 ) 2 π 2 / ( 8 x 2 ) , {\displaystyle \operatorname {Pr} (a K\leq x)=1-2\összeg _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\összeg _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

{\displaystyle \operatorname {Pr} (a K\leq x)=1-2\összeg _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\összeg _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

ami a Jacobi theta függvény ϑ 01 ( z = 0 ; τ = 2 i x 2 / π ) {\displaystyle \vartheta _{01}(z=0;\tau =2IX^{2}/\pi )}

{\displaystyle \vartheta _{01}(z=0;\tau =2IX^{2}/\pi )}

. Mind a Kolmogorov–Smirnov tesztstatisztika formáját, mind az aszimptotikus eloszlását A null hipotézis alapján Andrey Kolmogorov tette közzé, míg a disztribúció táblázatát Nikolai Smirnov tette közzé. A vizsgálati statisztika véges mintákban való eloszlására vonatkozó ismétlődési kapcsolatok rendelkezésre állnak.

null hipotézis szerint a minta az F(x),

n d n → n → ∞ sup t | B ( F ( t ) ) | {\displaystyle {\sqrt {n}}d_{n}{\xrightarrow {n\to \infty}}} \sup _{t}|B(F(t))|}

{\sqrt {n}d_{n}{\xrightarrow {N\to \infty }}\sup _{t}|b(f(t))|

eloszlásban, ahol b(t) a Brownian-híd.

ha F folytonos, akkor a null hipotézis alatt n n {\displaystyle {\sqrt {n}}d_{n}}

{\sqrt {n} d_{n}

konvergál a Kalmogorov-eloszláshoz, amely nem függ F. Ez az eredmény Kolmogorov-tételként is ismert. A pontosság ezt a korlátot, mint egy közelítés, hogy a pontos cdf a K {\displaystyle K}

K

ha n {\displaystyle n}

n

véges, nem túl meggyőző: még ha az n = 1000 {\displaystyle n=1000}

n=1000

, a megfelelő maximális hiba miatt 0.9 % {\displaystyle 0.9\%}

{\displaystyle 0.9\%}

; ez a hiba növeli 2,6 % {\displaystyle 2.6\%}

{\displaystyle 2.6\%}

ha n = 100 {\displaystyle n=100}

{\displaystyle n=100}

, majd a teljesen elfogadhatatlan 7 % {\displaystyle 7\%}

{\displaystyle 7\%}

ha n = 10 {\displaystyle n=10}

n=10

. Azonban egy nagyon egyszerű, célszerű cseréje x {\displaystyle x}

x

x + 1 6 n + x − 1 4 n {\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

{\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

az érv a Jacobi-théta a funkció csökkenti ezeket a hibákat 0,003 % {\displaystyle 0.003\%}

{\displaystyle 0.003\%}

, 0.027 % {\displaystyle 0.027\%}

{\displaystyle 0.027\%}

lehetőséget , majd 0.27 % {\displaystyle 0.27\%}

{\displaystyle 0.27\%}

; az ilyen pontosságot általában több mint megfelelőnek tekintik minden gyakorlati alkalmazáshoz.

a jóság-of-fit teszt vagy a Kolmogorov-Smirnov teszt a Kolmogorov-Eloszlás kritikus értékeinek felhasználásával készülhet. Ez a teszt aszimptotikusan érvényes, ha n → ∞ {\displaystyle N \ to \ infty }

{\displaystyle n\to \infty }

. Elutasítja az α {\displaystyle \alpha }

\alpha

ha n d n > k α , {\displaystyle {\sqrt {n} d_{n}d_ {n}>K_ {\Alpha },\,}

{\sqrt{n}}D_ {n}k_ {\Alpha },\,

ahol ka található

PR ⁡ ( k ≤ K α ) = 1 − α . {\displaystyle \ operatorname {Pr} (k\leq K_ {\alpha }) = 1-\alpha .\ ,}

\ operatorname {Pr} (k\leq K_ {\alpha }) =1 - \alpha .\,

a teszt aszimptotikus ereje 1.

Gyors, pontos algoritmusok, hogy kiszámolja a cdf Pr ⁡ ( D n ≤ x ) {\displaystyle \operatorname {Pr} (D_{n}\leq x)}

{\displaystyle \operatorname {Pr} (D_{n}\leq x)}

vagy annak kiegészítéseként a tetszőleges n {\displaystyle n}

n

, x {\displaystyle x}

x

, elérhető:

  • , majd a folyamatos null disztribúciók a kód C, Java megtalálható.
  • az R projekt statisztikai számítástechnikai ksgeneral csomagjában megvalósított tisztán diszkrét, vegyes vagy folyamatos null eloszláshoz, amely egy adott mintához kiszámítja a KS tesztstatisztikát és annak p-értékét is. Alternatív C++ megvalósítás elérhető.

teszt becsült paraméterekkelszerkesztés

Ha az F(x) formáját vagy paramétereit az Xi adatokból határozzák meg, az így meghatározott kritikus értékek érvénytelenek. Ilyen esetekben szükség lehet Monte Carlo-ra vagy más módszerekre, de bizonyos esetekben táblázatokat készítettek. Közzétették a tesztstatisztika szükséges módosításainak, valamint a normál eloszlás és az exponenciális eloszlás kritikus értékeinek részleteit, a későbbi publikációk pedig a Gumbel-eloszlást is tartalmazzák. A Lilliefors-teszt ennek különleges esetét képviseli a normál eloszlás szempontjából. A logaritmus-transzformáció segíthet leküzdeni azokat az eseteket, amikor a Kolmogorov vizsgálati adatok nem tűnnek azon feltételezésnek, hogy a normál eloszlásból származnak.

becsült paraméterek alkalmazásával felmerül a kérdés, hogy melyik becslési módszert kell használni. Általában ez lenne a maximális valószínűségi módszer, de például a normál eloszláshoz az MLE nagy torzítási hibát mutat a sigma-n. A moment fit vagy a KS minimization használata helyett nagy hatással van a kritikus értékekre, valamint némi hatással van a teszt teljesítményére. Ha el kell döntenünk a Student-T adatokat df = 2-vel KS teszten keresztül, hogy az adatok normálisak-e vagy sem, akkor a H0-n alapuló ML becslés (az adatok normálisak, tehát a skála szórásának használata) sokkal nagyobb KS távolságot adna, mint a minimális KS-vel való illeszkedés. Ebben az esetben el kell utasítanunk a H0-t, ami gyakran előfordul az MLE esetében, mivel a minta szórása nagyon nagy lehet A T-2 ADATOK esetében, de a KS minimalizálásával még mindig túl alacsony KS lehet a H0 elutasításához. A Student-T esetben egy módosított KS teszt KS becsléssel az MLE helyett, a KS tesztet valóban kissé rosszabbá teszi. Más esetekben azonban egy ilyen módosított KS-teszt kissé jobb tesztteljesítményt eredményez.

Diszkrét, vegyes null distributionEdit

a tévhitben, hogy az F ( x ) {\displaystyle F(x)}

F(x)

nem csökkenő, illetve igaz-folyamatos, a megszámlálható (esetleg végtelen) száma ugrik, a KS teszt statisztika kifejezhető: D n = sup x | F n ( x ) − F ( x ) | = sup 0 ≤ t ≤ 1 | F n ( F − 1 ( t ) ) − F ( F − 1 ( t ) ) | . {\displaystyle D_{n} = \ sup _{x} / F_ {N}(x) – F (x)/ = \ sup _{0 \ leq t \ leq 1} / F_{n} (F^{-1} (t)) – F(F^{-1}(t)|.}

{\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.}

a jobb-folyamatosságát F ( x ) {\displaystyle F(x)}

F(x)

, ebből következik, hogy F ( F − 1 ( t ) ) ≥ t {\displaystyle F(F^{-1}(t))\geq t}

{\displaystyle F(F^{-1}(t))\geq t}

F − 1 ( F ( x ) ) ≤ x {\displaystyle F^{-1}(F(x))\leq x}

{\displaystyle F^{-1}(F(x))\leq x}

, s így az elosztás D n {\displaystyle D_{n}}

D_{n}

attól függ, hogy a null eloszlás F ( x ) {\displaystyle F(x)}

F(x)

, azaz már nem terjesztésmentes, mint a folyamatos esetben. Ezért egy gyors és pontos módszert fejlesztettek ki a D n {\displaystyle D_{n}}}

D_{n}

ha F ( x ) {\displaystyle F(x)}

F(x)

tisztán diszkrét vagy vegyes, implementálva C++ – ban és az R nyelv ksgeneral csomagjában. Adisc_ks_test()mixed_ks_test()éscont_ks_test()a KS tesztstatisztikát és a P-értékeket a tisztán diszkrét, vegyes vagy folyamatos null eloszlásokhoz és tetszőleges mintaméretekhez is kiszámítják. A KS-tesztet és a diszkrét null-eloszlásokra vonatkozó p-értékeit, valamint a kis mintaméreteket szintén az R nyelv dgof-csomagjának részeként számítják ki. Főbb statisztikai csomagokat, amelyek között SASPROC NPAR1WAY, Stataksmirnovvégrehajtani a KS teszt alatt a feltételezés, hogy F ( x ) {\displaystyle F(x)}

F(x)

folyamatos, ami több konzervatív, ha a null engedély valójában nem folyamatos (lásd ).

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük