Kolmogorov-Szmirnov teszt

a Kolmogorov-disztribúció PDF-jének illusztrációja.

a Kolmogorov-Eloszlás a

k = sup t ∈ | B ( t ) | {\displaystyle k=\sup _{t\in }|B(t)|}

$k=\sup _{t\in }|B(t)|$

ahol B(t) a Brownian híd. A kumulatív eloszlás függvény K által adott

Pr ⁡ ( K ≤ x ) = 1 − 2 ∑ k = 1 ∞ ( − 1 ) k − 1 e − 2 k-2 x 2 = 2 π x ∑ k = 1 ∞ e − ( 2 k − 1 ) 2 π 2 / ( 8 x 2 ) , {\displaystyle \operatorname {Pr} (a K\leq x)=1-2\összeg _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\összeg _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

$\operatorname {Pr} (a K\leq x)=1-2\összeg _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\összeg _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},$

ami a Jacobi theta függvény ϑ 01 ( z = 0 ; τ = 2 i x 2 / π ) {\displaystyle \vartheta _{01}(z=0;\tau =2IX^{2}/\pi )}

$\vartheta _{01}(z=0;\tau =2IX^{2}/\pi )$

. Mind a Kolmogorov–Smirnov tesztstatisztika formáját, mind az aszimptotikus eloszlását A null hipotézis alapján Andrey Kolmogorov tette közzé, míg a disztribúció táblázatát Nikolai Smirnov tette közzé. A vizsgálati statisztika véges mintákban való eloszlására vonatkozó ismétlődési kapcsolatok rendelkezésre állnak.

null hipotézis szerint a minta az F(x),

n d n → n → ∞ sup t | B ( F ( t ) ) | {\displaystyle {\sqrt {n}}d_{n}{\xrightarrow {n\to \infty}}} \sup _{t}|B(F(t))|}

${\sqrt {n}d_{n}{\xrightarrow {N\to \infty }}\sup _{t}|b(f(t))|$

eloszlásban, ahol b(t) a Brownian-híd.

ha F folytonos, akkor a null hipotézis alatt n n {\displaystyle {\sqrt {n}}d_{n}}

${\sqrt {n} d_{n}$

konvergál a Kalmogorov-eloszláshoz, amely nem függ F. Ez az eredmény Kolmogorov-tételként is ismert. A pontosság ezt a korlátot, mint egy közelítés, hogy a pontos cdf a K {\displaystyle K}

$K$

ha n {\displaystyle n}

$n$

véges, nem túl meggyőző: még ha az n = 1000 {\displaystyle n=1000}

$n=1000$

, a megfelelő maximális hiba miatt 0.9 % {\displaystyle 0.9\%}

$0.9\%$

; ez a hiba növeli 2,6 % {\displaystyle 2.6\%}

$2.6\%$

ha n = 100 {\displaystyle n=100}

$n=100$

, majd a teljesen elfogadhatatlan 7 % {\displaystyle 7\%}

$7\%$

ha n = 10 {\displaystyle n=10}

$n=10$

. Azonban egy nagyon egyszerű, célszerű cseréje x {\displaystyle x}

$x$

x + 1 6 n + x − 1 4 n {\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

$x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}$

az érv a Jacobi-théta a funkció csökkenti ezeket a hibákat 0,003 % {\displaystyle 0.003\%}

$0.003\%$

, 0.027 % {\displaystyle 0.027\%}

$0.027\%$

lehetőséget , majd 0.27 % {\displaystyle 0.27\%}

$0.27\%$

; az ilyen pontosságot általában több mint megfelelőnek tekintik minden gyakorlati alkalmazáshoz.

a jóság-of-fit teszt vagy a Kolmogorov-Smirnov teszt a Kolmogorov-Eloszlás kritikus értékeinek felhasználásával készülhet. Ez a teszt aszimptotikusan érvényes, ha n → ∞ {\displaystyle N \ to \ infty }

$n\to \infty$

. Elutasítja az α {\displaystyle \alpha }

$\alpha$

ha n d n > k α , {\displaystyle {\sqrt {n} d_{n}d_ {n}>K_ {\Alpha },\,}

${\sqrt{n}}D_ {n}k_ {\Alpha },\,$

ahol ka található

PR ⁡ ( k ≤ K α ) = 1 − α . {\displaystyle \ operatorname {Pr} (k\leq K_ {\alpha }) = 1-\alpha .\ ,}

$\ operatorname {Pr} (k\leq K_ {\alpha }) =1 - \alpha .\,$

a teszt aszimptotikus ereje 1.

Gyors, pontos algoritmusok, hogy kiszámolja a cdf Pr ⁡ ( D n ≤ x ) {\displaystyle \operatorname {Pr} (D_{n}\leq x)}

$\operatorname {Pr} (D_{n}\leq x)$

vagy annak kiegészítéseként a tetszőleges n {\displaystyle n}

$n$

, x {\displaystyle x}

$x$

, elérhető:

, majd a folyamatos null disztribúciók a kód C, Java megtalálható.

az R projekt statisztikai számítástechnikai ksgeneral csomagjában megvalósított tisztán diszkrét, vegyes vagy folyamatos null eloszláshoz, amely egy adott mintához kiszámítja a KS tesztstatisztikát és annak p-értékét is. Alternatív C++ megvalósítás elérhető.

teszt becsült paraméterekkelszerkesztés

Ha az F(x) formáját vagy paramétereit az Xi adatokból határozzák meg, az így meghatározott kritikus értékek érvénytelenek. Ilyen esetekben szükség lehet Monte Carlo-ra vagy más módszerekre, de bizonyos esetekben táblázatokat készítettek. Közzétették a tesztstatisztika szükséges módosításainak, valamint a normál eloszlás és az exponenciális eloszlás kritikus értékeinek részleteit, a későbbi publikációk pedig a Gumbel-eloszlást is tartalmazzák. A Lilliefors-teszt ennek különleges esetét képviseli a normál eloszlás szempontjából. A logaritmus-transzformáció segíthet leküzdeni azokat az eseteket, amikor a Kolmogorov vizsgálati adatok nem tűnnek azon feltételezésnek, hogy a normál eloszlásból származnak.

becsült paraméterek alkalmazásával felmerül a kérdés, hogy melyik becslési módszert kell használni. Általában ez lenne a maximális valószínűségi módszer, de például a normál eloszláshoz az MLE nagy torzítási hibát mutat a sigma-n. A moment fit vagy a KS minimization használata helyett nagy hatással van a kritikus értékekre, valamint némi hatással van a teszt teljesítményére. Ha el kell döntenünk a Student-T adatokat df = 2-vel KS teszten keresztül, hogy az adatok normálisak-e vagy sem, akkor a H0-n alapuló ML becslés (az adatok normálisak, tehát a skála szórásának használata) sokkal nagyobb KS távolságot adna, mint a minimális KS-vel való illeszkedés. Ebben az esetben el kell utasítanunk a H0-t, ami gyakran előfordul az MLE esetében, mivel a minta szórása nagyon nagy lehet A T-2 ADATOK esetében, de a KS minimalizálásával még mindig túl alacsony KS lehet a H0 elutasításához. A Student-T esetben egy módosított KS teszt KS becsléssel az MLE helyett, a KS tesztet valóban kissé rosszabbá teszi. Más esetekben azonban egy ilyen módosított KS-teszt kissé jobb tesztteljesítményt eredményez.

Diszkrét, vegyes null distributionEdit

a tévhitben, hogy az F ( x ) {\displaystyle F(x)}

$F(x)$

nem csökkenő, illetve igaz-folyamatos, a megszámlálható (esetleg végtelen) száma ugrik, a KS teszt statisztika kifejezhető: D n = sup x | F n ( x ) − F ( x ) | = sup 0 ≤ t ≤ 1 | F n ( F − 1 ( t ) ) − F ( F − 1 ( t ) ) | . {\displaystyle D_{n} = \ sup _{x} / F_ {N}(x) – F (x)/ = \ sup _{0 \ leq t \ leq 1} / F_{n} (F^{-1} (t)) – F(F^{-1}(t)|.}

$D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.$

a jobb-folyamatosságát F ( x ) {\displaystyle F(x)}

$F(x)$

, ebből következik, hogy F ( F − 1 ( t ) ) ≥ t {\displaystyle F(F^{-1}(t))\geq t}

$F(F^{-1}(t))\geq t$

F − 1 ( F ( x ) ) ≤ x {\displaystyle F^{-1}(F(x))\leq x}

$F^{-1}(F(x))\leq x$

, s így az elosztás D n {\displaystyle D_{n}}

$D_{n}$

attól függ, hogy a null eloszlás F ( x ) {\displaystyle F(x)}

$F(x)$

, azaz már nem terjesztésmentes, mint a folyamatos esetben. Ezért egy gyors és pontos módszert fejlesztettek ki a D n {\displaystyle D_{n}}}

$D_{n}$

ha F ( x ) {\displaystyle F(x)}

$F(x)$

tisztán diszkrét vagy vegyes, implementálva C++ – ban és az R nyelv ksgeneral csomagjában. Adisc_ks_test()mixed_ks_test()éscont_ks_test()a KS tesztstatisztikát és a P-értékeket a tisztán diszkrét, vegyes vagy folyamatos null eloszlásokhoz és tetszőleges mintaméretekhez is kiszámítják. A KS-tesztet és a diszkrét null-eloszlásokra vonatkozó p-értékeit, valamint a kis mintaméreteket szintén az R nyelv dgof-csomagjának részeként számítják ki. Főbb statisztikai csomagokat, amelyek között SASPROC NPAR1WAY, Stataksmirnovvégrehajtani a KS teszt alatt a feltételezés, hogy F ( x ) {\displaystyle F(x)}

$F(x)$

folyamatos, ami több konzervatív, ha a null engedély valójában nem folyamatos (lásd ).

teszt becsült paraméterekkelszerkesztés

Diszkrét, vegyes null distributionEdit

Vélemény, hozzászólás? Kilépés a válaszból

Legutóbbi bejegyzések

Archívum

Meta