a Kolmogorov-Eloszlás a
k = sup t ∈ | B ( t ) | {\displaystyle k=\sup _{t\in }|B(t)|}
ahol B(t) a Brownian híd. A kumulatív eloszlás függvény K által adott
Pr ( K ≤ x ) = 1 − 2 ∑ k = 1 ∞ ( − 1 ) k − 1 e − 2 k-2 x 2 = 2 π x ∑ k = 1 ∞ e − ( 2 k − 1 ) 2 π 2 / ( 8 x 2 ) , {\displaystyle \operatorname {Pr} (a K\leq x)=1-2\összeg _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\összeg _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}
ami a Jacobi theta függvény ϑ 01 ( z = 0 ; τ = 2 i x 2 / π ) {\displaystyle \vartheta _{01}(z=0;\tau =2IX^{2}/\pi )}
. Mind a Kolmogorov–Smirnov tesztstatisztika formáját, mind az aszimptotikus eloszlását A null hipotézis alapján Andrey Kolmogorov tette közzé, míg a disztribúció táblázatát Nikolai Smirnov tette közzé. A vizsgálati statisztika véges mintákban való eloszlására vonatkozó ismétlődési kapcsolatok rendelkezésre állnak.
null hipotézis szerint a minta az F(x),
n d n → n → ∞ sup t | B ( F ( t ) ) | {\displaystyle {\sqrt {n}}d_{n}{\xrightarrow {n\to \infty}}} \sup _{t}|B(F(t))|}
eloszlásban, ahol b(t) a Brownian-híd.
ha F folytonos, akkor a null hipotézis alatt n n {\displaystyle {\sqrt {n}}d_{n}}
konvergál a Kalmogorov-eloszláshoz, amely nem függ F. Ez az eredmény Kolmogorov-tételként is ismert. A pontosság ezt a korlátot, mint egy közelítés, hogy a pontos cdf a K {\displaystyle K}
ha n {\displaystyle n}
véges, nem túl meggyőző: még ha az n = 1000 {\displaystyle n=1000}
, a megfelelő maximális hiba miatt 0.9 % {\displaystyle 0.9\%}
; ez a hiba növeli 2,6 % {\displaystyle 2.6\%}
ha n = 100 {\displaystyle n=100}
, majd a teljesen elfogadhatatlan 7 % {\displaystyle 7\%}
ha n = 10 {\displaystyle n=10}
. Azonban egy nagyon egyszerű, célszerű cseréje x {\displaystyle x}
x + 1 6 n + x − 1 4 n {\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}
az érv a Jacobi-théta a funkció csökkenti ezeket a hibákat 0,003 % {\displaystyle 0.003\%}
, 0.027 % {\displaystyle 0.027\%}
lehetőséget , majd 0.27 % {\displaystyle 0.27\%}
; az ilyen pontosságot általában több mint megfelelőnek tekintik minden gyakorlati alkalmazáshoz.
a jóság-of-fit teszt vagy a Kolmogorov-Smirnov teszt a Kolmogorov-Eloszlás kritikus értékeinek felhasználásával készülhet. Ez a teszt aszimptotikusan érvényes, ha n → ∞ {\displaystyle N \ to \ infty }
. Elutasítja az α {\displaystyle \alpha }
ha n d n > k α , {\displaystyle {\sqrt {n} d_{n}d_ {n}>K_ {\Alpha },\,}
ahol ka található
PR ( k ≤ K α ) = 1 − α . {\displaystyle \ operatorname {Pr} (k\leq K_ {\alpha }) = 1-\alpha .\ ,}
a teszt aszimptotikus ereje 1.
Gyors, pontos algoritmusok, hogy kiszámolja a cdf Pr ( D n ≤ x ) {\displaystyle \operatorname {Pr} (D_{n}\leq x)}
vagy annak kiegészítéseként a tetszőleges n {\displaystyle n}
, x {\displaystyle x}
, elérhető:
- , majd a folyamatos null disztribúciók a kód C, Java megtalálható.
- az R projekt statisztikai számítástechnikai ksgeneral csomagjában megvalósított tisztán diszkrét, vegyes vagy folyamatos null eloszláshoz, amely egy adott mintához kiszámítja a KS tesztstatisztikát és annak p-értékét is. Alternatív C++ megvalósítás elérhető.
teszt becsült paraméterekkelszerkesztés
Ha az F(x) formáját vagy paramétereit az Xi adatokból határozzák meg, az így meghatározott kritikus értékek érvénytelenek. Ilyen esetekben szükség lehet Monte Carlo-ra vagy más módszerekre, de bizonyos esetekben táblázatokat készítettek. Közzétették a tesztstatisztika szükséges módosításainak, valamint a normál eloszlás és az exponenciális eloszlás kritikus értékeinek részleteit, a későbbi publikációk pedig a Gumbel-eloszlást is tartalmazzák. A Lilliefors-teszt ennek különleges esetét képviseli a normál eloszlás szempontjából. A logaritmus-transzformáció segíthet leküzdeni azokat az eseteket, amikor a Kolmogorov vizsgálati adatok nem tűnnek azon feltételezésnek, hogy a normál eloszlásból származnak.
becsült paraméterek alkalmazásával felmerül a kérdés, hogy melyik becslési módszert kell használni. Általában ez lenne a maximális valószínűségi módszer, de például a normál eloszláshoz az MLE nagy torzítási hibát mutat a sigma-n. A moment fit vagy a KS minimization használata helyett nagy hatással van a kritikus értékekre, valamint némi hatással van a teszt teljesítményére. Ha el kell döntenünk a Student-T adatokat df = 2-vel KS teszten keresztül, hogy az adatok normálisak-e vagy sem, akkor a H0-n alapuló ML becslés (az adatok normálisak, tehát a skála szórásának használata) sokkal nagyobb KS távolságot adna, mint a minimális KS-vel való illeszkedés. Ebben az esetben el kell utasítanunk a H0-t, ami gyakran előfordul az MLE esetében, mivel a minta szórása nagyon nagy lehet A T-2 ADATOK esetében, de a KS minimalizálásával még mindig túl alacsony KS lehet a H0 elutasításához. A Student-T esetben egy módosított KS teszt KS becsléssel az MLE helyett, a KS tesztet valóban kissé rosszabbá teszi. Más esetekben azonban egy ilyen módosított KS-teszt kissé jobb tesztteljesítményt eredményez.
Diszkrét, vegyes null distributionEdit
a tévhitben, hogy az F ( x ) {\displaystyle F(x)}
nem csökkenő, illetve igaz-folyamatos, a megszámlálható (esetleg végtelen) száma ugrik, a KS teszt statisztika kifejezhető: D n = sup x | F n ( x ) − F ( x ) | = sup 0 ≤ t ≤ 1 | F n ( F − 1 ( t ) ) − F ( F − 1 ( t ) ) | . {\displaystyle D_{n} = \ sup _{x} / F_ {N}(x) – F (x)/ = \ sup _{0 \ leq t \ leq 1} / F_{n} (F^{-1} (t)) – F(F^{-1}(t)|.}
a jobb-folyamatosságát F ( x ) {\displaystyle F(x)}
, ebből következik, hogy F ( F − 1 ( t ) ) ≥ t {\displaystyle F(F^{-1}(t))\geq t}
F − 1 ( F ( x ) ) ≤ x {\displaystyle F^{-1}(F(x))\leq x}
, s így az elosztás D n {\displaystyle D_{n}}
attól függ, hogy a null eloszlás F ( x ) {\displaystyle F(x)}
, azaz már nem terjesztésmentes, mint a folyamatos esetben. Ezért egy gyors és pontos módszert fejlesztettek ki a D n {\displaystyle D_{n}}}
ha F ( x ) {\displaystyle F(x)}
tisztán diszkrét vagy vegyes, implementálva C++ – ban és az R nyelv ksgeneral csomagjában. Adisc_ks_test()
mixed_ks_test()
éscont_ks_test()
a KS tesztstatisztikát és a P-értékeket a tisztán diszkrét, vegyes vagy folyamatos null eloszlásokhoz és tetszőleges mintaméretekhez is kiszámítják. A KS-tesztet és a diszkrét null-eloszlásokra vonatkozó p-értékeit, valamint a kis mintaméreteket szintén az R nyelv dgof-csomagjának részeként számítják ki. Főbb statisztikai csomagokat, amelyek között SASPROC NPAR1WAY
, Stataksmirnov
végrehajtani a KS teszt alatt a feltételezés, hogy F ( x ) {\displaystyle F(x)}
folyamatos, ami több konzervatív, ha a null engedély valójában nem folyamatos (lásd ).