Kolmogorov–Smirnov test

Ilustrace Kolmogorovovův distribuce PDF.

Kolmogorovovův rozdělení je rozdělení náhodné proměnné

K = sup t ∈ | B ( t ) | {\displaystyle K=\sup _{t\v }|B(t)|}

K=\sup _{t\v }|B(t)|

, kde B(t) je Brownův most. Kumulativní distribuční funkce K je dána tím,

Pr ⁡ ( K ≤ x ) = 1 − 2 ∑ k = 1 ∞ ( − 1 ) k − 1 e − 2 k 2 x 2 = 2 π x ∑ k = 1 ∞ e − ( 2 k − 1 ) 2 π 2 / ( 8 x 2 ) , {\displaystyle \operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8 x^{2})},}

{\displaystyle \operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

může být také vyjádřen Jacobi theta funkce ϑ 01 ( z = 0 ; τ = 2 i x 2 / π ) {\displaystyle \vartheta _{01}(z=0;\tau =2ix^{2}/\pi )}

{\displaystyle \vartheta _{01}(z=0;\tau =2ix^{2}/\pi )}

. Oba formě Kolmogorov–Smirnov test statistika a jeho asymptotické rozdělení za nulové hypotézy byly zveřejněny Andrej Kolmogorov, zatímco tabulka rozdělení byl publikován Nikolaj Smirnov. Rekurenční vztahy pro distribuci statistiky testu v konečných vzorcích jsou k dispozici.

Pod nulovou hypotézu, že vzorek pochází z hypotetického rozdělení F(x),

n D n → n → ∞ sup t | B ( F ( t ) ) | {\displaystyle {\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\sup _{t}|B(F(t))|}

{\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\sup _{t}|B(F(t))|

v distribuci, kde B(t) je Brownův most.

Pokud F je spojitá, pak za předpokladu platnosti nulové hypotézy n D n {\displaystyle {\sqrt {n}}D_{n}}

{\sqrt {n}}D_{n}

konverguje k Kolmogorovovův rozdělení, které nezávisí na F. Tento výsledek může být také známý jako kolmogorovova věta. Přesnost tohoto limitu jako aproximace přesné cdf z K {\displaystyle K}

K

když n {\displaystyle n}

n

je konečný, není velmi působivé: i když n = 1000 {\displaystyle n=1000}

n=1000

, odpovídající maximální chyba je asi 0.9 % {\displaystyle 0.9\%}

{\displaystyle 0.9\%}

; tato chyba se zvyšuje na 2,6 % {\displaystyle 2.6\%}

{\displaystyle 2.6\%}

když n = 100 {\displaystyle n=100}

{\displaystyle n=100}

a naprosto nepřijatelné, 7 % {\displaystyle 7\%}

{\displaystyle 7\%}

když n = 10 {\displaystyle n=10}

n=10

. Nicméně, velmi jednoduché, účelné nahradit x {\displaystyle x}

x

x + 1 6 n + x − 1 4 n {\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

{\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

v argumentu Jacobi theta funkce snižuje tyto chyby 0,003 % {\displaystyle 0.003\%}

{\displaystyle 0.003\%}

, 0.027 % {\displaystyle 0.027\%}

{\displaystyle 0.027\%}

, a 0.27 % {\displaystyle 0.27\%}

{\displaystyle 0.27\%}

; taková přesnost by byla obvykle považována za více než adekvátní pro všechny praktické aplikace.

goodness-of-fit test nebo Kolmogorov–Smirnov test může být postaven pomocí kritických hodnot Kolmogorovova distribuce. Tento test je asymptoticky platný, když n → ∞ {\displaystyle n\to \infty }

{\displaystyle n\to \infty }

. Odmítá nulovou hypotézu na úrovni α {\displaystyle \alpha }

\alpha

pokud n D n > K α , {\displaystyle {\sqrt {n}}D_{n}>K_{\alpha },\,}

{\sqrt {n}}D_{n}, K_{\alpha },\,

kde Ka je našel,

Pr ⁡ ( K ≤ K, α ) = 1 − α . {\displaystyle \ operatorname {Pr} (k\leq K_{\alpha })=1-\alpha .\ ,}

\ operatorname {Pr} (k\leq K_{\alpha })=1-\alpha .\,

asymptotická síla tohoto testu je 1.

Rychlé a přesné algoritmy pro výpočet cdf Pr ⁡ ( D n ≤ x ) {\displaystyle \operatorname {Pr} (D_{n}\leq x)}

{\displaystyle \operatorname {Pr} (D_{n}\leq x)}

nebo její doplněk pro libovolné n {\displaystyle n}

n

a {x} \displaystyle x}

x

, dostupné z:

  • a pro kontinuální null distribuce kódu v jazyce C a Java, které mají být nalezen.
  • pro čistě diskrétní, smíšené nebo kontinuální null distribuce prováděny v KSgeneral paket R projekt pro statistické výpočty, které se pro daný vzorek také počítá KS testovací statistika a její p-hodnota. Alternativní implementace C++ je k dispozici od.

Test s odhadovanými parametryeditovat

pokud jsou z dat Xi určeny buď forma, nebo parametry F(x), jsou takto stanovené kritické hodnoty neplatné. V takových případech může být vyžadováno Monte Carlo nebo jiné metody, ale pro některé případy byly připraveny tabulky. Údaje pro požadované změny do test statistiky a kritické hodnoty pro normální rozdělení a exponenciálního rozdělení byly zveřejněny, a novější publikace patří také Gumbelova rozdělení. Test Lilliefors představuje zvláštní případ pro normální rozdělení. Transformace logaritmu může pomoci překonat případy, kdy se zdá, že data kolmogorovova testu neodpovídají předpokladu, že pocházejí z normálního rozdělení.

pomocí odhadovaných parametrů vzniká otázka, která metoda odhadu by měla být použita. Obvykle by to byla metoda maximální pravděpodobnosti, ale např. pro normální rozdělení má MLE velkou chybu zkreslení na sigma. Použití moment fit nebo KS minimalizace místo toho má velký dopad na kritické hodnoty, a také nějaký dopad na zkušební výkon. Pokud se musíme rozhodnout pro Studenta-T dat s df = 2 prostřednictvím VM otestovat, zda data by mohla být normální, nebo ne, pak ML odhad na základě H0 (data je normální, tak pomocí směrodatné odchylky pro rozsah) by dát mnohem větší VM vzdálenost, než fit s minimální KS. V tomto případě bychom měli zamítnout H0, což je často případ s MLE, protože směrodatná odchylka vzorku může být velmi velký pro T-2 data, ale s KS minimalizace můžeme získat stále příliš nízká VM zamítnout H0. V případě Student-T upravený test KS s odhadem KS namísto MLE činí test KS skutečně o něco horší. V jiných případech však takový upravený test KS vede k mírně lepšímu zkušebnímu výkonu.

Diskrétní a smíšené null distributionEdit

Za předpokladu, že F ( x ) {\displaystyle F(x)}

F(x)

je neklesající a zprava spojitá, s počitatelné (možná nekonečný) počet skoků, KS testovací statistika může být vyjádřen jako: D n = sup x | F n ( x ) − F ( x ) | = sup 0 ≤ t ≤ 1 | F n ( F − 1 ( t ) ) − F ( F − 1 ( t ) ) | . {\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.}

{\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.}

Z práva-kontinuita F ( x ) {\displaystyle F(x)}

F(x)

, z toho vyplývá, že F ( F − 1 ( t ) ) ≥ t {\displaystyle F(F^{-1}(t))\geq, t}

{\displaystyle F(F^{-1}(t))\geq, t}

a F − 1 ( F ( x ) ) ≤ x {\displaystyle F^{-1}(F(x))\leq x}

{\displaystyle F^{-1}(F(x))\leq x}

a proto, rozdělení D n {\displaystyle D_{n}}

D_{n}

závisí na null rozdělení F ( x ) {\displaystyle F(x)}

F (x)

, to znamená, že již není bez distribuce jako v kontinuálním případě. Proto, rychlý a přesný způsob byl vyvinut, aby vypočítat přesný a asymptotické rozdělení n {\displaystyle D_{n}}

D_{n}

když F ( x ) {\displaystyle F(x)}

F(x)

je čistě diskrétní nebo smíšené, implementována v C++ a v KSgeneral paket R jazyce. Funkcedisc_ks_test()mixed_ks_test()cont_ks_test()spočítat i VM testová statistika a p-hodnoty pro čistě diskrétní, smíšené nebo kontinuální null distribuce a libovolné velikosti vzorku. Test KS a jeho p-hodnoty pro diskrétní nulové distribuce a malé velikosti vzorků jsou také vypočteny jako součást balíčku dgof jazyka R. Hlavní statistické balíčky, mezi nimiž SASPROC NPAR1WAY, Stataksmirnovrealizovat KS test za předpokladu, že F ( x ) {\displaystyle F(x)}

F(x)

je kontinuální, což je více konzervativní, pokud null distribuce je ve skutečnosti není kontinuální (viz ).

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *