Kolmogorow-Smirnow test

Ilustracja PDF dystrybucji Kolmogorowa.

rozkład Kołmogorowa jest rozkładem zmiennej losowej

k = sup T ∈ | B ( t ) | {\displaystyle K=\sup _{t\in }|B(t)|}

K=\sup _{t\in }|b(t)|

gdzie b(t) jest mostem Browna. Funkcja rozkładu kumulacyjnego K jest dana przez

Pr ⁡ ( K ≤ x ) = 1 − 2 ∑ k = 1 ∞ ( − 1 ) k − 1 e − 2 k 2 x 2 = 2 π x ∑ k = 1 ∞ e − ( 2 k − 1 ) 2 π 2 / ( 8 x 2 ) , {\displaystyle \operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\Sum _{K=1}^{\infty }e^{-(2K-1)^{2}\Pi ^{2}/(8X^{2})},}

{\displaystyle \operatorname {PR} (k\leq x)=1-2\Sum _{K=1}^{\infty }(-1)^{K-1}E^{-2K^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\Sum _{K=1}^{\infty }e^{-(2K-1)^{2}\pi ^{2}/(8X^{2})},}

który można również wyrazić za pomocą funkcji Jacobiego theta ϑ 01 ( z = 0 ; τ = 2 i x 2 / π ) {\displaystyle \vartheta _{01}(z=0;\tau =2ix^{2}/\pi )}

{\displaystyle \vartheta _{01}(z=0;\tau =2ix^{2}/\pi )}

. Zarówno postać statystyki testu Kołmogorowa–Smirnowa, jak i jej asymptotyczny rozkład pod hipotezą zerową opublikował Andriej Kołmogorow, natomiast tabelę rozkładu opublikował Nikołaj Smirnow. Dostępne są relacje powtarzalności dla rozkładu statystyki badania w próbkach skończonych.

pod hipotezą zerową, że próbka pochodzi z hipotetycznego rozkładu F(x),

n d n → n → ∞ sup T | b ( F ( t ) ) | {\displaystyle {\sqrt {n}}D_{n}{\xrightarrow {N\to \infty }}\sup _{t}|B(f(t))|}

{\sqrt {n}}d_{N}{\xrightarrow {N\to \infty }}\sup _{T}|b(f(t))|

w dystrybucji, gdzie b(t) jest mostem Browna.

Jeśli F jest ciągłe, to pod hipotezą zerową n d n {\displaystyle {\sqrt {n}}D_{n}}

{\sqrt {n}}D_{n}

zbiega się do rozkładu Kołmogorowa, który nie zależy od F. Wynik ten może być również znany jako twierdzenie Kołmogorowa. Dokładność tej granicy jako przybliżenia do dokładnego cdf K {\displaystyle K}

K

gdy n {\displaystyle n}

n

jest skończony , nie jest zbyt imponująca: nawet gdy n = 1000 {\displaystyle n=1000}N=1000odpowiedni maksymalny błąd wynosi około 0,9 % {\displaystyle 0,9\%}

{\displaystyle 0,9\%}

; ten błąd wzrasta do 2,6 % {\displaystyle 2,6\%}

{\displaystyle 2.6\%}

przy n = 100 {\displaystyle n=100}

{\displaystyle n=100}

I do całkowicie niedopuszczalnych 7% {\displaystyle 7\%}

{\displaystyle 7\%}

gdy n = 10 {\styl wyświetlania n=10}

n=10

. Jednak bardzo prosty cel zastąpienia x {\displaystyle x}

x

przez x + 1 6 n + x − 1 4 n {\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

{\displaystyle X+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

w argumencie funkcji Jacobiego theta redukuje te błędy do 0,003 % {\displaystyle 0,003\%}

{\displaystyle 0,003\%}

, 0.027 % {\displaystyle 0.027\%}

{\displaystyle 0.027\%}

i 0.27 % {\displaystyle 0.27\%}

{\displaystyle 0.27\%}

odpowiednio; taka dokładność byłaby zwykle uważana za bardziej niż odpowiednią dla wszystkich praktycznych zastosowań.

Test dobroci dopasowania lub test Kołmogorowa-Smirnowa można skonstruować za pomocą wartości krytycznych rozkładu Kołmogorowa. Ten test jest asymptotycznie ważny, gdy n → ∞ {\displaystyle n\to \infty }

{\displaystyle n\to \infty }

. Odrzuca hipotezę zerową na poziomie α {\displaystyle \alpha }

\alpha

jeśli n d n > k α , {\displaystyle {\sqrt {n}}D_{n}>K_{\Alpha },\,}

{\sqrt {n}}D_{n}k_{\Alpha },\,

gdzie ka znajduje się z

Pr ⁡ ( K ≤ K α ) = 1 − α . {\displaystyle \operatorname {Pr} (K\leq K_ {\alpha}) =1 – \ alpha .\,}

\operatorname {Pr} (K\leq K_{\alpha}) =1 - \ alpha.\,

asymptotyczna moc tego testu wynosi 1.

szybkie i dokładne algorytmy do obliczania cdf Pr ⁡ ( d n ≤ x ) {\displaystyle \operatorname {Pr} (D_{n}\leq x)}

{\displaystyle \operatorname {Pr} (d_{n}\leq x)}

lub jego dopełnienie dla dowolnego n {\displaystyle n}

N

I X {\displaystyle X}

x

, są dostępne z:

  • oraz dla ciągłych dystrybucji null z kodem w C i Javie, które można znaleźć w.
  • dla czysto dyskretnej, mieszanej lub ciągłej dystrybucji null zaimplementowanej w pakiecie Ksgeneralnym projektu R do obliczeń statystycznych, który dla danej próbki oblicza również statystykę testu KS i jej wartość P. Alternatywna implementacja C++ jest dostępna od.

Test z oszacowanymi parametrami

Jeśli na podstawie danych Xi określona jest postać lub parametry F(x), ustalone w ten sposób wartości krytyczne są nieprawidłowe. W takich przypadkach, Monte Carlo lub inne metody mogą być wymagane, ale tabele zostały przygotowane dla niektórych przypadkach. Szczegółowe informacje na temat wymaganych zmian w statystyce badania i wartości krytycznych dla rozkładu normalnego i wykładniczego zostały opublikowane, a późniejsze publikacje obejmują również rozkład Gumbela. Test Lillieforsa stanowi szczególny przypadek tego dla rozkładu normalnego. Transformacja logarytmu może pomóc w przezwyciężeniu przypadków, w których dane z testu Kołmogorowa nie wydają się pasować do założenia, że pochodzą z rozkładu normalnego.

korzystając z parametrów szacunkowych, powstaje pytanie, którą metodę estymacji należy zastosować. Zazwyczaj jest to metoda maksymalnego prawdopodobieństwa, ale np. dla rozkładu normalnego MLE ma duży błąd odchylenia na sigma. Zastosowanie chwilowego dopasowania lub minimalizacji KS ma duży wpływ na wartości krytyczne, a także pewien wpływ na moc testową. Jeśli musimy zdecydować dla danych Student-T z df = 2 poprzez test KS, czy dane mogą być normalne, czy nie, wtedy oszacowanie ML oparte na H0 (dane są normalne, więc użycie odchylenia standardowego dla skali) dałoby znacznie większą odległość KS, niż dopasowanie z minimalnym KS. W tym przypadku powinniśmy odrzucić H0, co często ma miejsce w przypadku MLE, ponieważ odchylenie standardowe próbki może być bardzo duże dla danych T-2, ale przy minimalizacji KS możemy uzyskać nadal zbyt niski KS, aby odrzucić H0. W przypadku Student-T zmodyfikowany test KS z KS estimate zamiast MLE sprawia, że test KS rzeczywiście jest nieco gorszy. Jednak w innych przypadkach taki zmodyfikowany test KS prowadzi do nieco lepszej mocy testowej.

rozkład dyskretny i mieszany nulledit

przy założeniu, że F ( x ) {\displaystyle F(x)}

F(X)

jest nierównomierny i prawostronny, z policzalną (ewentualnie nieskończoną) liczbą skoków, statystykę testu KS można wyrazić jako: d n = sup x | F N ( X)-F ( X ) | = sup 0 ≤ T ≤ 1 | f n ( f-1 ( T)) − F ( F − 1 ( t ) ) | . {\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t \ leq 1}|F_{N}(F^{-1}(t))-F(F^{-1}(t))|.}

{\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.

od prawej-ciągłość F ( x ) {\displaystyle F(x)}

F(x)

, wynika z tego, że f ( f − 1 ( t ) ) ≥ T {\displaystyle F(F^{-1} (t))\geq t}

{\displaystyle F(F^{-1} (t))\geq t}

and F − 1 ( F ( X ) ) ≤ X {\displaystyle F^{-1} (F(X))\leq X}

{\displaystyle F^{-1} (F(X))\leq x}

i stąd rozkład d n {\displaystyle D_{n}}

d_{N}

zależy od rozkładu null f ( x ) {\displaystyle F(X)}

F(x)

, tzn. nie jest już wolny od dystrybucji, jak w przypadku ciągłym. W związku z tym opracowano szybką i dokładną metodę obliczania dokładnego i asymptotycznego rozkładu D n {\displaystyle D_{n}}

D_{n}

, gdy F ( x ) {\displaystyle F(x)}

F(X)

jest czysto dyskretny lub mieszane, zaimplementowane w C++ oraz w pakiecie ksgeneral języka R. Funkcjedisc_ks_test()mixed_ks_test()Icont_ks_test()obliczają również statystykę testu KS i wartości p dla czysto dyskretnych, mieszanych lub ciągłych rozkładów zerowych i dowolnych rozmiarów próbek. Test KS i jego wartości p dla dyskretnych rozkładów zerowych i małych rozmiarów próbek są również obliczane jako część pakietu dgof języka R. Główne Pakiety statystyczne, wśród których SASPROC NPAR1WAY, Stataksmirnovimplementują test KS przy założeniu, że F ( x ) {\displaystyle F(x)}

F(x)

jest ciągły, co jest bardziej konserwatywne, jeśli rozkład null jest właściwie nie ciągły (patrz ).

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *