Testul Kolmogorov-Smirnov

ilustrare a PDF-ului distribuției Kolmogorov.

distribuția Kolmogorov este distribuția variabilei aleatoare k = sup t | b ( t) |{\displaystyle K=\sup _{t\in}| B(t)|}

K=\sup _{t\in}|B(t)/

unde B(t) este podul Brownian. Care funcția de distribuție cumulativă a K este dat de

Pr ⁡ ( K ≤ x ) = 1 − 2 ∑ k = 1 ∞ ( − 1 ) k − 1 e − 2 k 2 x 2 = 2 π x ∑ k = 1 ∞ e − ( 2 k − 1 ) 2 π 2 / ( 8 x 2 ) , {\displaystyle \operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8 x^{2})},}

{\displaystyle \operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

care de asemenea, poate fi exprimată prin funcția Jacobi Theta 01 ( z = 0 ; XV = 2 I x 2 / XV ) {\displaystyle \vartheta _{01}(z=0;\tau =2IX^{2}/\pi )}

{\displaystyle \vartheta _{01}(z=0;\tau =2IX^{2}/\pi )}

{\displaystyle \ vartheta _ {01} (z = 0; \ tau = 2IX ^ {2}/ \ pi)}

. Atât forma statisticii testului Kolmogorov–Smirnov, cât și distribuția sa asimptotică sub ipoteza nulă au fost publicate de Andrey Kolmogorov, în timp ce un tabel al distribuției a fost publicat de Nikolai Smirnov. Sunt disponibile relații de recurență pentru distribuția statisticii testului în eșantioane finite.

Sub ipoteza nulă că eșantionul provine din ipoteza de distribuție F(x),

n D n → n → ∞ sup t | B ( F ( t ) ) | {\displaystyle {\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\sup _{t}|B(F(t))|}

{\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\sup _{t}|B(F(t))|

în distribuție, unde B(t) este Browniană pod.

Dacă F este continuu atunci sub ipoteza nulă n {\displaystyle {\sqrt {n}}D_{n}}

{\sqrt {n}}D_{n}

converge la distribuția Kolmogorov, care nu depinde de F. Acest rezultat poate fi cunoscut și sub numele de teorema Kolmogorov. Precizia acestei limite ca aproximare la cdf-ul exact al lui K {\displaystyle K}

K

când n {\displaystyle n}

n

este finit nu este foarte impresionant: chiar și atunci când N = 1000 {\displaystyle n=1000}

N=1000

, eroarea maximă corespunzătoare este de aproximativ 0,9 % {\displaystyle 0,9\%}

{\displaystyle 0,9\%}

; această eroare crește la 2,6 % {\displaystyle 2,6\%}

{\displaystyle 2.6\%}

când n = 100 {\displaystyle n=100}

{\displaystyle n=100}

și la total inacceptabil 7 % {\displaystyle 7\%}

{\displaystyle 7\%}

când n = 10 {\displaystyle n=10}

n=10

. Cu toate acestea, un expedient foarte simplu de a înlocui x {\displaystyle x}

x

cu x + 1 6 n + x − 1 4 n {\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

{\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4N}}}

în argumentul funcției Jacobi theta reduce aceste erori la 0,003 % {\displaystyle 0,003\%}

{\displaystyle 0.003\%}

, 0.027 % {\displaystyle 0.027\%}

{\displaystyle 0.027\%}

și 0.27 % {\displaystyle 0.27\%}

{\displaystyle 0.27\%}

respectiv; o astfel de precizie ar fi de obicei considerată mai mult decât adecvată pentru toate aplicațiile practice.

testul de bunătate sau testul Kolmogorov-Smirnov poate fi construit folosind valorile critice ale distribuției Kolmogorov. Acest test este asimptotic valabil atunci când n {\displaystyle n\to \infty }

{\displaystyle n\to \infty }

. Se respinge ipoteza nulă la nivelul α {\displaystyle \alpha }

\alpha

daca n D n > K α , {\displaystyle {\sqrt {n}}D_{n}>K_{\alpha },\,}

{\sqrt {n}}D_{n}K_{\alpha },\,

în cazul în care Ka este găsit de

Pr ⁡ ( K ≤ K α ) = 1 − α . {\displaystyle \ operatorname {Pr} (K \ leq K_ {\alfa }) = 1-\alfa .\ ,}

\operatorname {Pr} (K\leq K_{\alpha })=1-\alpha .\,

puterea asimptotică a acestui test este 1.

algoritmi rapizi și exacți pentru a calcula CDF pr ( d n x ) {\displaystyle \operatorname {Pr} (D_{n}\LEQ x)}

{\displaystyle \operatorname {Pr} (D_{n}\leq x)}

sau complementul său pentru arbitrare n {\displaystyle n}

n

și X {\displaystyle X}

x

, sunt disponibile de la:

  • și pentru distribuțiile nule continue cu cod în C și Java care se găsesc în.
  • pentru distribuția nulă pur discretă, mixtă sau continuă implementată în pachetul KSgeneral al proiectului R pentru calculul statistic, care pentru un eșantion dat calculează și statistica testului KS și valoarea sa P. Alternativă c++ punerea în aplicare este disponibil de la.

Test cu parametrii estimațiedit

Dacă fie forma, fie parametrii lui F(x) sunt determinați din datele Xi, valorile critice determinate în acest mod sunt nevalide. În astfel de cazuri, pot fi necesare Monte Carlo sau alte metode, dar au fost pregătite tabele pentru unele cazuri. Au fost publicate detalii pentru modificările necesare statisticii testului și pentru valorile critice pentru distribuția normală și distribuția exponențială, iar publicațiile ulterioare includ și distribuția Gumbel. Testul Lilliefors reprezintă un caz special în acest sens pentru distribuția normală. Transformarea logaritmului poate ajuta la depășirea cazurilor în care datele testului Kolmogorov nu par să se potrivească presupunerii că provin din distribuția normală.

folosind parametrii estimați, se ridică întrebările ce metodă de estimare ar trebui utilizată. De obicei, aceasta ar fi metoda de probabilitate maximă, dar, de exemplu, pentru distribuția normală, MLE are o eroare mare de părtinire pe sigma. Utilizarea unui moment fit sau minimizarea KS are în schimb un impact mare asupra valorilor critice și, de asemenea, un impact asupra puterii de testare. Dacă trebuie să decidem pentru datele Student-T cu df = 2 prin testul KS dacă datele ar putea fi normale sau nu, atunci o estimare ML bazată pe H0 (datele sunt normale, deci folosind abaterea standard pentru scară) ar da o distanță KS mult mai mare, decât o potrivire cu KS minim. În acest caz, ar trebui să respingem H0, ceea ce este adesea cazul MLE, deoarece abaterea standard a eșantionului ar putea fi foarte mare pentru datele T-2, dar cu minimizarea KS putem obține încă un KS prea mic pentru a respinge H0. În cazul Student-T, un test KS modificat cu estimare KS în loc de MLE, face testul KS într-adevăr ușor mai rău. Cu toate acestea, în alte cazuri, un astfel de test KS modificat duce la o putere de testare puțin mai bună.

distribuție nulă discretă și mixtăedit

În ipoteza că F ( x ) {\displaystyle F(x)}

F(x)

nu este descrescătoare și continuă la dreapta, cu un număr numărabil (posibil infinit) de salturi, statistica testului KS poate fi exprimată ca: D n = sup x | F n ( X)-F ( X ) | = sup 0 Int .t int. 1 | f n [f-1 ( t)] − f [f − 1 ( t)]|. {\displaystyle D_{n}= \ sup _ {x} / F_{n} (x)-F(x)|=\sup _{0\leq t\leq 1}|F_{N} (F^{-1} (t))-F(F^{-1} (t))|.}

{\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.}

din dreapta-continuitatea lui F ( x ) {\displaystyle F(x)}

F(x)

, rezultă că F ( F − 1 ( t)) t {\displaystyle F(F^{-1}(t))\geq t}

{\displaystyle F(F^{-1}(t))\geq t}

și F − 1 ( F ( X)) X {\displaystyle F^{-1}(f(x))\LEQ X}

{\displaystyle F^{-1}(f(x))\LEQ x}

și, prin urmare, distribuția lui d n {\displaystyle D_{n}}

D_{n}

depinde de distribuția nulă f ( x ) {\displaystyle F(X)}

F(x)

, adică nu mai este fără distribuție ca în cazul continuu. Prin urmare, a fost dezvoltată o metodă rapidă și precisă pentru a calcula distribuția exactă și asimptotică a D n {\displaystyle D_{n}}

D_{n}

când F ( x ) {\displaystyle F(x)}

F(X)

este pur discretă sau mixtă, implementat în C++ și în kspachetul general al limbajului R. Funcțiile disc_ks_test()mixed_ks_test() și cont_ks_test() calculează, de asemenea, statistica testului KS și valorile p pentru distribuții nule pur discrete, mixte sau continue și dimensiuni arbitrare ale eșantioanelor. Testul KS și valorile sale p pentru distribuțiile nule discrete și dimensiunile mici ale eșantionului sunt, de asemenea, calculate ca parte a pachetului dgof al limbajului R. Pachete statistice majore printre care SAS PROC NPAR1WAY, Stata ksmirnov implementează testul KS în ipoteza că F ( x ) {\displaystyle F(x)}

F(x)

este continuu, ceea ce este mai conservator dacă distribuția nulă este de fapt, nu continuu (a se vedea ).

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *