Test de Kolmogorov-Smirnov

Illustration du PDF de la distribution Kolmogorov.

La distribution de Kolmogorov est la distribution de la variable aléatoireK= sup t ∈|B(t)|{\displaystyle K=\sup_{t\in}|B(t)|}

K =\sup_{t\in}|B(t)/

où B(t ) est le pont brownien. La fonction de distribution cumulative de K est donnée par

Pr ⁡(K ≤ x) = 1 − 2 ∑ k = 1 ∞(− 1) k−1 e− 2 k 2 x 2 = 2 π x ∑ k = 1 ∞ e−(2 k− 1) 2 π 2 /(8 x 2), {\displaystyle\nom de l’opération {Pr}(K\leq x) = 1-2\sum _{k = 1}^{\infty}(-1) ^{k-1} e^{-2k^{ 2}x^{2}} = {\frac{\sqrt{2\pi}} {x}}\sum_{k= 1}^{\infty} e^{-(2k-1)^{2}\pi^{2}/(8x^{2})},}

{\displaystyle\nom d'exploitation{Pr}(K\leq x) = 1-2\sum_{k=1 }^{\infty}(-1) ^{k-1} e^{-2k^{2} x^{2}} = {\frac{\sqrt{2\pi}}{x}} \somme _{k = 1}^{\infty} e ^{-(2k-1)^{2}\pi^{2} /(8x^{2})},}

qui peut également être exprimée par la fonction thêta de Jacobi ϑ01 (z = 0; τ = 2 i x 2/π) {\displaystyle\vartheta_{01}(z = 0;\tau = 2ix^{2}/\pi)}

{\displaystyle\vartheta_{01}(z = 0;\tau = 2ix^{2}/\pi) }

. La forme de la statistique de test de Kolmogorov–Smirnov et sa distribution asymptotique sous l’hypothèse nulle ont été publiées par Andrey Kolmogorov, tandis qu’un tableau de la distribution a été publié par Nikolai Smirnov. Des relations de récurrence pour la distribution de la statistique de test dans des échantillons finis sont disponibles.

Sous hypothèse nulle que l’échantillon provient de la distribution hypothétique F(x),

n D n → n → ∞ sup t|B(F(t))|{\displaystyle {\sqrt{n}} D_{n}{\xrightarrow{n\to\infty}}\sup_{t}|B(F(t))|}

{\sqrt{n}} D_{n}{\xrightarrow{n\to\infty}}\sup_{t}|B(F(t))|

dans la distribution, où B(t) est le pont brownien.

Si F est continu alors sous l’hypothèse nulle n D n {\displaystyle {\sqrt{n}}D_{n}}

{\sqrt{n}}D_{n}

converge vers la distribution de Kolmogorov, qui ne dépend pas de F. Ce résultat peut également être connu sous le nom de théorème de Kolmogorov. La précision de cette limite comme approximation du cdf exact de K {\displaystyle K}

K

lorsque n {\displaystyle n}

n

est fini n’est pas très impressionnante: même lorsque n = 1000 {\displaystyle n = 1000}

n = 1000

, l’erreur maximale correspondante est d’environ 0,9% {\displaystyle 0,9\%}

{\displaystyle 0,9\%}

; cette erreur augmente à 2,6% {\displaystyle 2,6\%}

{\displaystyle 2.6\%}

lorsque n = 100 {\displaystyle n = 100}

{\displaystyle n = 100}

et aux 7% totalement inacceptables {\displaystyle 7\%}

{\displaystyle 7\%}

lorsque n = 10 {\displaystyle n= 10}

n= 10

. Cependant, un moyen très simple de remplacer x {\displaystyle x}

x

par x +1 6 n + x−1 4 n {\displaystyle x + {\frac {1} {6{\sqrt{n}}}}+{\frac{x-1} {4n}}}

{\ displaystyle x + {\frac{1} {6{\sqrt{n}}}} + {\frac{x-1} {4n}}}

dans l’argument de la fonction thêta de Jacobi réduit ces erreurs à 0,003% {\displaystyle 0,003\%}

{\displaystyle 0,003\%}

, 0,027% {\displaystyle 0,027\%}

{\displaystyle 0,027\%}

, et 0,27% {\displaystyle 0.27\%}

{\displaystyle 0.27\%}

respectivement; une telle précision serait généralement considérée comme plus qu’adéquate pour toutes les applications pratiques.

Le test de bon ajustement ou le test de Kolmogorov-Smirnov peuvent être construits en utilisant les valeurs critiques de la distribution de Kolmogorov. Ce test est asymptotiquement valide lorsque n → ∞ {\displaystyle n\to\infty}

{\displaystyle n\to\infty}

. Il rejette l’hypothèse nulle au niveau α {\displaystyle\alpha}

\alpha

si n D n >K α, {\displaystyle{\sqrt{n}} D_ {n} > K_ {\displaystyle{\sqrt{n} > K_ {\ alpha}, \,}

{\sqrt {n}} D_ {n}K_{\alpha},\,

où Ka se trouve à partir de

Pr ⁡(K ≤ K α) = 1−α. {\displaystyle\nom de l’opérateur {Pr}(K\leq K_ {\alpha}) = 1-\alpha.\,}

\nom de l'opérateur {Pr}(K\leq K_{\alpha}) = 1-\alpha.\,

La puissance asymptotique de ce test est 1.

Algorithmes rapides et précis pour calculer le cdf Pr ⁡(D n ≤ x) {\displaystyle\operatorname {Pr}(D_{n}\leq x)}

{\displaystyle\operatorname{Pr}(D_{n}\leq x)}

ou son complément pour n arbitraire {\displaystyle n}

n

et x {\displaystyle x}

x

, sont disponibles auprès de:

  • et pour les distributions nulles continues avec du code en C et Java.
  • pour une distribution nulle purement discrète, mixte ou continue implémentée dans le package KSgeneral du projet R pour le calcul statistique, qui pour un échantillon donné calcule également la statistique de test KS et sa valeur p. Une implémentation alternative de C++ est disponible à partir de.

Test avec paramètres estimésedit

Si la forme ou les paramètres de F(x) sont déterminés à partir des données Xi, les valeurs critiques ainsi déterminées ne sont pas valides. Dans de tels cas, Monte Carlo ou d’autres méthodes peuvent être nécessaires, mais des tableaux ont été préparés pour certains cas. Des détails sur les modifications requises à la statistique de test et sur les valeurs critiques pour la distribution normale et la distribution exponentielle ont été publiés, et les publications ultérieures incluent également la distribution de Gumbel. Le test de Lilliefors en représente un cas particulier pour la distribution normale. La transformation du logarithme peut aider à surmonter les cas où les données de test de Kolmogorov ne semblent pas correspondre à l’hypothèse qu’elles proviennent de la distribution normale.

En utilisant des paramètres estimés, la question se pose de savoir quelle méthode d’estimation doit être utilisée. Habituellement, ce serait la méthode du maximum de vraisemblance, mais par exemple pour la distribution normale, MLE a une erreur de biais importante sur sigma. L’utilisation d’un ajustement de moment ou d’une minimisation de KS a plutôt un impact important sur les valeurs critiques, ainsi qu’un impact sur la puissance de test. Si nous devons décider pour les données Student-T avec df = 2 via le test KS si les données peuvent être normales ou non, alors une estimation ML basée sur H0 (les données sont normales, donc en utilisant l’écart-type pour l’échelle) donnerait une distance KS beaucoup plus grande qu’un ajustement avec KS minimum. Dans ce cas, nous devrions rejeter H0, ce qui est souvent le cas avec MLE, car l’écart-type de l’échantillon peut être très important pour les données T-2, mais avec la minimisation de KS, nous pouvons obtenir un KS encore trop bas pour rejeter H0. Dans le cas de Student-T, un test KS modifié avec une estimation KS au lieu de MLE, rend le test KS légèrement pire. Cependant, dans d’autres cas, un tel test KS modifié conduit à une puissance de test légèrement meilleure.

Distribution nulle discrète et mixte

En supposant que F(x) {\displaystyle F(x)}

F(x)

est non décroissante et continue à droite, avec un nombre dénombrable (éventuellement infini) de sauts, la statistique de test KS peut être exprimée comme suit: D n = sup x|F n(x) – F(x) | = sup 0 ≤ t ≤ 1 | F n (F-1(t)) − F (F−1(t))|. {\displaystyle D_{n} = \sup_{x} |F_{n}(x)-F(x) | = \sup_{0\leq t\leq 1} |F_{n}(F^{-1}(t)) – F(F^{-1}(t))|.}

{\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.}

De la droite – continuité de F(x) {\displaystyle F(x)}

F(x)

, il s’ensuit que F(F−1(t)) ≥ t {\displaystyle F(F^{-1}(t))\geq t}

{\displaystyle F(F^{-1}(t))\geq t}

et F−1(F(x)) ≤ x {\displaystyle F^{-1}(F(x)) \leq x}

{\displaystyle F^{-1}(F(x)) \leq x} {\displaystyle F^{-1}(F(x)) \leq x}

et donc, la distribution de D n {\displaystyle D_{n}}

D_{n}

dépend de la distribution nulle F(x) {\displaystyle F(x)}

F(x)

, c’est-à-dire n’est plus sans distribution comme dans le cas continu. Par conséquent, une méthode rapide et précise a été développée pour calculer la distribution exacte et asymptotique de D n {\displaystyle D_{n}}

D_{n}

lorsque F(x) {\displaystyle F(x)}

F(x)

est purement discrète ou mixte , implémenté en C++ et dans le package KSgeneral du langage R. Les fonctionsdisc_ks_test()mixed_ks_test()etcont_ks_test()calculent également la statistique de test KS et les valeurs p pour des distributions nulles purement discrètes, mixtes ou continues et des tailles d’échantillon arbitraires. Le test KS et ses valeurs p pour les distributions nulles discrètes et les petites tailles d’échantillon sont également calculés dans le cadre du package dgof du langage R. Les principaux paquets statistiques parmi lesquels SASPROC NPAR1WAY, Stataksmirnovimplémentent le test KS en supposant que F(x){\displaystyle F(x)}

F(x)

est continu, ce qui est plus conservateur si la distribution nulle est en fait non continu (voir).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *