Prueba Kolmogorov-Smirnov

Ilustración del PDF de la distribución Kolmogorov.

La prueba de Kolmogorov distribución es la distribución de la variable aleatoria

K = sup t ∈ | B ( t ) | {\displaystyle K=\sup _{t\in }|B(t)|}

$K=\sup _{t\in }|B(t)|$

donde B(t) es el puente Browniano. La función de distribución acumulativa de K está dada por

Pr ⁡ ( K ≤ x ) = 1 − 2 ∑ k = 1 ∞ ( − 1 ) k − 1 e − 2 k 2 x 2 = 2 π x ∑ k = 1 ∞ e − ( 2 k − 1 ) 2 π 2 / ( 8 x 2 ) , {\displaystyle \operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

$\operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},$

que también puede ser expresada por la Jacobi theta función ϑ 01 ( z = 0 ; τ = 2 i x 2 / π ) {\displaystyle \vartheta _{01}(z=0;\tau =2ix^{2}/\pi )}

$\vartheta _{01}(z=0;\tau =2ix^{2}/\pi )$

. Tanto la forma del estadístico de prueba de Kolmogorov–Smirnov como su distribución asintótica bajo la hipótesis nula fueron publicadas por Andrey Kolmogorov, mientras que una tabla de la distribución fue publicada por Nikolai Smirnov. Se dispone de relaciones de recurrencia para la distribución del estadístico de prueba en muestras finitas.

Bajo la hipótesis nula de que la muestra procede de la hipótesis de distribución F(x),

n D n → n → ∞ sup t | B ( F ( t ) ) | {\displaystyle {\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\sup _{t}|B(F(t))|}

${\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\sup _{t}|B(F(t))|$

en la distribución, donde B(t) es el puente Browniano.

Si F es continua entonces bajo la hipótesis nula n D n {\displaystyle {\sqrt {n}}D_{n}}

${\sqrt {n}}D_{n}$

converge a la prueba de Kolmogorov distribución, que no depende de F. Este resultado también puede ser conocido como el teorema de Kolmogorov. La exactitud de este límite como una aproximación a la exacta cdf de K {\displaystyle K}

$K$

cuando n {\displaystyle n}

$n$

es finito no es muy impresionante: incluso cuando n = 1000 {\displaystyle n=1000}

$n=1000$

, el correspondiente error máximo es de alrededor de 0,9 % {\displaystyle 0.9\%}

$0.9\%$

; este error aumenta un 2,6 % {\displaystyle 2.6\%}

$2.6\%$

cuando n = 100 {\displaystyle n=100}

$n=100$

y a la totalmente inaceptable 7 % {\displaystyle 7\%}

$7\%$

cuando n = 10 {\displaystyle n=10}

$n=10$

. Sin embargo, una muy simple expediente de sustitución de x {\displaystyle x}

$x$

x + 1 6 n + x − 1 4 n {\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

$x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}$

en el argumento de la Jacobi theta función se reduce estos errores a 0.003 % {\displaystyle 0.003\%}

$0.003\%$

, 0.027 % {\displaystyle 0.027\%}

$0.027\%$

, y el 0,27 % {\displaystyle 0.27\%}

$0.27\%$

respectivamente; dicha precisión se consideraría generalmente más que adecuada para todas las aplicaciones prácticas.

La prueba de bondad de ajuste o la prueba de Kolmogorov–Smirnov se puede construir utilizando los valores críticos de la distribución de Kolmogorov. Esta prueba es asintóticamente válidos cuando n → ∞ {\displaystyle n\to \infty }

$n\to \infty$

. Se rechaza la hipótesis nula al nivel de α {\displaystyle \alpha }

$\alpha$

si n D n > K α , {\displaystyle {\sqrt {n}}D_{n}>K_{\alpha },\,}

${\sqrt {n}}D_{n}K_{\alpha },\,$

donde Ka se encuentra desde

Pr ⁡ ( K ≤ K α ) = 1 − α . {\displaystyle \operatorname {Pr} (K\leq K_ {\alpha}) = 1-\alpha .\ ,}

$\ operatorname {Pr} (K\leq K_ {\alpha }) = 1-\alpha .\,$

La potencia asintótica de esta prueba es 1.

Rápido y preciso de los algoritmos para el cálculo de la cdf Pr ⁡ ( D n ≤ x ) {\displaystyle \operatorname {Pr} (D_{n}\leq x)}

$\operatorname {Pr} (D_{n}\leq x)$

o su complemento para arbitrario n {\displaystyle n}

$n$

y x {\displaystyle x}

$x$

, están disponibles en:

y continua null distribuciones con código en C y Java se encuentra en.

para distribución nula puramente discreta, mixta o continua implementada en el paquete KSgeneral del proyecto R para computación estadística, que para una muestra dada también calcula la estadística de prueba KS y su valor p. La implementación alternativa de C++ está disponible desde.

Prueba con parámetros estimadoseditar

Si el formulario o los parámetros de F (x) se determinan a partir de los datos Xi, los valores críticos determinados de esta manera no son válidos. En tales casos, se puede requerir Monte Carlo u otros métodos, pero se han preparado tablas para algunos casos. Se han publicado los detalles de las modificaciones necesarias a la estadística de prueba y de los valores críticos para la distribución normal y la distribución exponencial, y publicaciones posteriores también incluyen la distribución de Gumbel. La prueba de Lilliefors representa un caso especial de esto para la distribución normal. La transformación del logaritmo puede ayudar a superar los casos en los que los datos de la prueba de Kolmogorov no parecen ajustarse a la suposición de que provenían de la distribución normal.

Utilizando parámetros estimados, surge la pregunta de qué método de estimación se debe usar. Por lo general, este sería el método de máxima verosimilitud, pero, por ejemplo, para la distribución normal, MLE tiene un gran error de sesgo en sigma. El uso de un ajuste de momento o minimización de KS en su lugar tiene un gran impacto en los valores críticos, y también un cierto impacto en la potencia de prueba. Si necesitamos decidir para los datos de Student-T con df = 2 a través de la prueba de KS si los datos podrían ser normales o no, entonces una estimación de ML basada en H0 (los datos son normales, por lo que utilizando la desviación estándar para la escala) daría una distancia de KS mucho mayor que un ajuste con KS mínimo. En este caso, debemos rechazar H0, que a menudo es el caso de MLE, porque la desviación estándar de la muestra puede ser muy grande para los datos T-2, pero con la minimización de KS, podemos obtener aún un KS demasiado bajo para rechazar H0. En el caso de Student-T, una prueba de KS modificada con estimación de KS en lugar de MLE, hace que la prueba de KS sea un poco peor. Sin embargo, en otros casos, una prueba de KS modificada de este tipo conduce a una potencia de prueba ligeramente mejor.

Discretos y mixto null distributionEdit

Bajo la suposición de que F ( x ) {\displaystyle F(x)}

$F(x)$

es no decreciente y derecho-continuo, con contables (posiblemente infinita) número de saltos, el KS estadístico de prueba puede ser expresado como: D n = sup x | F n ( x ) − F ( x ) | = sup 0 ≤ t ≤ 1 | F n ( F − 1 ( t ) ) − F ( F − 1 ( t ) ) | . {\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.}

$D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.$

Desde la derecha-la continuidad de F ( x ) {\displaystyle F(x)}

$F(x)$

, se sigue que F ( F − 1 ( t ) ) ≥ t {\displaystyle F(F^{-1}(t))\geq t}

$F(F^{-1}(t))\geq t$

y F − 1 ( F ( x ) ) ≤ x {\displaystyle F^{-1}(F(x))\leq x}

$F^{-1}(F(x))\leq x$

y, por lo tanto, la distribución de D n {\displaystyle D_{n}}

$D_{n}$

depende de la nula distribución F ( x ) {\displaystyle F(x)}

$F (x)$

, es decir, ya no está libre de distribución como en el caso continuo. Por lo tanto, se ha desarrollado un método rápido y preciso para calcular la distribución exacta y asintótica de D n {\displaystyle D_{n}}

$D_{n}$

cuando F ( x ) {\displaystyle F(x)}

$F(x)$

es puramente discreto o mixto, implementado en C++ y en el paquete KSgeneral del lenguaje R. Las funcionesdisc_ks_test()mixed_ks_test()ycont_ks_test()calculan también el estadístico de prueba KS y los valores p para distribuciones nulas puramente discretas, mixtas o continuas y tamaños de muestra arbitrarios. La prueba KS y sus valores p para distribuciones nulas discretas y tamaños de muestra pequeños también se calculan como parte del paquete dgof del lenguaje R. Los principales paquetes estadísticos entre los que SASPROC NPAR1WAY, Stataksmirnovimplementan la prueba KS bajo la suposición de que F ( x ) {\displaystyle F(x)}

$F(x)$

es continuo, lo que es más conservador si la distribución nula en realidad no es continua (véase ).

Prueba con parámetros estimadoseditar

Discretos y mixto null distributionEdit

Deja una respuesta Cancelar la respuesta

Entradas recientes

Archivos

Meta