Kolmogorov-Smirnov test

ilustração da distribuição de Kolmogorov PDF.

O teste de Kolmogorov distribuição é a distribuição da variável aleatória

K = sup t ∈ | B ( t ) | {\displaystyle K=\sup _{t\in }|B(t)|}

$K=\sup _{t\in }|B(t)|$

onde B(t) é a Browniano ponte. A função de distribuição acumulada de K é dado por

Pr ⁡ ( K ≤ x ) = 1 − 2 ∑ k = 1 ∞ ( − 1 ) k − 1 e − 2 k 2 x 2 = 2 π x ∑ k = 1 ∞ e − ( k 2 − 1 ) 2 π 2 / ( 8 x 2 ) , {\displaystyle \operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2 k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},}

$\operatorname {Pr} (K\leq x)=1-2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2 k^{2}x^{2}}={\frac {\sqrt {2\pi }}{x}}\sum _{k=1}^{\infty }e^{-(2k-1)^{2}\pi ^{2}/(8x^{2})},$

o que também pode ser expresso pela theta de Jacobi função ϑ 01 ( z = 0 ; τ = 2 x i 2 / π ) {\displaystyle \vartheta _{01}(z=0;\tau =2ix^{2}/\pi )}

$\vartheta _{01}(z=0;\tau =2ix^{2}/\pi )$

. Tanto a forma da Estatística do teste de Kolmogorov–Smirnov quanto sua distribuição assintótica sob a hipótese nula foram publicadas por Andrey Kolmogorov, enquanto uma tabela da distribuição foi publicada por Nikolai Smirnov. Estão disponíveis relações de recorrência para a distribuição da Estatística do teste em amostras finitas.

Sob a hipótese nula de que a amostra a partir da hipótese de distribuição F(x),

n D n → n → ∞ sup t | B ( F ( t ) ) | {\displaystyle {\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\sup _{t}|B(F(t))|}

${\sqrt {n}}D_{n}{\xrightarrow {n\to \infty }}\sup _{t}|B(F(t))|$

na distribuição, onde B(t) é a Browniano ponte.

Se F é contínua em seguida, sob a hipótese nula n D n {\displaystyle {\sqrt {n}}D_{n}}

${\sqrt {n}}D_{n}$

converge para o teste de Kolmogorov distribuição, que não depende de F. Este resultado também pode ser conhecido como o teorema de Kolmogorov. A rigor este limite como uma aproximação para a exata cdf de K {\displaystyle K}

$K$

quando n {\displaystyle n}

$n$

é finito, não é muito impressionante: mesmo quando n = 1000 {\displaystyle n=1000}

$n=1000$

, o correspondente erro máximo é de cerca de 0.9 % {\displaystyle 0.9\%}

$0.9\%$

; este erro aumenta 2,6 % {\displaystyle 2.6\%}

$2.6\%$

quando n = 100 {\displaystyle n=100}

$n=100$

e totalmente inaceitável 7 % {\displaystyle 7\%}

$7\%$

quando n = 10 {\displaystyle n=10}

$n=10$

. No entanto, muito simples expediente de substituir x {\displaystyle x}

$x$

por x + 1 6 n + x − 1 4 n {\displaystyle x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}}

$x+{\frac {1}{6{\sqrt {n}}}}+{\frac {x-1}{4n}}$

no argumento de Jacobi theta função reduz esses erros 0.003 % {\displaystyle 0.003\%}

$0.003\%$

, 0.027 % {\displaystyle 0.027\%}

$0.027\%$

, e de 0,27 % {\displaystyle 0.27\%}

$0.27\%$

respectivamente; tal precisão seria normalmente considerada mais do que adequada para todas as aplicações práticas.

o teste de “goodness of fit” ou o teste de Kolmogorov–Smirnov podem ser construídos usando os valores críticos da distribuição de Kolmogorov. Este teste é assintoticamente válido quando n → ∞ {\displaystyle n\to \infty }

$n\to \infty$

. Ele rejeita a hipótese nula ao nível de α {\displaystyle \alpha }

$\alpha$

se n D n > K α , {\displaystyle {\sqrt {n}}D_{n}>K_{\alpha },\,}

${\sqrt {n}}D_{n}K_{\alpha },\,$

, onde Ka é encontrado a partir de

Pr ⁡ ( K ≤ K α ) = 1 − α . {\displaystyle \operatorname {Pr} (K\leq K_ {\alpha }) = 1 – \alpha .\ ,}

$\operatorname {Pr} (K\leq K_ {\alpha }) = 1-\alpha .\,$

a potência assintótica deste ensaio é 1.

Rápida e precisa algoritmos para calcular o cdf Pr ⁡ ( D n ≤ x ) {\displaystyle \operatorname {Pr} (D_{n}\leq x)}

$\operatorname {Pr} (D_{n}\leq x)$

ou o seu complemento para arbitrário n {\displaystyle n}

$n$

e x {\displaystyle x}

$x$

, estão disponíveis em:

e contínua nulo distribuições com código em C e Java para ser encontrado em.

para distribuição nula puramente discreta, mista ou contínua implementada no Pacote KSgeneral do projeto R para computação estatística, que para uma dada amostra também calcula a estatística do teste KS e o seu valor-p. Implementação C++ alternativa está disponível a partir de.

Test with estimated parametersEdit

If either the form or the parameters of F (x) are determined from the data Xi the critical values determined in this way are invalid. Em tais casos, Monte Carlo ou outros métodos podem ser necessários, mas as tabelas foram preparadas para alguns casos. Detalhes das modificações necessárias para a estatística do teste e para os valores críticos para a distribuição normal e a distribuição exponencial foram publicados, e publicações posteriores também incluem a distribuição Gumbel. O teste de Lilliefors representa um caso especial para a distribuição normal. A transformação do logaritmo pode ajudar a superar casos em que os dados de teste de Kolmogorov não parecem se encaixar na suposição de que veio da distribuição normal.utilizando parâmetros estimados, coloca-se a questão do método de estimativa a utilizar. Normalmente este seria o método de probabilidade máxima, mas por exemplo para a distribuição normal MLE tem um grande erro de viés em sigma. O uso de um ajuste de momento ou minimização de KS em vez disso tem um grande impacto nos valores críticos, e também algum impacto na potência de teste. Se precisarmos decidir para os dados Student-T com df = 2 através do teste KS se os dados poderiam ser normais ou não, então uma estimativa ML baseada em H0 (dados são normais, então usando o desvio padrão para a escala) daria uma distância KS muito maior, do que um ajuste com KS mínimo. Neste caso, devemos rejeitar H0, que é muitas vezes o caso com MLE, porque o desvio padrão da amostra pode ser muito grande para os dados T-2, mas com a minimização KS podemos obter ainda um KS muito baixo para rejeitar H0. No caso Student-T, um teste KS modificado com a estimativa KS em vez de MLE, torna o teste KS realmente um pouco pior. No entanto, em outros casos, esse teste KS modificado leva a uma potência de teste ligeiramente melhor.

Discreta e misturada nulo distributionEdit

Sob a suposição de que F ( x ) {\displaystyle F(x)}

$F(x)$

é não-decrescente e clique com o botão direito contínua, com contável (possivelmente infinito) número de saltos, o KS teste estatístico pode ser expressa como: D n = sup x | F n ( x ) − F ( x ) | = sup 0 ≤ t ≤ 1 | F n ( F − 1 ( t ) ) − F ( F − 1 ( t ) ) | . {\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.}

$D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.$

a continuidade de F ( x ) {\displaystyle F(x)}

$F(x)$

, segue-se que F ( F − 1 ( t ) ) ≥ t {\displaystyle F(F^{-1}(t))\geq t}

$F(F^{-1}(t))\geq t$

e F − 1 ( F ( x ) ) ≤ x {\displaystyle F^{-1}(F(x))\leq x}

$F^{-1}(F(x))\leq x$

e, portanto, a distribuição de D n {\displaystyle D_{n}}

$D_{n}$

depende nula de distribuição F ( x ) {\displaystyle F(x)}

$F (x)$

, i.e., não é mais livre de distribuição como no caso contínuo. Portanto, uma rápida e precisa método foi desenvolvido para calcular o exato e distribuição assintótica de D n {\displaystyle D_{n}}

$D_{n}$

quando F ( x ) {\displaystyle F(x)}

$F(x)$

é puramente discretos ou misto, implementado em C++ e na KSgeneral pacote de R linguagem. As funçõesdisc_ks_test()mixed_ks_test()econt_ks_test()calcule também a estatística do ensaio KS e os valores p para distribuições nulas puramente discretas, mistas ou contínuas e tamanhos de amostras arbitrários. O teste KS e seus valores p para distribuições nulas discretas e pequenos tamanhos de amostras também são computados como parte do pacote dgof da linguagem R. Principais pacotes estatísticos, entre os quais SASPROC NPAR1WAY, Stataksmirnovimplementar o teste KS sob a suposição de que F ( x ) {\displaystyle F(x)}

$F(x)$

é contínua, o que é mais conservadora, se a distribuição de null é, na verdade, não contínuo (ver ).

Test with estimated parametersEdit

Discreta e misturada nulo distributionEdit

Deixe uma resposta Cancelar resposta

Artigos recentes

Arquivo

Meta