Kolmogorov-Smirnov 테스트

Kolmogorov 배포판의 PDF 그림.

Kolmogorov 배포 배포의 랜덤변수

K=sup t∈|B(t)|{\displaystyle K=\sup_{t\에}|B(t)|}

K=\sup_{t\에}|B(t)|

B(t)는 브라운 다리입니다. 누적분포함수의 K 에 의해 주어집

Pr⁡(K≤x)=1−2∑k=1∞(−1)k−1 전자−2k2x2=2π x∑k=1∞e−(2k−1)2π2/(8×2),{\displaystyle\operatorname{Pr}(K\배경 x)=1-2\sum_{k=1}^{\infty}(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac{\sqrt{2\pi}}{x}}\sum_{k=1}^{\infty}e^{-(2k-1)^{2}\pi^{2}/(8 배속^{2})},}

{\displaystyle\operatorname{Pr}(K\배경 x)=1-2\sum_{k=1}^{\infty}(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac{\sqrt{2\pi}}{x}}\sum_{k=1}^{\infty}e^{-(2k-1)^{2}\pi^{2}/(8x^{2})},}

는 수도 있습을 표현했으로 자타 기능 ϑ01(z=0;τ=2×2/π){\displaystyle\vartheta_{01}(z=0;\tau=2ix^{2}/\pi)}

{\displaystyle\vartheta_{01}(z=0;\tau=2ix^{2}/\pi)}

. 모두 형태의 Kolmogorov–Smirnov 테스트 통계와 점근 유통 null 가설에서 게재되었에 의해 안드레이 Kolmogorov 동안의 테이블 배급에 의해 출판되었 니콜라이 Smirnov. 유한 샘플에서 시험 통계의 분포에 대한 재발 관계를 사용할 수 있습니다.

에 null 을 가설 샘플 제공 가설에서의 유통 F(x)

n D n→→∞sup t|B(F(t))|{\displaystyle{\sqrt{n}}D_{n}{\xrightarrow{n\to\infty}}\sup_{t}|B(F(t))|}

{\sqrt{n}}D_{n}{\xrightarrow{n\to\infty}}\sup_{t}|B(F(t))|

에 분포,B(t)는 브라운 다리입니다.

경우 F 은 지속적인한 다음에 null 을 가설 n D n{\displaystyle{\sqrt{n}}D_{n}}

{\sqrt{n}}D_{n}

수렴한 Kolmogorov 배급에 의존하지 않 F. 이 결과는 콜 모고 로프 정리로 알려질 수도 있습니다. 의 정확성이 제한 근사치로 정확한 cdf K{\displaystyle K}

K

n{\displaystyle n}

n

은 유한하지 않습이 매우 인상적이다:도할 때 n=1000{\displaystyle n=1000}

n=1000

,해당하는 최대 오차는 약 0.9%{\displaystyle0.9\%}

{\displaystyle0.9\%}

;이 오류가 증가하 2.6%{\displaystyle2.6\%}

{\displaystyle2.6\%}

n=100{\displaystyle n=100}

{\displaystyle n=100}

하고 용납할 수 없 7%{\displaystyle7\%}

{\displaystyle7\%}

n=10{\displaystyle n=10}

n=10

. 그러나 아주 간단한 편의 교체 x{\displaystyle x}

x

x+1 6n+x1 4n{\displaystyle x+{\frac{1}{6{\sqrt{n}}}}+{\frac{x1}{4}}}

{\displaystyle x+{\frac{1}{6{\sqrt{n}}}}+{\frac{x1}{4}}}

에서는 인수의 자타 기능을 줄여 이러한 오류를 0.003%{\displaystyle0.003\%}

{\displaystyle0.003\%}

,0.027%{\displaystyle0.027\%}

{\displaystyle0.027\%}

고 0.27%{\displaystyle0.27\%}

{\displaystyle0.27\%}

각각;이러한 정보의 정확성을 것이 일반적으로 간주 개 이상 적절한 실제적인 응용 프로그램.

goodness-of-fit 테스트 또는 Kolmogorov–Smirnov 테스트는 Kolmogorov 분포의 임계 값을 사용하여 구성 할 수 있습니다. 이 테스트는 점근이 유효한 때 n→∞{\displaystyle n\to\infty}

{\displaystyle n\to\infty}

. 그 거부에서 null 가설을 수준 α{\displaystyle\alpha}

\alpha

경 n D n>K α,{\displaystyle{\sqrt{n}}D_{n}>K_{\alpha},\,}

{\sqrt{n}}D_{n}K_{\alpha},\,

어디에서 카에서 발견된

Pr⁡(K≤K α)=1−α. {\displaystyle\operatorname{Pr}(K\leq K_{\alpha})=1-\alpha.\,}

\operatorname{Pr}(K\leq K_{\alpha})=1-\alpha.\,

이 테스트의 점근력은 1 입니다.

빠르고 정확한 알고리즘을 컴퓨팅 cdf Pr⁡(D n≤x){\displaystyle\operatorname{Pr}(D_{n}\배경 x)}

{\displaystyle\operatorname{Pr}(D_{n}\배경 x)}

또는 그것의 보완을 위한 임의의 n{\displaystyle n}

n

x{\displaystyle x}

x

에서 사용 가능:

  • 과에 대한 지속적인 null 배포본 코드에서는 C,Java 를 찾을 수 있습니다.
  • 에 대한 순수하게 분산,혼합 또는 지속적인 null 분배 구현 KSgeneral 패키지의 프로젝트를 위한 통계적 컴퓨팅,는 지정한 샘플 또한 계산 KS 테스트 통계 및 p-값입니다. 대체 C++구현에서 사용할 수 있습니다.

테스트로 예상 parametersEdit

경우 또는 양식의 매개 변수는 F(x)를 결정하는 데이터 사이의 중요한 가치로 결정에 이 방법은 잘못되었습니다. 이러한 경우 몬테카를로 또는 다른 방법이 필요할 수 있지만 경우에 따라 테이블이 준비되었습니다. 상세정보를 위한 필요한 수정을 테스트 및 통계에 대한 중요한 가치를 위해 정상 유통과 지수 유통 출판되었고,이후 간행물을 포함한 감벨 분포. Lilliefors 테스트는 정규 분포에 대한 특별한 경우를 나타냅니다. 로그 변환할 수 있는 데 도움을 극복하는 경우 Kolmogorov 테스트 데이터가 보이지 않을 맞는다는 가정에서 나온 것은 정상 유통.

추정 된 매개 변수를 사용하면 어떤 추정 방법을 사용해야하는지에 대한 질문이 생깁니다. 보통 이것은 최대 우도 방법 일 것이지만,예를 들어 정규 분포에 대해 mle 는 시그마에 큰 바이어스 오차를 갖는다. 대신 모멘트 맞춤 또는 KS 최소화를 사용하면 임계 값에 큰 영향을 미치고 테스트 전력에도 약간의 영향을 미칩니다. 만약 우리가 결정해야에 대한 학생 T 데이터 df=2 을 통해 KS 는지 여부를 테스트 데이터 수 있는 정상 또는지,그 ML 추정에 기반 H0(데이 정상입니다,그래서 사용하는 표준 편차에 대한 규모)에 훨씬 더 큰 KS 거리,이와 맞는 최소 KS. 이 경우 우리는 거부해야 합 H0,는 경우가 종종로 MLE 기 때문에,샘플 표준 편차를 수 있는 매우 큰 T-2data 지만,KS 최소화가 우리가 얻을 수 있습니다 아직도 너무 낮 KS 를 거부하 H0. 학생-T 의 경우,mle 대신 KS 추정치가있는 수정 된 KS 테스트는 실제로 KS 테스트를 약간 악화시킵니다. 그러나,다른 경우에,그러한 수정 된 KS 테스트는 약간 더 나은 테스트 파워로 이어진다.

Discrete 및 혼합 null distributionEdit

가정에서는 F(x){\displaystyle F(x)}

F(x)

는 감소하지 않고 오른쪽 지속적으로,가산(무한한 가능성이)번호의 점프,KS 테스트 통계는 다음과 같이 설명될 수 있습니다. D n=sup x|n F(x)F(x)|=sup0≤t≤1|F n(F−1(t))−F(F−1(t))|. {\displaystyle D_{n}=\sup_{x}|f_ 부드러 다{n}(x)F(x)|=\sup_{0\배경 t\배경 1}|f_ 부드러 다{n}(F^{-1}(t))-F(F^{-1}(t))|.}

{\displaystyle D_{n}=\sup _{x}|F_{n}(x)-F(x)|=\sup _{0\leq t\leq 1}|F_{n}(F^{-1}(t))-F(F^{-1}(t))|.}

에서 오른쪽의 연속성을 F(x){\displaystyle F(x)}

F(x)

는 다음과 같습니다 F(F−1(t))≥t{\displaystyle F(F^{-1}(t))\t hra 출력}

{\displaystyle F(F^{-1}(t))\t hra 출력}

과 F−1(F(x))≤x{\displaystyle F^{-1}(F(x))\배경 x}

{\displaystyle F^{-1}(F(x))\배경 x}

고,따라서 배포 D n{\displaystyle D_{n}}

D_{n}

에 따라 달라집 null 유통 F(x){\displaystyle F(x)}

F(x)

즉,연속 된 경우와 같이 더 이상 배포가 없습니다. 따라서,빠르고 정확한 방법이 개발되었을 계산한 정확하고 점근의 분포 D n{\displaystyle D_{n}}

D_{n}

때 F(x){\displaystyle F(x)}

F(x)

는 순수하게 분리되거나 혼합, 구현 C++에서 및에서 KSgeneral 패키지의 R 언어입니다. 기능disc_ks_test()mixed_ks_test()cont_ks_test()컴퓨팅도 KS 테스트 통계하고 p 값을 위해 순수하게 분산,혼합 또는 지속적인 null 분포 및 임의 샘플 크기입니다. 이산 널 분포 및 작은 표본 크기에 대한 KS 테스트 및 해당 p-값도 R 언어의 dgof 패키지의 일부로 계산됩니다. 중요한 통계 패키지를 사는 SASPROC NPAR1WAY,Stataksmirnov을 구현하 KS 테스트 가정에서는 F(x){\displaystyle F(x)}

F(x)

는 지속적인,어느 것이 더 보수적인 경우에는 null 을 배포판은 실제로는 연속적이지(참조).

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다