Kolmogorov 배포 배포의 랜덤변수
K=sup t∈|B(t)|{\displaystyle K=\sup_{t\에}|B(t)|}
B(t)는 브라운 다리입니다. 누적분포함수의 K 에 의해 주어집
Pr(K≤x)=1−2∑k=1∞(−1)k−1 전자−2k2x2=2π x∑k=1∞e−(2k−1)2π2/(8×2),{\displaystyle\operatorname{Pr}(K\배경 x)=1-2\sum_{k=1}^{\infty}(-1)^{k-1}e^{-2k^{2}x^{2}}={\frac{\sqrt{2\pi}}{x}}\sum_{k=1}^{\infty}e^{-(2k-1)^{2}\pi^{2}/(8 배속^{2})},}
는 수도 있습을 표현했으로 자타 기능 ϑ01(z=0;τ=2×2/π){\displaystyle\vartheta_{01}(z=0;\tau=2ix^{2}/\pi)}
. 모두 형태의 Kolmogorov–Smirnov 테스트 통계와 점근 유통 null 가설에서 게재되었에 의해 안드레이 Kolmogorov 동안의 테이블 배급에 의해 출판되었 니콜라이 Smirnov. 유한 샘플에서 시험 통계의 분포에 대한 재발 관계를 사용할 수 있습니다.
에 null 을 가설 샘플 제공 가설에서의 유통 F(x)
n D n→→∞sup t|B(F(t))|{\displaystyle{\sqrt{n}}D_{n}{\xrightarrow{n\to\infty}}\sup_{t}|B(F(t))|}
에 분포,B(t)는 브라운 다리입니다.
경우 F 은 지속적인한 다음에 null 을 가설 n D n{\displaystyle{\sqrt{n}}D_{n}}
수렴한 Kolmogorov 배급에 의존하지 않 F. 이 결과는 콜 모고 로프 정리로 알려질 수도 있습니다. 의 정확성이 제한 근사치로 정확한 cdf K{\displaystyle K}
n{\displaystyle n}
은 유한하지 않습이 매우 인상적이다:도할 때 n=1000{\displaystyle n=1000}
,해당하는 최대 오차는 약 0.9%{\displaystyle0.9\%}
;이 오류가 증가하 2.6%{\displaystyle2.6\%}
n=100{\displaystyle n=100}
하고 용납할 수 없 7%{\displaystyle7\%}
n=10{\displaystyle n=10}
. 그러나 아주 간단한 편의 교체 x{\displaystyle x}
x+1 6n+x1 4n{\displaystyle x+{\frac{1}{6{\sqrt{n}}}}+{\frac{x1}{4}}}
에서는 인수의 자타 기능을 줄여 이러한 오류를 0.003%{\displaystyle0.003\%}
,0.027%{\displaystyle0.027\%}
고 0.27%{\displaystyle0.27\%}
각각;이러한 정보의 정확성을 것이 일반적으로 간주 개 이상 적절한 실제적인 응용 프로그램.
goodness-of-fit 테스트 또는 Kolmogorov–Smirnov 테스트는 Kolmogorov 분포의 임계 값을 사용하여 구성 할 수 있습니다. 이 테스트는 점근이 유효한 때 n→∞{\displaystyle n\to\infty}
. 그 거부에서 null 가설을 수준 α{\displaystyle\alpha}
경 n D n>K α,{\displaystyle{\sqrt{n}}D_{n}>K_{\alpha},\,}
어디에서 카에서 발견된
Pr(K≤K α)=1−α. {\displaystyle\operatorname{Pr}(K\leq K_{\alpha})=1-\alpha.\,}
이 테스트의 점근력은 1 입니다.
빠르고 정확한 알고리즘을 컴퓨팅 cdf Pr(D n≤x){\displaystyle\operatorname{Pr}(D_{n}\배경 x)}
또는 그것의 보완을 위한 임의의 n{\displaystyle n}
x{\displaystyle x}
에서 사용 가능:
- 과에 대한 지속적인 null 배포본 코드에서는 C,Java 를 찾을 수 있습니다.
- 에 대한 순수하게 분산,혼합 또는 지속적인 null 분배 구현 KSgeneral 패키지의 프로젝트를 위한 통계적 컴퓨팅,는 지정한 샘플 또한 계산 KS 테스트 통계 및 p-값입니다. 대체 C++구현에서 사용할 수 있습니다.
테스트로 예상 parametersEdit
경우 또는 양식의 매개 변수는 F(x)를 결정하는 데이터 사이의 중요한 가치로 결정에 이 방법은 잘못되었습니다. 이러한 경우 몬테카를로 또는 다른 방법이 필요할 수 있지만 경우에 따라 테이블이 준비되었습니다. 상세정보를 위한 필요한 수정을 테스트 및 통계에 대한 중요한 가치를 위해 정상 유통과 지수 유통 출판되었고,이후 간행물을 포함한 감벨 분포. Lilliefors 테스트는 정규 분포에 대한 특별한 경우를 나타냅니다. 로그 변환할 수 있는 데 도움을 극복하는 경우 Kolmogorov 테스트 데이터가 보이지 않을 맞는다는 가정에서 나온 것은 정상 유통.
추정 된 매개 변수를 사용하면 어떤 추정 방법을 사용해야하는지에 대한 질문이 생깁니다. 보통 이것은 최대 우도 방법 일 것이지만,예를 들어 정규 분포에 대해 mle 는 시그마에 큰 바이어스 오차를 갖는다. 대신 모멘트 맞춤 또는 KS 최소화를 사용하면 임계 값에 큰 영향을 미치고 테스트 전력에도 약간의 영향을 미칩니다. 만약 우리가 결정해야에 대한 학생 T 데이터 df=2 을 통해 KS 는지 여부를 테스트 데이터 수 있는 정상 또는지,그 ML 추정에 기반 H0(데이 정상입니다,그래서 사용하는 표준 편차에 대한 규모)에 훨씬 더 큰 KS 거리,이와 맞는 최소 KS. 이 경우 우리는 거부해야 합 H0,는 경우가 종종로 MLE 기 때문에,샘플 표준 편차를 수 있는 매우 큰 T-2data 지만,KS 최소화가 우리가 얻을 수 있습니다 아직도 너무 낮 KS 를 거부하 H0. 학생-T 의 경우,mle 대신 KS 추정치가있는 수정 된 KS 테스트는 실제로 KS 테스트를 약간 악화시킵니다. 그러나,다른 경우에,그러한 수정 된 KS 테스트는 약간 더 나은 테스트 파워로 이어진다.
Discrete 및 혼합 null distributionEdit
가정에서는 F(x){\displaystyle F(x)}
는 감소하지 않고 오른쪽 지속적으로,가산(무한한 가능성이)번호의 점프,KS 테스트 통계는 다음과 같이 설명될 수 있습니다. D n=sup x|n F(x)F(x)|=sup0≤t≤1|F n(F−1(t))−F(F−1(t))|. {\displaystyle D_{n}=\sup_{x}|f_ 부드러 다{n}(x)F(x)|=\sup_{0\배경 t\배경 1}|f_ 부드러 다{n}(F^{-1}(t))-F(F^{-1}(t))|.}
에서 오른쪽의 연속성을 F(x){\displaystyle F(x)}
는 다음과 같습니다 F(F−1(t))≥t{\displaystyle F(F^{-1}(t))\t hra 출력}
과 F−1(F(x))≤x{\displaystyle F^{-1}(F(x))\배경 x}
고,따라서 배포 D n{\displaystyle D_{n}}
에 따라 달라집 null 유통 F(x){\displaystyle F(x)}
즉,연속 된 경우와 같이 더 이상 배포가 없습니다. 따라서,빠르고 정확한 방법이 개발되었을 계산한 정확하고 점근의 분포 D n{\displaystyle D_{n}}
때 F(x){\displaystyle F(x)}
는 순수하게 분리되거나 혼합, 구현 C++에서 및에서 KSgeneral 패키지의 R 언어입니다. 기능disc_ks_test()
mixed_ks_test()
cont_ks_test()
컴퓨팅도 KS 테스트 통계하고 p 값을 위해 순수하게 분산,혼합 또는 지속적인 null 분포 및 임의 샘플 크기입니다. 이산 널 분포 및 작은 표본 크기에 대한 KS 테스트 및 해당 p-값도 R 언어의 dgof 패키지의 일부로 계산됩니다. 중요한 통계 패키지를 사는 SASPROC NPAR1WAY
,Stataksmirnov
을 구현하 KS 테스트 가정에서는 F(x){\displaystyle F(x)}
는 지속적인,어느 것이 더 보수적인 경우에는 null 을 배포판은 실제로는 연속적이지(참조).