앙상블 학습

베이즈 최적 분류기

베이즈 최적 분류기는 분류 기법입니다. 그것은 가설 공간에있는 모든 가설의 앙상블입니다. 평균적으로 다른 앙상블은 그것을 능가 할 수 없습니다. Naive Bayes optimal classifier 는 데이터가 클래스에서 조건부로 독립적이라고 가정하고 계산을 더 실현 가능하게 만드는 버전입니다. 각 가설에는 해당 가설이 사실이라면 훈련 데이터 세트가 시스템에서 샘플링 될 가능성에 비례하는 투표가 주어집니다. 유한 크기의 훈련 데이터를 용이하게하기 위해,각 가설의 투표는 또한 그 가설의 이전 확률로 곱해진다. 베이 즈 최적 분류기는 다음 방정식으로 표현 될 수 있습니다:

y=r g m x c j∈C∑h i∈H P(c j|h i)P(T|h i)P(h i){\displaystyle y={\underset{c{j}\C}{\mathrm{argmax}}}\sum_{h_{i}\H}{P(c{j}|h_{i})P(T|h_{i})P(h_{i})}}

어디 y{\displaystyle y}은 예측된 클래스 C{\displaystyle C}는 설정의 가능한 모든 클래스,H{\displaystyle H}은 가설을 공간,P{\displaystyle P}말 확률 T{\displaystyle T}훈련 데이터입니다. 앙상블로서,베이즈 최적 분류기는 반드시 H{\displaystyle H}에 없는 가설을 나타낸다. 설 표시되는 Bayes 최적의 분류기,그러나,최적의 가설에서는 공간을 앙상블(공간의 가능한 모든 앙상블으로만 구성된 가설에서{\displaystyle H}).

이 공식은 Bayes 의 정리를 사용하여 다시 표현할 수 있는데,이는 후방이 이전의 우도 시간에 비례한다고 말합니다:

P(h i|T)∝P(T|h i)P(h i){\displaystyle P(h_{i}|T)\propto P(T|h_{i})P(h_{i})}

따라서,

y=r g m x c j∈C∑h i∈H P(c j|h i)P(h i|T) {\displaystyle y={\underset{c{j}\C}{\mathrm{argmax}}}\sum_{h_{i}\H}{P(c{j}|h_{i})P(h_{i}|T)}}

부트스트랩을 집계(자루에 넣기)편집

주요 기사:부트스트랩을 집계하

부트스트랩을 집계하는,종종 생략으로 자루에 넣기, 는 각각 모델의 앙상블에 투표로 동등한 무게. 모델 분산을 촉진하기 위해 배깅은 훈련 세트의 무작위로 그려진 하위 집합을 사용하여 앙상블의 각 모델을 훈련시킵니다. 예를 들어,임의의 숲 알고리즘을 결합한 임의의 결정을 나무로 자루에 넣을 달성하는 매우 높은 분류 정확도.

bagging 에서 샘플은 교체가 허용되지만 샘플이 서로 다른 방식으로 생성됩니다. 대체는 인스턴스가 여러 샘플에서 여러 번 발생할 수 있거나 일부 샘플에 전혀 나타나지 않을 수 있음을 의미합니다. 그런 다음 이러한 샘플을 여러 학습자에게 제공 한 다음 각 학습자의 결과가 투표 형태로 결합됩니다.

BoostingEdit

주 제:강화(메타알고리즘)

밀어주는 포함한 점진적으로 구축하는 앙상블을 훈련하여 각각의 새 인스턴스 모델을 강조하는 교육 인스턴스에는 이전 모델이 잘못 분류됩니다. 일부의 경우,밀어주는 수익률을 보여왔는 더 나은 정확성보다 자루에 넣기,그러나 그것은 또한 더 높은 경향을 가능성에 맞는 교육이다. 지금까지 부스팅의 가장 일반적인 구현은 Adaboost 이지만 일부 최신 알고리즘은 더 나은 결과를 얻을 수 있다고보고되었습니다.

강화에 동등한 무게(유니폼 확률 분포)된 샘플 트레이닝 데이터(말 D1)에서 시작하는 라운드. 이 데이터(D1)는 기본 학습자(예:L1)에게 제공됩니다. L1 에 의한 잘못 분류 된 인스턴스에는 올바르게 분류 된 인스턴스보다 높은 가중치가 할당되지만 총 확률 분포는 1 과 같을 것임을 명심하십시오. 이 부스트 된 데이터(예:D2)는 두 번째 기본 학습자(예:L2)에게 제공됩니다. 그런 다음 결과는 투표 형태로 결합됩니다.

Bayesian 모델 averagingEdit

Bayesian model averaging(BMA)만을 사용하여 예측된 평균을 통해 여러 모델과 무게에 의해 주어진 후부 확률의 각 모델은 주어진 데이터이다. BMA 알려진 일반적으로 더 이상 하나의 모델이,취득을 통해,예를 들어,단계적 회귀 분석,특히 아주 다른 모델이 거의 동일한 성능에서 훈련을 설정 할 수 있지만 그렇지 않을 수행 매우 다릅니다.

가장 눈에 띄는 질문으로 어떤 기술을 사용하는 Bayes’정리하기 전에,예를 들어,사양을 확률(주관적이,아마도)각각의 모델을 사용하는 것이 가장 좋은 특정 목적입니다. 개념적으로 bma 는 이전에 사용할 수 있습니다. R 에 대한 ensembleBMA 및 BMA 패키지는 Raftery(1995)에 이어 베이지안 정보 기준(Bic)에 의해 암시 된 것을 사용합니다. BAS 패키지원의 사용에 사전 지식이 암시 아카 이케 information criterion(AIC)및 다른 기준을 통해 대체 모델을 뿐만 아니라 사전 지식을 통해 계수.

BIC 와 AIC 의 차이는 파시 모니에 대한 선호도의 강도입니다. 모델 복잡성에 대한 페널티는 BIC 의 경우 ln⁡(n)k{\displaystyle\ln(n)k}이고 AIC 의 경우 2k{\displaystyle2k}입니다. 대형 샘플 점근이론을 설립했는 경우가 최고의 모델 다음으로 증가하는 샘플 크기,빅 강하게 일관성,즉,거의 확실히 그것을 찾을하는 동안,AIC 지 않을 수도 있기 때문에,AIC 를 계속할 수 있는 장소에 과도한 후부 확률의 모델에는 더 복잡한 보다는 그들이 필요로 합니다. 반면에 우리가 효율성에 더 관심이 있다면,즉,최소 평균 제곱 예측 오차,그 다음 점근 적으로,AIC 및 AICc 는”효율적인”반면 BIC 는 그렇지 않다.

Burnham 및 앤더슨(1998 년,2002 년)에 크게 공헌을 소개하고 폭 넓은 고객 기본적인 아이디어의 Bayesian model averaging 과 대중화 방법론. 가용의 소프트웨어를 포함하여 다른 무료 오픈 소스 패키지를 위한 R 넘어 사람들 위에서 언급한 도움이 만드는 방법에 액세스할 수 있는 넓은 관객이다.

하우슬러 외. (1994)는 bma 가 분류에 사용될 때 예상되는 오차가 베이 즈 최적 분류기의 예상 오차의 최대 두 배임을 보여 주었다.

베이지안 모델 combinationEdit

베이지안 모델 조합(Bmc)은 베이지안 모델 평균화(Bma)에 대한 알고리즘 보정입니다. 신의 샘플링을 각각 모델의 앙상블에 개별적으로,그것은 샘플에서 공간의 가능한 앙상블(과 모델을 가중치에서 무작위로 그려집 Dirichlet 분포를 갖는 균일한 매개 변수). 이 수정은 bma 가 모든 가중치를 단일 모델에 부여하는 방향으로 수렴하는 경향을 극복합니다. BMC 는 BMA 보다 다소 계산적으로 비싸지 만 극적으로 더 나은 결과를 산출하는 경향이 있습니다. BMC 의 결과는 bma 및 bagging 보다 평균적으로(통계적 유의성으로)더 나은 것으로 나타났습니다.bayes 의 법칙을 사용하여 모델 가중치를 계산하려면 각 모델에 주어진 데이터의 확률을 계산해야합니다. 일반적으로 아무도의 모델에서 앙상블을 정확하게 분포에서는 훈련 데이터가 생성되므로,정확하게 모든 값을받을 제로에 가까운 대한 저자이기도 합니다. 앙상블이 전체 모델-공간을 샘플링하기에 충분히 크다면 이것은 잘 작동 할 것이지만,그러한 것은 거의 불가능합니다. 따라서 각 패턴에서 훈련한 데이터는 원인이 될 것이블중으로의 변화 모델을 앙상블에 가장 가까운 유통의 훈련 데이터입니다. 본질적으로 모델 선택을 수행하는 데 불필요하게 복잡한 방법으로 축소됩니다.

앙상블에 대한 가능한 가중치는 심플 렉스 위에 놓여있는 것으로 시각화 할 수 있습니다. 심플 렉스의 각 꼭지점에서 모든 가중치가 앙상블의 단일 모델에 주어집니다. Bma 는 훈련 데이터의 분포에 가장 가까운 정점을 향해 수렴합니다. 대조적으로,BMC 는이 분배가 simplex 에 투사되는 지점으로 수렴합니다. 에 다른 단어를 선택하는 대신 하나의 모델에 가장 가까운 생성 메일,그것은 추구 조합의 모델은 가장 가까운 생성 배포합니다.

bma 의 결과는 종종 교차 유효성 검사를 사용하여 모델 버킷에서 최상의 모델을 선택하여 근사 할 수 있습니다. 마찬가지로,에서 결과 BMC 될 수 있을 사용하여 대략적인 크로스 검사를 선택하는 최고의 앙상블의 조합에서 무작위 샘플링의 가능한 가중치.

버킷의 modelsEdit

“물통의 모델은”앙상블에 기술에서는 모델 선택 알고리즘을 사용하여 최선의 선택 모델에 대한 각각의 문제입니다. 시험할 때만 하나의 문제는 버킷의 모델을 생산할 수 있는 더 나은 결과를 최고의 모델을 설정하지만,평가할 때에 걸쳐 많은 문제,그것은 일반적으로 훨씬 더 나은 결과,평균 보다는 모든 모델에서 설정합니다.

가장 일반적인 접근 방식을 사용한 모델 선택한 크로스-validation 선택(때로는”이라고 구워프 컨테스트”)입니다. 그것은 설명한 다음 의사 코드:

For each model m in the bucket: Do c times: (where 'c' is some constant) Randomly divide the training dataset into two datasets: A, and B. Train m with A Test m with BSelect the model that obtains the highest average score

교차 검증을 선택할 수 있으로 요약:”도 그들 모두 함께 교육을 설정하고,하나를 선택 최”.

게이팅은 교차 검증 선택의 일반화입니다. 그것은 교육을 포함한 다른 학습 모델을 결정하는 모델의 물통에 있는 가장 적합한 문제를 해결합니다. 종종 게이팅 모델에 퍼셉트론이 사용됩니다. 양동이에 있는 각 모델의 예측에 선형 가중치를 부여할 수도 있습니다.훈련하는 데 시간이 오래 걸리는 모델 중 일부를 훈련하는 것을 피하는 것이 바람직 할 수 있습니다. 랜드 마크 학습은이 문제를 해결하고자하는 메타 학습 접근법입니다. 그것은 교육을 포함한 만 빠른(그러나 정확하지 않)알고리즘을 양동이에,다음 사용하의 성능에 이러한 알고리즘을 결정하는 데 도움이 느린(정확한)알고리즘을 가능성이 높는 최선을 다할 것입니다.

StackingEdit

(겹쳐 쌓이기 때로는 겹쳐 쌓인 일반화)교육을 포함한 학습 알고리즘을 결합하는 예측을 여러 가지 다른 학습 알고리즘이 있습니다. 첫째,모든 다른 알고리즘은 훈련을 사용하여 사용할 수 있는 데이터,다음 혼합기 알고리즘은 훈련된 최종 예측을 사용하여 모든 예측의 다른 알고리즘으로 추가적인 입력이 있습니다. 는 경우에는 임의의 결합기 알고리즘을 사용한 다음 적재할 수 있는 이론적으로 나타내의 앙상블에 기술을 이 문서에서 설명하지만 실제로는 로지스틱 회귀분석 모형으로 종종 사용 혼합기.

스태킹은 일반적으로 훈련 된 모델 중 어느 하나보다 성능이 뛰어납니다. 그것은 성공적으로 사용되는 모두에서도 학습 작업(회귀분석,분류 및 학습 거리)와 자율학습(밀도 추정). 또한 배깅의 오류율을 평가하는 데 사용되었습니다. 베이지안 모델 평균화를 밖으로 수행하는 것으로보고되었습니다.넷플 릭스 경쟁에서 두 명의 최고 출연자는 블렌딩을 활용했으며,이는 스태킹의 한 형태로 간주 될 수 있습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다