アンサンブル学習

ベイズ最適分類器編集

ベイズ最適分類器は、分類手法です。 これは、仮説空間内のすべての仮説のアンサンブルです。 平均して、他のアンサンブルはそれを上回ることはできません。 Naive Bayes optimal classifierは、データがクラスに対して条件付きで独立していることを前提とし、計算をより実行可能にするこのバージョンです。 各仮説には、その仮説が真である場合に、トレーニングデータセットがシステムからサンプリングされる尤度に比例する投票が与えられます。 有限サイズの学習データを容易にするために、各仮説の投票にその仮説の事前確率も乗算されます。 ベイズ最適分類器は、次の式で表すことができます:

y=a r g m a x c j≤C≤h i≤H P(c j/h i)P(T|h i)P(h i){\displaystyle y={\underset{c_{j}\in C}{\mathrm{argmax}}}\sum_{h_{i}\in H}{P(c_{j}|h_{i})P(T|h_{i})P(h_{i})}}

ここでy{\displaystyle y}は予測クラス、c{\displaystyle c}はすべての可能なクラスの集合、H{\displaystyle h}は仮説空間、P{\displaystyle P}は確率、t{\displaystyle T}は訓練データである。 集団として、ベイズ最適分類器は、必ずしもH{\displaystyle H}に含まれない仮説を表す。 しかし、ベイズ最適分類器によって表される仮説は、アンサンブル空間(H{\displaystyle H}における仮説のみからなるすべての可能なアンサンブルの空間)における最適仮説である。この式はベイズの定理を使用して再記述することができ、事後は前の尤度倍に比例すると述べています。

この式は、ベイズの定理を使用して再表:したがって、

y=a r g m a x c j≤C≤h i≤H P(c j|h i)P(h i|T){\displaystyle y={\underset{c_{j}\in C}}{\mathrm{argmax}}y=a r g m a x c j≤C≤h i≤H P(c j|h i)P(h i|T){\displaystyle y={\underset{c_{j}\in C}}{\mathrm{argmax}}y=a r g m a x c j≤C≤h i≤H P(c j/h i)P(h i|T){\displaystyle y={\underset{c_{j}\in C}}{\mathrm{argmax}}y=a r g m a x c j≤C≤h i≤H P(c j|h i)P(h i|T){\displaystyle y={\underset{c_{j}\in C}}}}\sum_{h_{I}\In H}{p(c_{j}|h_{I})p(h_{i}|t)}}

bootstrap aggregating(Bagging)edit

main article:bootstrap aggregating

bootstrap aggregatingは、しばしばbaggingと略され、アンサンブル投票の各モデルを同じ重みで持つことを含みます。 モデルの分散を促進するために、baggingは、学習セットのランダムに描画されたサブセットを使用して、アンサンブル内の各モデルを学習します。 例として、ランダムフォレストアルゴリズムは、非常に高い分類精度を達成するために、無作為決定木と袋詰めを組み合わせます。

袋詰めでは、サンプルはサンプルが互いに異なるように生成されますが、交換は許可されています。 置換とは、インスタンスが複数のサンプルで複数回発生する可能性があるか、一部のサンプルではまったく出現できないことを意味します。 これらのサンプルは、複数の学習者に与えられ、その後、各学習者からの結果は、投票の形で結合されています。

BoostingEdit

Main article:Boosting(meta-algorithm)

Boostingは、以前のモデルが誤って分類したトレーニングインスタンスを強調するために、新しいモデルインスタンスごとに 場合によっては、ブーストは袋詰めよりも精度が高いことが示されていますが、トレーニングデータに過度に適合する可能性が高くなる傾向があります。 いくつかの新しいアルゴリズムは、より良い結果を達成するために報告されているが、はるかに、ブーストの最も一般的な実装は、Adaboostです。

ブーストでは、最初のラウンドで標本学習データ(D1など)に等しい重み(一様確率分布)が与えられます。 このデータ(D1)は、基本学習器(L1など)に与えられます。 L1によって誤って分類されたインスタンスには、正しく分類されたインスタンスよりも高い重みが割り当てられますが、総確率分布は1に等しくな このブーストされたデータ(D2など)は、2番目のベース学習器(L2など)に与えられます。 結果は投票の形で結合されます。

Bayesian model averagingEdit

Bayesian model averaging(BMA)は、データが与えられた各モデルの事後確率によって与えられた重みを持つ複数のモデルの平均を使用して予測を行います。 BMAは、一般的に、例えば段階的回帰を介して得られた単一のモデルよりも優れた答えを与えることが知られており、特に非常に異なるモデルがトレーニン

ベイズの定理を使用する手法で最も明白な質問は、事前、すなわち、各モデルが与えられた目的のために使用するのが最善である確率(主観的、おそら 概念的には、BMAは任意のpriorと一緒に使用できます。 RのensembleBMAパッケージとBMAパッケージは、Raftery(1995)に続くベイズ情報基準(BIC)によって暗示された優先順位を使用します。 R用のBASパッケージは、赤池情報基準(AIC)および代替モデルに対する他の基準、および係数に対する事前評価の使用をサポートしています。BICとAICの違いは、節減のための好みの強さです。

モデルの複雑さに対するペナルティは、bicの場合はln⁡(n)k{\displaystyle\ln(n)k}であり、AICの場合は2k{\displaystyle2k}である。 大規模なサンプル漸近理論は、サンプルサイズの増加に伴って最良のモデルが存在する場合、BICは強く一貫している、すなわち、AICは必要以上に複雑なモ 一方、効率性にもっと関心がある場合、すなわち、最小平均二乗予測誤差は、漸近的に、AICとAICcは”効率的”であるが、BICはそうではない。

Burnham and Anderson(1998,2002)は、ベイズモデル平均化の基本的なアイデアをより多くの聴衆に紹介し、方法論を普及させることに大きく貢献しました。 上記のものを超えてRのための他の無料のオープンソースパッケージを含むソフトウェアの可用性は、より多くの聴衆にアクセス可能な方法を作るのに役

Haussler et al. (1994)は、BMAが分類に使用される場合、その期待誤差はベイズ最適分類器の期待誤差の最大2倍であることを示した。

ベイズモデルの組み合わせ編集

ベイズモデルの組み合わせ(BMC)は、ベイズモデル平均化(BMA)へのアルゴリズム補正です。 アンサンブル内の各モデルを個別にサンプリングするのではなく、可能なアンサンブルの空間からサンプリングします(一様なパラメータを持つディリクレ分布からランダムに描画されたモデル重み付き)。 この変更は、単一のモデルにすべての重みを与えることに向かって収束するBMAの傾向を克服する。 BMCはBMAよりもいくらか計算上高価ですが、劇的に良い結果が得られる傾向があります。 BMCからの結果は、BMAおよび袋詰めよりも平均して(統計的有意性を有する)良好であることが示されている。

ベイズの法則を使用してモデルの重みを計算するには、各モデルに与えられたデータの確率を計算する必要があります。 通常、アンサンブル内のどのモデルも、トレーニングデータが生成された分布と正確には一致しないため、これらのモデルはすべて、この項でゼロに近い値を正しく受け取ります。 これは、アンサンブルがモデル空間全体をサンプリングするのに十分な大きさであればうまく機能しますが、そのようなことはまれです。 その結果、学習データ内の各パターンにより、集団の重みは、学習データの分布に最も近い集団内のモデルにシフトします。 これは本質的に、モデル選択を行うための不必要に複雑な方法に還元されます。

アンサンブルの可能な重みは、シンプレックス上に横たわっているように視覚化することができます。 シンプレックスの各頂点では、すべての重みがアンサンブル内の単一のモデルに与えられます。 BMAは、学習データの分布に最も近い頂点に向かって収束します。 対照的に、BMCは、この分布がシンプレックス上に投影される点に向かって収束します。 つまり、生成分布に最も近い1つのモデルを選択する代わりに、生成分布に最も近いモデルの組み合わせを探します。bmaの結果は、多くの場合、モデルのバケットから最適なモデルを選択するために交差検証を使用して近似することができます。

BMAの結果は、多くの場合、 同様に、BMCからの結果は、交差検証を使用して、可能性のある重みの無作為抽出から最良の集団の組み合わせを選択することによって近似され得る。

Bucket of modelsEdit

“bucket of modelsedit”は、モデル選択アルゴリズムを使用して各問題に最適なモデルを選択するアンサンブル手法です。 しかし、多くの問題で評価すると、通常、セット内のどのモデルよりも平均してはるかに優れた結果が得られます。

モデル選択に使用される最も一般的なアプローチは、交差検証選択(”ベイクオフコンテスト”と呼ばれることもあります)です。 これは、次の擬似コードで説明されています。

For each model m in the bucket: Do c times: (where 'c' is some constant) Randomly divide the training dataset into two datasets: A, and B. Train m with A Test m with BSelect the model that obtains the highest average score

交差検証の選択は、”トレーニングセットですべてを試してみて、最適なものを選ぶ”と要約できます。

ゲーティングは、交差検証選択の一般化です。 これには、別の学習モデルを訓練して、バケット内のどのモデルが問題を解決するのに最適かを決定することが含まれます。 多くの場合、ゲーティングモデルにはパーセプトロンが使用されます。 これは、「最良の」モデルを選択するために使用することも、バケット内の各モデルからの予測に線形重みを与えるために使用することもできます。

モデルのバケットを大量の問題セットで使用する場合、トレーニングに時間がかかるモデルの一部をトレーニングしないことが望ましい場合があり ランドマーク学習は、この問題を解決しようとするメタ学習アプローチです。 これには、バケット内の高速(しかし不正確な)アルゴリズムのみをトレーニングし、これらのアルゴリズムのパフォーマンスを使用して、どの低速(しかし正確な)

StackingEdit

Stacking(stacked generalizationと呼ばれることもあります)は、他のいくつかの学習アルゴリズムの予測を組み合わせるために学習アルゴリズムを訓練するこ 最初に、他のすべてのアルゴリズムが利用可能なデータを使用して訓練され、次にコンバイナアルゴリズムが訓練され、他のアルゴリズムのすべての予 任意のコンバイナアルゴリズムを使用する場合、スタックは理論的にはこの記事で説明したアンサンブル手法のいずれかを表すことができますが、実際にはロジスティック回帰モデルがコンバイナとして使用されることがよくあります。

スタッキングは、通常、学習されたモデルのいずれかよりもパフォーマンスが向上します。 これは、教師あり学習タスク(回帰、分類、遠隔学習)と教師なし学習(密度推定)の両方で正常に使用されています。 また、袋詰めの誤り率を推定するためにも使用されています。 ベイズモデル平均化を上回ることが報告されています。Netflixの競争の中で二人のトップパフォーマーは、スタッキングの一形態であると考えられるブレンドを利用しました。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です