Ensemble learning

Bayes optimal classifierEdit

a Bayes optimal classifier egy osztályozási technika. Ez a hipotézis tér összes hipotézisének együttese. Átlagosan egyetlen más együttes sem képes felülmúlni. A naiv Bayes optimal osztályozó ennek egy olyan változata, amely feltételezi, hogy az adatok feltételesen függetlenek az osztálytól, és a számítást megvalósíthatóbbá teszi. Minden hipotézisnek szavazata arányos azzal a valószínűséggel, hogy a képzési adatkészletet mintavételeznék egy rendszerből, ha ez a hipotézis igaz lenne. A véges méretű képzési adatok megkönnyítése érdekében az egyes hipotézisek szavazatát meg kell szorozni a hipotézis előzetes valószínűségével is. A Bayes optimális osztályozója a következő egyenletekkel fejezhető ki: y = r g m a x c j ∈ C ∑ h i ∈ H P ( c j | h ) P ( T | h ) P ( h, i ) {\displaystyle y={\underset {c_{j}\C}{\mathrm {argmax} }}\összeg _{h_{i}\H}{P(c_{j}|h_{i})P(T|h_{i})P(h_{i})}}

, ahol az y {\displaystyle y} a becsült osztály, C {\displaystyle C} a halmaz minden lehetséges osztályok, H {\displaystyle H} a hipotézis tér, P {\displaystyle P} utal, hogy egy valószínűség, valamint a T {\displaystyle T} a képzési adatok. Együttesként a Bayes optimal osztályozó olyan hipotézist képvisel, amely nem feltétlenül H {\displaystyle H} . A Bayes optimal classifier által képviselt hipotézis azonban az ensemble space optimális hipotézise (az összes lehetséges együttes tér, amely csak H {\displaystyle H} hipotézisekből áll ).

ezt a képletet Bayes tételével lehet visszaállítani, amely azt mondja, hogy a hátsó arányos a valószínűségi idővel: P ( h | T ) ∝ P ( T | h ) P ( h, i ) {\displaystyle P(h_{i}|T)\propto P(T|h_{i})P(h_{i})}

ezért

y = r g m a x c j ∈ C ∑ h i ∈ H P ( c j | h ) P ( h | T ) {\displaystyle y={\underset {c_{j}\C}{\mathrm {argmax} }}\összeg _{h_{i}\H}{P(c_{j}|h_{i})P(h_{i}|T)}}

Bootstrap összesítése (pakolás)Edit

Fő cikk: Bootstrap összesítése

Bootstrap összesítése, gyakran rövidítve zsákoló, magában foglalja, hogy minden modell az együttes szavazás egyenlő súlyt. Annak érdekében, hogy támogassák modell variancia, zsákolás vonatok minden modell az együttesben egy véletlenszerűen húzott részhalmaza a képzési készlet. Például a random forest algoritmus egyesíti a véletlenszerű döntési fákat a zsákolással, hogy nagyon nagy osztályozási pontosságot érjen el.

a zsákolás során a mintákat úgy állítják elő, hogy a minták különböznek egymástól, azonban a csere megengedett. A csere azt jelenti, hogy egy példány többször is előfordulhat több mintában, vagy egyáltalán nem jelenhet meg egyes mintákban. Ezeket a mintákat ezután több tanulónak adják, majd az egyes tanulók eredményeit szavazás formájában kombinálják.

BoostingEdit

fő cikk: fellendítése (meta-algoritmus)

növelése magában foglalja a növekményes épület egy együttest képzés minden új modell példány hangsúlyozni a képzési példányok, hogy a korábbi modellek mis-Osztályozott. Egyes esetekben, növelése kimutatták, hogy jobb pontosságot, mint zsákolás,de ez is inkább, hogy több mint illik a képzési adatok. Messze a fellendítés leggyakoribb végrehajtása az Adaboost, bár néhány újabb algoritmust jelentettek a jobb eredmények elérése érdekében.

a Növelés során egyenlő súlyt (egyenletes valószínűségi eloszlást) adnak a mintaképzési adatoknak (mondjuk D1) a kiindulási fordulóban. Ezeket az adatokat (D1) ezután egy alaptanulónak adják (mondjuk L1). Az L1 mis-Osztályozott példányai nagyobb súlyt kapnak, mint a helyesen Osztályozott példányok, de szem előtt tartva, hogy a teljes valószínűségi eloszlás egyenlő lesz 1. Ezt a megnövelt adatot (mondjuk D2) ezután a második alap tanulónak adják (mondjuk L2) stb. Az eredményeket ezután szavazás formájában kombinálják.

Bayesian model averagingEdit

Bayesian model averaging (BMA) előrejelzést készít több modell átlaga alapján, súlyokkal, amelyeket az egyes modellek hátsó valószínűsége ad meg az adatoknak. BMA ismert, hogy általában jobb válasz, mint egy modell, melyet, pl. keresztül lépésenkénti regresszió, különösen ott, ahol nagyon különböző modellek közel azonos teljesítményt a képzés meg, de lehet, hogy egyébként végre egészen másképp.

A legkézenfekvőbb kérdés minden olyan technikával, amely Bayes tételét használja, az előzetes, azaz annak a valószínűségnek a meghatározása (szubjektív, talán), amelyet minden modell a legjobb egy adott célra használni. Fogalmilag, BMA lehet használni bármely korábbi. Az ensembleBMA és a BMA csomagok az R-hez a Bayes-i információs kritérium (BIC) által előzetesen implementált, a Raftery (1995) után. A Bas csomag R támogatja a priors által hallgatólagos Akaike információs kritérium (AIC) és egyéb kritériumok az alternatív modellek, valamint priors át az együtthatók.

a BIC és AIC közötti különbség a parsimony preferencia erőssége. A modell összetettségének büntetése ln ⁡ ( n ) K {\displaystyle \ln(n)k} a BIC és 2 k {\displaystyle 2k} az AIC esetében. Nagy minta aszimptotikus elmélet megállapította, hogy ha van egy legjobb modell, akkor a növekvő mintaméretek, BIC erősen következetes, azaz, szinte biztosan megtalálja azt, míg AIC nem, mert AIC továbbra is helyezze túlzott posterior valószínűség modellek, amelyek bonyolultabb, mint amilyennek lennie kell. Ha viszont jobban foglalkozunk a hatékonysággal, azaz, minimális átlagos négyzet predikciós hiba, majd aszimptotikusan, AIC és AICc “hatékony”, míg BIC nem.

Burnham and Anderson (1998, 2002) nagyban hozzájárult ahhoz, hogy a Bayes-féle modell-átlagolás és a módszertan népszerűsítése alapötleteihez szélesebb közönség is eljusson. A rendelkezésre álló szoftver, beleértve más ingyenes nyílt forráskódú csomagok R túl a fent említetteken, segített, hogy a módszerek hozzáférhető a szélesebb közönség.

Haussler et al. (1994) kimutatta, hogy amikor a BMA-t osztályozásra használják, várható hibája legfeljebb kétszerese a Bayes optimális osztályozó várható hibájának.

Bayesian model combinationEdit

Bayesian model combination (BMC) egy algoritmikus korrekció Bayes modell átlagolás (BMA). Ahelyett, hogy a mintavétel minden modell a zenekar külön-külön, a mintát a tér lehetséges együttesek (a modell súlyozás véletlenszerűen húzott a Dirichlet engedély, amelyek egységes paraméterek). Ez a módosítás legyőzi a BMA azon tendenciáját, hogy konvergáljon arra, hogy az összes súlyt egyetlen modellhez adja. Bár a BMC valamivel számításilag drágább, mint a BMA,általában drámaian jobb eredményeket hoz. A BMC eredményei átlagban (statisztikai szignifikanciával) jobbak, mint a BMA és a zacskó.

Bayes törvényének használata a modellsúlyok kiszámításához szükségessé teszi az egyes modellek adatainak valószínűségének kiszámítását. Általában az együttes egyik modellje sem pontosan az a disztribúció, amelyből a képzési adatok keletkeztek, így mindegyikük helyesen kap egy nullához közeli értéket erre a kifejezésre. Ez jól működne, ha az együttes elég nagy lenne ahhoz, hogy megkóstolja a teljes modellterületet, de ez ritkán lehetséges. Következésképpen a képzési adatok minden egyes mintája miatt az együttes súlya a képzési adatok elosztásához legközelebb eső együttes modellje felé tolódik. Ez lényegében csökkenti a szükségtelenül összetett módszer csinál modell kiválasztása.

az együttes lehetséges súlyozása egy szimplexen fekve ábrázolható. A simplex minden csúcsán az összes súlyt egyetlen modellnek adják az együttesben. A BMA a képzési adatok eloszlásához legközelebb eső csúcs felé konvergál. Ezzel szemben a BMC arra a pontra konvergál, ahol ez az elosztás a simplexre vetül. Más szavakkal, ahelyett, hogy kiválasztaná azt a modellt, amely a legközelebb áll a generáló eloszláshoz, olyan modellek kombinációját keresi, amelyek a legközelebb állnak a generáló eloszláshoz.

a BMA eredményei gyakran közelíthetők keresztellenőrzéssel, hogy kiválasszák a legjobb modellt egy vödör modellből. Hasonlóképpen, a BMC eredményei közelíthetők a keresztellenőrzés használatával, hogy kiválasszák a legjobb együttes kombinációt a lehetséges súlyozások véletlenszerű mintavételéből.

Bucket of modelsEdit

a” bucket of models ” egy olyan együttes technika, amelyben egy modellválasztási algoritmust használnak az egyes problémák legjobb modelljének kiválasztására. Ha csak egy problémával tesztelik, egy vödör modell nem képes jobb eredményeket elérni, mint a készlet legjobb modellje, de sok probléma esetén általában sokkal jobb eredményeket fog elérni, átlagosan, mint a készlet bármely modellje.

a modellválasztáshoz használt leggyakoribb megközelítés a keresztellenőrzés kiválasztása (néha “sütési versenynek”nevezik). A következő pszeudo-kóddal írjuk le:

For each model m in the bucket: Do c times: (where 'c' is some constant) Randomly divide the training dataset into two datasets: A, and B. Train m with A Test m with BSelect the model that obtains the highest average score

a kereszt-validációs kiválasztás összefoglalható: “próbáld ki mindet a képzési készlettel, és vedd fel azt, amelyik a legjobban működik”.

A Gating a keresztellenőrzés kiválasztásának általánosítása. Ez magában foglalja egy másik tanulási modell képzését annak eldöntésére, hogy a vödörben lévő modellek közül melyik a legmegfelelőbb a probléma megoldására. Gyakran perceptront használnak a kapuzási modellhez. Ezt fel lehet használni, hogy vegye a “legjobb” modell, vagy lehet használni, hogy egy lineáris súlyt a jóslatok minden modell a vödörben.

Ha egy vödörnyi modellt használnak nagy számú problémával, kívánatos lehet elkerülni néhány olyan modell képzését, amely hosszú időt vesz igénybe a vonat. A Landmark learning egy meta-tanulási megközelítés, amely megpróbálja megoldani ezt a problémát. Ez magában foglalja a képzés csak a gyors (de pontatlan) algoritmusok a vödörben, majd a teljesítmény ezen algoritmusok, hogy segítsen meghatározni, hogy melyik lassú (de pontos) algoritmus a legvalószínűbb, hogy nem a legjobb.

StackingEdit

Stacking (néha halmozott általánosítás) magában foglalja a képzés egy tanulási algoritmus, hogy összekapcsolják a jóslatok több más tanulási algoritmusok. Először is, az összes többi algoritmust a rendelkezésre álló adatok felhasználásával képzik, majd egy kombináló algoritmust kiképeznek arra, hogy végső előrejelzést készítsen a többi algoritmus összes előrejelzésével további bemenetként. Ha tetszőleges kombináló algoritmust használnak, akkor a halmozás elméletileg reprezentálhatja az ebben a cikkben leírt együttes technikákat, bár a gyakorlatban gyakran logisztikai regressziós modellt használnak kombinátorként.

a halmozás általában jobb teljesítményt nyújt, mint bármelyik képzett modell. Sikeresen alkalmazták mind felügyelt tanulási feladatokon (regresszió, osztályozás és távoktatás), mind felügyelet nélküli tanuláson (sűrűségbecslés). Emellett a hibaarány csökkentésére is használták. Azt jelentették, hogy Out-végre Bayes modell-átlagolás.A Netflix verseny két legjobb előadója a keverést alkalmazta, ami a halmozás egyik formájának tekinthető.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük