Ensemble learning

Bayes optimal classifierEdit

Bayes optimal classifier on luokittelutekniikka. Se on kokonaisuus kaikista hypoteesiavaruuden hypoteeseista. Keskimäärin mikään muu kokonaisuus ei päihitä sitä. Naiivi Bayes optimal classifier on versio tästä, joka olettaa, että tiedot ovat ehdollisesti riippumattomia luokasta ja tekee laskemisesta toteuttamiskelpoisempaa. Jokaiselle hypoteesille annetaan ääni, joka on verrannollinen todennäköisyyteen, että koulutusaineistosta otettaisiin näyte järjestelmästä, jos kyseinen hypoteesi olisi tosi. Äärellisen kokoisten koulutustietojen helpottamiseksi jokaisen hypoteesin ääni kerrotaan myös kyseisen hypoteesin ennakkotodennäköisyydellä. Bayesin optimiluokitus voidaan ilmaista seuraavalla yhtälöllä:

y = A r g m a x c j ∈ c ∑ h i ∈ H P ( C J | h i ) p ( T | h i ) P ( h i ) {\displaystyle y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{H_{i}\in H}{P(c_{j}|H_{i})p(T|h_{i})p(H_{i})}

missä y {\displaystyle Y} on ennustettu luokka, C {\displaystyle c} on kaikkien mahdollisten luokkien joukko, h {\displaystyle h} on hypoteesiavaruus, P {\displaystyle p} viittaa todennäköisyyteen ja T {\displaystyle T} on harjoitustiedot. Kokonaisena Bayes optimal classifier edustaa hypoteesia, joka ei välttämättä ole h {\displaystyle H} . Bayes optimal classifierin edustama hypoteesi on kuitenkin optimaalihypoteesi ensemble-avaruudessa (kaikkien mahdollisten kokonaisuuksien tila, joka koostuu vain hypoteeseista h {\displaystyle h}: ssä ).

Tämä kaava voidaan oikaista Bayesin lauseella, jonka mukaan posteriori on verrannollinen todennäköisyyskertoihin:

P ( h i | T ) ∝ P ( T | h i ) p ( h i ) {\displaystyle P(H_{i}|T)\propto P(T|h_{i})p(H_{i})}

näin ollen

y = A R g M a x c j ∈ c ∑ h i ∈ H P ( C j | h i ) P ( H i | T ) {\displaystyle y={\underset {c_{j}\in C}{\mathrm {argmax} }}\Sum _{H_{i}\in H}{P(C_{J}|H_{i})p(H_{i}|t)}}

Bootstrap-aggregointi (pussitus)edit

pääartikkeli: Bootstrap-aggregointi

Bootstrap-aggregointi, usein lyhennettynä pussitus, tarkoittaa sitä, että jokainen malli on kokonaisäänestyksessä yhtä painava. Mallivarianssin edistämiseksi pussitus kouluttaa jokaista kokonaisuuden mallia käyttäen satunnaisesti arvottua koulutussarjan osajoukkoa. Esimerkiksi satunnaismetsäalgoritmi yhdistää satunnaispäätöspuut pussitukseen saavuttaakseen erittäin korkean luokittelutarkkuuden.

pussituksessa näytteet syntyvät siten, että näytteet ovat keskenään erilaisia, mutta uusiminen on sallittua. Korvaaminen tarkoittaa, että esimerkiksi voi esiintyä useita näytteitä useita kertoja tai se ei näy joissakin näytteissä lainkaan. Nämä näytteet annetaan sitten useille oppijoille, minkä jälkeen jokaisen oppijan tulokset yhdistetään äänestyksen muodossa.

BoostingEdit

Pääartikkeli: Boosting (meta-algoritmi)

Boosting liittyy asteittain kokonaisuuden rakentamiseen kouluttamalla jokaista uutta malliastetta korostamaan edellisten mallien väärin luokittelemia koulutusasteita. Joissakin tapauksissa tehostamisen on osoitettu tuottavan parempaa tarkkuutta kuin pussittamisen, mutta se myös yleensä ylimitoittaa harjoitustietoja. Ylivoimaisesti yleisin tehostamisen toteutus on Adaboost, joskin joidenkin uudempien algoritmien kerrotaan saavuttavan parempia tuloksia.

tehostamisessa annetaan samansuuruinen painoarvo (yhtenäinen todennäköisyysjakauma) otosharjoitustiedoille (sano D1) heti aloituskierroksella. Tämä tieto (D1) annetaan sitten perusoppijalle (sano L1). L1: n väärin luokitelluille esiintymille annetaan suurempi paino kuin oikein luokitelluille esiintymille, mutta pidetään mielessä, että kokonaistodennäköisyysjakauma on yhtä suuri kuin 1. Tämä kasvatti tiedot (sanoa D2) annetaan sitten toinen pohja oppija (sanoa L2) ja niin edelleen. Tämän jälkeen tulokset yhdistetään äänestyksen muodossa.

Bayesilaisen mallin keskiarvoedit

Bayesilaisen mallin keskiarvoindeksi (BMA) tekee ennusteita käyttäen useiden mallien keskiarvoa, jonka painoarvo on annettu kunkin mallin posteriorisen todennäköisyyden perusteella. BMA: n tiedetään yleensä antavan parempia vastauksia kuin yksittäinen malli, joka saadaan esimerkiksi Porrastetun regression avulla, erityisesti silloin, kun hyvin eri mallien suorituskyky on lähes sama harjoitussarjassa, mutta ne voivat muuten toimia aivan eri tavalla.

ilmeisin kysymys millä tahansa Bayesin teoreemaa hyödyntävällä tekniikalla on sitä edeltävä eli sen todennäköisyyden (Subjektiivinen, ehkä) määrittely, jota kukin malli on paras käyttää tiettyyn tarkoitukseen. Käsitteellisesti BMA: ta voidaan käyttää minkä tahansa aikaisemman kanssa. The ensembleBMA and BMA packages for R use the prior implised by the Bayesian information criteria, (BIC), following Raftery (1995). R: n BAS-paketti tukee Akaike information criteria (AIC) – kriteerin ja muiden kriteerien käyttöä vaihtoehtoisten mallien ja priors over the coefficients.

BIC: n ja AIC: n ero on parsimonian suosimisen vahvuus. Mallin monimutkaisuuden rangaistus on LN ⁡ ( n)k {\displaystyle \LN(n) k} BIC: lle ja 2 k {\displaystyle 2k} AIC: lle. Suuri otos asymptoottinen teoria on osoittanut, että jos on olemassa paras malli sitten kasvavilla otoskoot, BIC on vahvasti johdonmukainen, eli, lähes varmasti löytää sen, kun taas AIC voi olla, koska AIC voi edelleen sijoittaa liiallinen posterior todennäköisyys malleja, jotka ovat monimutkaisempia kuin ne on tarpeen. Jos toisaalta olemme enemmän kiinnostuneita tehokkuudesta, ts., minimi keskimääräinen neliö ennustus virhe, sitten asymptoottisesti, AIC ja AICc ovat ”tehokkaita”, kun taas BIC ei ole.

Burnham and Anderson (1998, 2002) vaikutti suuresti siihen, että Bayesilaisen mallin keskiarvoistamisen ja metodologian popularisoinnin perusajatukset tulivat laajemman yleisön tietoisuuteen. Ohjelmistojen saatavuus, mukaan lukien muut edellä mainittujen lisäksi R: lle suunnatut ilmaiset avoimen lähdekoodin paketit, auttoi tuomaan menetelmät laajemman yleisön saataville.

Haussler ym. (1994) osoitti, että kun BMA käytetään luokittelu, sen odotettu virhe on enintään kaksi kertaa odotettu virhe Bayes optimal classifier.

Bayesilainen malliyhdistelmä

Bayesilainen malliyhdistelmä (BMC) on algoritminen korjaus Bayesilaiseen mallikeskiarvoon (BMA). Sen sijaan, että se otettaisiin kustakin kokonaisuuden mallista erikseen, se samplaa mahdollisten kokonaisuuksien tilasta (mallien painotukset piirretään satunnaisesti Dirichlet ’ n jakaumasta, jossa on yhtenäiset parametrit). Tämä muutos voittaa BMA: n taipumuksen lähentyä kohti koko painon antamista yhdelle mallille. Vaikka BMC on jonkin verran laskennallisesti kalliimpi kuin BMA, sillä on taipumus tuottaa huomattavasti parempia tuloksia. Tulokset BMC on osoitettu olevan keskimäärin parempia (tilastollisesti merkitsevästi) kuin BMA, ja pussitus.

Bayesin lain käyttäminen mallien painojen laskemiseen edellyttää kunkin mallin antamien tietojen todennäköisyyden laskemista. Tyypillisesti mikään kokonaisuuden malleista ei ole täsmälleen se jakauma, josta harjoitustiedot on saatu, joten kaikki oikein saavat tälle kaudelle arvon, joka on lähellä nollaa. Tämä toimisi hyvin, jos kokonaisuus olisi tarpeeksi iso koko mallitilaan, mutta sellainen on harvoin mahdollista. Näin ollen jokainen harjoitusaineiston kuvio saa Ensemblen painon siirtymään kohti sitä mallia, joka on lähimpänä harjoitusaineiston jakautumista. Se pohjimmiltaan pelkistyy tarpeettoman monimutkaiseksi menetelmäksi mallivalinnan tekemiseen.

kokonaisuuden mahdolliset painotukset voidaan visualisoida simplexillä makaamiseksi. Simplexin jokaisessa kärkipisteessä kaikki paino annetaan yhdelle mallille kokonaisuudessa. BMA lähentyy kohti huippupistettä, joka on lähimpänä harjoitustietojen jakautumista. Sen sijaan BMC yhtyy pisteeseen, jossa tämä jakauma projisoituu simplexille. Toisin sanoen sen sijaan, että se valitsisi yhden mallin, joka on lähimpänä generoivaa jakaumaa, se etsii mallien yhdistelmää, joka on lähimpänä generoivaa jakaumaa.

BMA: n tuloksia voidaan usein approksimoida käyttämällä ristivalidointia parhaan mallin valitsemiseksi malliämpäristä. Myös BMC: n tuloksia voidaan approksimoida käyttämällä ristivalidointia parhaan yhdistelmäyhdistelmän valitsemiseksi mahdollisten painotusten satunnaisotannan perusteella.

malliämpäri

”malliämpäri” on kokonaisuustekniikka, jossa mallinvalinta-algoritmilla valitaan kullekin ongelmalle paras malli. Vain yhden ongelman kanssa testattuna ämpärillinen malleja ei voi tuottaa parempia tuloksia kuin sarjan paras malli, mutta monien ongelmien kautta arvioituna se tuottaa tyypillisesti keskimäärin paljon parempia tuloksia kuin mikään sarjan malli.

yleisin malli-valinnassa käytetty lähestymistapa on ristivalinta (joskus kutsutaan ”leivontakilpailuksi”). Sitä kuvataan seuraavalla pseudokoodilla:

For each model m in the bucket: Do c times: (where 'c' is some constant) Randomly divide the training dataset into two datasets: A, and B. Train m with A Test m with BSelect the model that obtains the highest average score

Ristivalinta voidaan tiivistää seuraavasti: ”kokeile niitä kaikkia koulutussarjalla, ja valitse se, joka toimii parhaiten”.

Gating on Ristiinvalinnan yleistys. Siihen kuuluu toisen oppimismallin kouluttaminen, jotta voidaan päättää, mikä ämpärissä olevista malleista soveltuu parhaiten ongelman ratkaisemiseen. Porttimallissa käytetään usein perceptronia. Sen avulla voidaan valita ”paras” malli, tai sen avulla voidaan antaa lineaarinen paino kunkin mallin ennusteille ämpärissä.

kun käytössä on ämpärillinen malleja, joissa on suuria ongelmia, voi olla suotavaa välttää joidenkin mallien kouluttamista, joiden kouluttaminen kestää kauan. Landmark learning on meta-oppimisen lähestymistapa, joka pyrkii ratkaisemaan tämän ongelman. Se edellyttää koulutusta vain nopea (mutta epätarkka) algoritmeja ämpäri, ja sitten käyttämällä suorituskykyä näiden algoritmien auttaa määrittämään, mikä hidas (mutta tarkka) algoritmi on todennäköisimmin tehdä parhaiten.

pinoaminen

pinoaminen (jota joskus kutsutaan pinotuksi yleistykseksi) tarkoittaa oppimisalgoritmin kouluttamista yhdistämään useiden muiden oppimisalgoritmien ennusteita. Ensin kaikki muut algoritmit koulutetaan käytettävissä olevan datan avulla, sitten combiner-algoritmi koulutetaan tekemään lopullinen ennustus käyttäen kaikkia muiden algoritmien ennustuksia lisätuloina. Jos käytetään mielivaltaista combiner-algoritmia, pinoaminen voi teoriassa edustaa mitä tahansa tässä artikkelissa kuvatuista ensemble-tekniikoista, vaikka käytännössä yhdistimenä käytetään usein logistista regressiomallia.

pinoaminen tuottaa tyypillisesti paremman suorituskyvyn kuin mikään yksittäinen koulutettu malli. Sitä on käytetty menestyksekkäästi sekä valvotuissa oppimistehtävissä (regressio, luokittelu ja etäopetus )että valvomattomassa oppimisessa (tiheyden arviointi). Sitä on käytetty myös pussituksen virhetason arvioimiseen. Sen on raportoitu päihittävän Bayesilaisen mallin keskiarvon.Netflix-kilpailun kaksi kärkisijaa hyödynsivät blendingiä, jota voidaan pitää eräänlaisena pinoamisena.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *