Ensemble learning

Bayes optimal classifierEdit

Bayes optimal classifier er en klassifiseringsteknikk. Det er et ensemble av alle hypotesene i hypoteserommet. I gjennomsnitt kan ingen andre ensembler overgå det. Naive Bayes optimal classifier er en versjon av dette som forutsetter at dataene er betinget uavhengig av klassen og gjør beregningen mer mulig. Hver hypotese er gitt en stemme proporsjonal med sannsynligheten for at treningsdatasettet ville bli samplet fra et system hvis den hypotesen var sant. For å lette treningsdata av endelig størrelse, blir avstemningen av hver hypotese også multiplisert med den tidligere sannsynligheten for den hypotesen. Bayes optimale klassifikatoren kan uttrykkes med følgende ligning:

y = a r g m a x c j ∈ C ∑ h i ∈ h ( c j | h i ) P ( T | h i ) p ( h i ) {\displaystyle y={\underset {c_{j}\I C}{\mathrm {argmax} }}\sum _{h_{i}\i H}{p(c_{j}|h_{i})P(T|h_{i})P(h_{i})}

hvor y {\displaystyle y} er den forutsagte klassen, c {\displaystyle c} er mengden av alle mulige klasser, H {\displaystyle h} er hypotesens rom, p {\displaystyle p} refererer til en sannsynlighet, og t {\displaystyle t} er treningsdataene. Som et ensemble representerer Bayes ‘ optimale klassifikator en hypotese som ikke nødvendigvis er I h {\displaystyle h} . Hypotesen representert Ved Bayes ‘ optimale klassifikator er imidlertid den optimale hypotesen i ensemblerommet (rommet til alle mulige ensembler som bare består av hypoteser I H {\displaystyle h}).

denne formelen kan omformuleres Ved Hjelp Av Bayes ‘ teorem, som sier at den bakre er proporsjonal med sannsynligheten ganger den tidligere:

P ( h i | T) Hryvnias P ( T | h i ) p ( h i ) {\displaystyle P(h_{i}|T)\propto P(T|h_{i})P(h_{i})}

derfor

y = en r g m en x c j ∈ c ∑ h i ∈ h ( c j | h i ) P ( h i | T ) {\displaystyle y={\underset {c_{j}\in c}{\displaystyle y = {\underset{c_{j}\in c} {\mathrm{Argmax}}} \ Sum _{H_{i} \ in h} {p(c_ {J}|h_ {i}) p(h_ {i}|t)}}

bootstrap aggregating (bagging)edit

hovedartikkel: bootstrap aggregating

bootstrap aggregating, Ofte Forkortet som bagging, Innebærer å ha hver modell i ensemblet stemme med lik vekt. For å fremme modellvarians trener bagging hver modell i ensemblet ved hjelp av en tilfeldig trukket delmengde av treningssettet. Som et eksempel kombinerer random forest-algoritmen tilfeldige beslutningstrær med bagging for å oppnå svært høy klassifiseringsnøyaktighet.

i bagging blir prøvene generert på en slik måte at prøvene er forskjellige fra hverandre, men erstatning er tillatt. Erstatning betyr at en forekomst kan forekomme i flere prøver flere ganger, eller det kan ikke vises i noen prøver i det hele tatt. Disse prøvene blir deretter gitt til flere elever, og deretter kombineres resultatene fra hver elev i form av avstemning.

BoostingEdit

Hovedartikkel: Boosting (meta-algoritme)

Boosting innebærer trinnvis å bygge et ensemble ved å trene hver ny modellforekomst for å understreke treningsforekomstene som tidligere modeller feilklassifiserte. I noen tilfeller har boosting vist seg å gi bedre nøyaktighet enn bagging, men det har også en tendens til å være mer sannsynlig å overpass treningsdataene. Langt den vanligste implementeringen Av boosting Er Adaboost, selv om noen nyere algoritmer rapporteres for å oppnå bedre resultater.

I Boosting blir en lik vekt (jevn sannsynlighetsfordeling) gitt til prøvetreningsdataene (si D1) helt i startrunden. Disse dataene (D1) blir deretter gitt til en base elev (si L1). De feilklassifiserte forekomstene Av L1 er tildelt en vekt høyere enn de korrekt klassifiserte forekomstene, men husk at den totale sannsynlighetsfordelingen vil være lik 1. Denne økte data (si D2) blir deretter gitt til andre base elev (si L2) og så videre. Resultatene kombineres deretter i form av avstemning.

bayesiansk modell gjennomsnittrediger

Bayesiansk modell gjennomsnitt (bma) gjør spådommer ved å bruke et gjennomsnitt over flere modeller med vekter gitt av den bakre sannsynligheten for hver modell gitt dataene. BMA er kjent for å generelt gi bedre svar enn en enkelt modell, oppnådd, for eksempel via trinnvis regresjon, spesielt hvor svært forskjellige modeller har nesten identisk ytelse i treningssettet, men ellers kan utføre ganske annerledes.Det mest åpenbare spørsmålet med en hvilken som helst teknikk som bruker Bayes ‘ teorem er prior, dvs. en spesifikasjon av sannsynligheten (subjektiv, kanskje) at hver modell er best å bruke for et gitt formål. Konseptuelt KAN BMA brukes med noen tidligere. EnsembleBMA-og bma-pakkene for R bruker prioren underforstått Av Bayesian information criterion, (BIC), etter Raftery (1995). Bas-pakken for R støtter bruken Av priorene underforstått Av Akaike information criterion (Aic) og andre kriterier over de alternative modellene, samt priorer over koeffisientene.

forskjellen MELLOM BIC og AIC er styrken av preferanse for parsimoni. Straffen for modellkompleksitet er ln ⁡ (n ) k {\displaystyle \ ln (n)k} FOR BIC og 2 k {\displaystyle 2k} for AIC. Stor prøve asymptotisk teori har fastslått at HVIS det er en best modell da med økende utvalgsstørrelser, ER BIC sterkt konsistent, dvs. vil nesten helt sikkert finne DET, MENS AIC kanskje ikke, FORDI AIC kan fortsette å plassere overdreven bakre sannsynlighet på modeller som er mer kompliserte enn de trenger å være. Hvis vi derimot er mer opptatt av effektivitet, dvs., minimum gjennomsnittlig kvadratisk prediksjonsfeil, så asymptotisk, AIC og AICc er «effektive» mens BIC ikke er.Burnham Og Anderson (1998, 2002) bidro sterkt til å introdusere et bredere publikum til de grunnleggende ideene Til bayesiansk modell i snitt og popularisering av metodikken. Tilgjengeligheten av programvare, inkludert andre gratis åpen kildekode-pakker for R utover de som er nevnt ovenfor, bidro til å gjøre metodene tilgjengelige for et bredere publikum.

Haussler et al. (1994) viste at NÅR BMA brukes til klassifisering, er den forventede feilen høyst dobbelt den forventede feilen Til Bayes optimal classifier.BAYESIANSK modellkombinasjon (BMC) Er en algoritmisk korreksjon til bayesiansk modell gjennomsnitt (bma). I stedet for å prøve hver modell i ensemblet individuelt, prøver den fra rommet til mulige ensembler (med modellvekter trukket tilfeldig fra En Dirichlet-distribusjon med ensartede parametere). Denne modifikasjonen overvinner tendensen TIL BMA å konvergere mot å gi all vekten til en enkelt modell. SELV OM BMC er noe mer beregningsmessig dyrt ENN BMA, har DET en tendens til å gi dramatisk bedre resultater. RESULTATENE FRA BMC har vist seg å være bedre i gjennomsnitt (med statistisk signifikans) enn BMA og bagging.Bruken Av Bayes ‘ lov til å beregne modellvekter krever beregning av sannsynligheten for dataene gitt hver modell. Vanligvis er ingen av modellene i ensemblet nøyaktig fordelingen som treningsdataene ble generert fra, slik at alle av dem mottar en verdi nær null for denne termen. Dette ville fungere bra hvis ensemblet var stort nok til å prøve hele modellrommet, men det er sjelden mulig. Følgelig vil hvert mønster i treningsdataene føre til at ensemblets vekt skifter mot modellen i ensemblet som er nærmest fordelingen av treningsdataene. Det reduserer i hovedsak til en unødvendig kompleks metode for å gjøre modellvalg.

de mulige vektene for et ensemble kan visualiseres som å ligge på en simplex. Ved hvert toppunkt av simplex er all vekt gitt til en enkelt modell i ensemblet. BMA konvergerer mot toppunktet som er nærmest fordelingen av treningsdataene. DERIMOT konvergerer BMC mot punktet der denne distribusjonen projiserer på simplex. Med andre ord, i stedet for å velge den modellen som er nærmest genereringsfordelingen, søker den kombinasjonen av modeller som er nærmest genereringsfordelingen.

resultatene FRA BMA kan ofte tilnærmes ved å bruke kryssvalidering for å velge den beste modellen fra en bøtte med modeller. På samme måte kan RESULTATENE FRA BMC tilnærmes ved å bruke kryssvalidering for å velge den beste ensemblekombinasjonen fra et tilfeldig utvalg av mulige vekter.

Bucket of modelsEdit

en «bucket of models» Er en ensembleteknikk der en modellvalgsalgoritme brukes til å velge den beste modellen for hvert problem. Når testet med bare ett problem, en bøtte med modeller kan produsere noen bedre resultater enn den beste modellen i settet, men når evaluert på tvers av mange problemer, vil det vanligvis gi mye bedre resultater, i gjennomsnitt, enn noen modell i settet.

den vanligste tilnærmingen som brukes for modellvalg er kryssvalideringsvalg(noen ganger kalt en «bake-off-konkurranse»). Det er beskrevet med følgende pseudokode:

For each model m in the bucket: Do c times: (where 'c' is some constant) Randomly divide the training dataset into two datasets: A, and B. Train m with A Test m with BSelect the model that obtains the highest average score

Kryssvalideringsvalg kan oppsummeres som: «prøv dem alle med treningssettet, og velg det som fungerer best».

Gating er en generalisering Av Kryssvalideringsvalg. Det innebærer å trene en annen læringsmodell for å bestemme hvilken av modellene i bøtte som passer best for å løse problemet. Ofte brukes en perceptron til gating-modellen. Den kan brukes til å velge den» beste » modellen, eller den kan brukes til å gi en lineær vekt til spådommene fra hver modell i bøtte.

når en bøtte med modeller brukes med et stort sett med problemer, kan det være ønskelig å unngå å trene noen av modellene som tar lang tid å trene. Landemerke læring er en meta-læring tilnærming som søker å løse dette problemet. Det innebærer å trene bare de raske (men upresise) algoritmene i bøtte, og deretter bruke ytelsen til disse algoritmene for å avgjøre hvilken langsom (men nøyaktig) algoritme som mest sannsynlig vil gjøre det beste.

StackingEdit

Stabling (noen ganger kalt stablet generalisering) innebærer å trene en læringsalgoritme for å kombinere forutsigelsene til flere andre læringsalgoritmer. Først blir alle de andre algoritmene trent ved hjelp av tilgjengelige data, så blir en kombinasjonsalgoritme trent til å lage en endelig prediksjon ved å bruke alle forutsigelsene til de andre algoritmene som ekstra innganger. Hvis en vilkårlig kombinasjonsalgoritme brukes, kan stabling teoretisk representere noen av ensembleteknikkene beskrevet i denne artikkelen, selv om en logistisk regresjonsmodell i praksis ofte brukes som kombinator.

Stabling gir vanligvis bedre ytelse enn noen av de trente modellene. Det har blitt brukt på både veiledet læringsoppgaver (regresjon, klassifisering og fjernundervisning) og uten tilsyn læring (tetthet estimering). Det har også blitt brukt toestimate bagging feilrate. Det har blitt rapportert å utføre Bayesiansk modell-gjennomsnitt.De to topp-utøvere I Netflix konkurransen benyttet blanding, som kan anses å være en form for stabling.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *