Ensemble learning

Bayes optimal classifierEdit

Bayes optimal classifier är en klassificeringsteknik. Det är en ensemble av alla hypoteser i hypotesutrymmet. I genomsnitt kan inget annat ensemble överträffa det. Naive Bayes optimal classifier är en version av detta som förutsätter att data är villkorligt oberoende av klassen och gör beräkningen mer genomförbar. Varje hypotes ges en röst som är proportionell mot sannolikheten för att träningsdatasetet skulle samplas från ett system om den hypotesen var sant. För att underlätta träningsdata av ändlig storlek multipliceras också omröstningen för varje hypotes med den tidigare sannolikheten för den hypotesen. Bayes optimala klassificerare kan uttryckas med följande ekvation:

y = a r g M a X c J C. C. C. C. C. H. I. C. H. P ( C. j | H i ) P ( T. | H. I ) P ( H. I. ) {\displaystyle y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{H. I.}\in H.} {P(C. J.}|H_{i})P(T|h_{i})P(h_{i})}}

där y {\displaystyle Y} är den förutsagda klassen, C {\displaystyle C} är uppsättningen av alla möjliga klasser, H {\displaystyle H} är hypotesutrymmet, p {\displaystyle P} hänvisar till en sannolikhet och t {\displaystyle t} är träningsdata. Som en ensemble representerar Bayes optimala klassificerare en hypotes som inte nödvändigtvis finns i H {\displaystyle H} . Hypotesen representerad av Bayes optimala klassificerare är emellertid den optimala hypotesen i ensembleutrymme (utrymmet för alla möjliga ensembler som endast består av hypoteser i H {\displaystyle H} ).

denna formel kan omräknas med Bayes sats, som säger att den bakre är proportionell mot sannolikheten gånger den tidigare:

P ( h i | T) C ( T | H i ) P ( h I ) {\displaystyle P(h_{i}|t)\propto P(T|h_{i})p(h_{i})}

därför

y = a R G M A x c j c c c c c c c i c h p ( c j | h i ) P ( h I | T ) {\displaystyle y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{H_{i}\in H}{P(C_{j}|H_{i})p(H_{i}|t)}}

Bootstrap aggregating (bagging)redigera

Huvudartikel: Bootstrap aggregating

Bootstrap aggregating, ofta förkortat som bagging, innebär att varje modell i ensemblet röstar med samma vikt. För att främja modellvarians tränar bagging varje modell i ensemblet med en slumpmässigt ritad delmängd av träningssatsen. Som ett exempel kombinerar random forest-algoritmen slumpmässiga beslutsträd med uppsamlare för att uppnå mycket hög klassificeringsnoggrannhet.

vid säckning genereras proverna på ett sådant sätt att proverna skiljer sig från varandra, men ersättning är tillåten. Ersättning innebär att en instans kan förekomma i flera prover en flera gånger eller det kan inte visas i vissa prover alls. Dessa prover ges sedan till flera elever och sedan kombineras resultaten från varje elev i form av omröstning.

BoostingEdit

Huvudartikel: öka (meta-algoritm)

Öka innebär stegvis bygga en ensemble genom att träna varje ny modell instans att betona utbildning instanser som tidigare modeller mis-klassificerade. I vissa fall, öka har visat sig ge bättre noggrannhet än säckväv, men det tenderar också att vara mer benägna att over-fit träningsdata. Överlägset är den vanligaste implementeringen av boosting Adaboost, även om vissa nyare algoritmer rapporteras för att uppnå bättre resultat.

vid ökning ges en lika stor vikt (enhetlig sannolikhetsfördelning) till provträningsdata (säg D1) i början. Dessa data (D1) ges sedan till en baslärare (säg L1). De felklassificerade instanserna av L1 tilldelas en vikt högre än de korrekt klassificerade instanserna, men med tanke på att den totala sannolikhetsfördelningen kommer att vara lika med 1. Denna förstärkta data (säg D2) ges sedan till andra baslärare (säg L2) och så vidare. Resultaten kombineras sedan i form av omröstning.

Bayesian model averagingEdit

Bayesian model averaging (BMA) gör förutsägelser med ett genomsnitt över flera modeller med vikter som ges av den bakre sannolikheten för varje modell med tanke på data. BMA är känt för att generellt ge bättre svar än en enda modell, erhållen, t.ex. via stegvis regression, särskilt där mycket olika modeller har nästan identisk prestanda i träningsuppsättningen men annars kan fungera ganska annorlunda.

den mest uppenbara frågan med någon teknik som använder Bayes sats är den tidigare, dvs en specifikation av sannolikheten (subjektiv, kanske) att varje modell är bäst att använda för ett givet ändamål. Konceptuellt kan BMA användas med någon tidigare. EnsembleBMA-och BMA-paketen för R använder det tidigare underförstått av Bayesian information criterion, (BIC), efter Raftery (1995). BAS-paketet för R stöder användningen av de priorer som Akaike information criterion (AIC) och andra kriterier för alternativa modeller samt priors över koefficienterna.

skillnaden mellan BIC och AIC är styrkan i preferensen för parsimony. Straffet för modellkomplexitet är ln ( n ) k {\displaystyle \ln(n)k} för BIC och 2 k {\displaystyle 2k} för AIC. Stort prov asymptotisk teori har visat att om det finns en bästa modell då med ökande provstorlekar, är BIC starkt konsekvent, dvs kommer nästan säkert att hitta det, medan AIC kanske inte, eftersom AIC kan fortsätta att placera överdriven bakre sannolikhet på modeller som är mer komplicerade än de behöver vara. Om vi å andra sidan är mer intresserade av effektivitet, dvs., minsta genomsnittliga kvadratprognosfel, då asymptotiskt, AIC och AICc är ”effektiva” medan BIC inte är det.

Burnham och Anderson (1998, 2002) bidrog starkt till att introducera en bredare publik till de grundläggande ideerna om Bayesiansk modell i genomsnitt och popularisera metoden. Tillgängligheten av programvara, inklusive andra gratis open-source-paket för R utöver de som nämns ovan, hjälpte till att göra metoderna tillgängliga för en bredare publik.

Haussler et al. (1994) visade att när BMA används för klassificering är dess förväntade fel högst dubbelt så mycket som det förväntade felet i Bayes optimala klassificerare.

Bayesian model combinationEdit

Bayesian model combination (BMC) är en algoritmisk korrigering av Bayesian model averaging (BMA). Istället för att provtagning varje modell i ensemblen individuellt, det prover från utrymmet för möjliga ensembler (med modellvikter dras slumpmässigt från en Dirichlet fördelning med enhetliga parametrar). Denna modifiering övervinner BMA: s tendens att konvergera mot att ge all vikt till en enda modell. Även om BMC är något mer beräkningsmässigt dyrt än BMA, tenderar det att ge dramatiskt bättre resultat. Resultaten från BMC har visat sig vara bättre i genomsnitt (med statistisk signifikans) än BMA och bagging.användningen av Bayes lag för att beräkna modellvikter kräver beräkning av sannolikheten för de data som ges varje modell. Vanligtvis är ingen av modellerna i ensemblet exakt den fördelning från vilken träningsdata genererades, så alla får korrekt ett värde nära noll för denna term. Detta skulle fungera bra om ensemblet var tillräckligt stort för att prova hela modellutrymmet, men det är sällan möjligt. Följaktligen kommer varje mönster i träningsdata att få ensemblevikten att skifta mot modellen i ensemblet som ligger närmast fördelningen av träningsdata. Det minskar i huvudsak till en onödigt komplex metod för att göra modellval.

de möjliga viktningarna för en ensemble kan visualiseras som liggande på en simplex. Vid varje toppunkt av simplexen ges all vikt till en enda modell i ensemblet. BMA konvergerar mot vertexen som ligger närmast fördelningen av träningsdata. Däremot konvergerar BMC mot den punkt där denna distribution projicerar på simplexen. Med andra ord, istället för att välja den modell som ligger närmast genereringsdistributionen, söker den kombinationen av modeller som ligger närmast genereringsdistributionen.

resultaten från BMA kan ofta approximeras genom att använda korsvalidering för att välja den bästa modellen från en hink med modeller. På samma sätt kan resultaten från BMC approximeras genom att använda korsvalidering för att välja den bästa ensemblekombinationen från ett slumpmässigt urval av möjliga viktningar.

hink med modelsEdit

en ”hink med modeller” är en ensembleteknik där en modellvalsalgoritm används för att välja den bästa modellen för varje problem. När de testas med bara ett problem, en hink med modeller kan ge några bättre resultat än den bästa modellen i uppsättningen, men när utvärderas över många problem, det kommer vanligtvis att ge mycket bättre resultat, i genomsnitt, än någon modell i uppsättningen.

den vanligaste metoden som används för modellval är val av korsvalidering (ibland kallad ”bake-off-tävling”). Det beskrivs med följande pseudokod:

For each model m in the bucket: Do c times: (where 'c' is some constant) Randomly divide the training dataset into two datasets: A, and B. Train m with A Test m with BSelect the model that obtains the highest average score

Korsvalideringsval kan sammanfattas som: ”prova dem alla med träningsuppsättningen och välj den som fungerar bäst”.

Gating är en generalisering av Korsvalideringsval. Det handlar om att träna en annan inlärningsmodell för att bestämma vilken av modellerna i hinken som är bäst lämpad för att lösa problemet. Ofta används en perceptron för grindmodellen. Den kan användas för att välja den ”bästa” modellen, eller den kan användas för att ge en linjär vikt till förutsägelserna från varje modell i hinken.

När en hink med modeller används med en stor uppsättning problem kan det vara önskvärt att undvika att träna några av de modeller som tar lång tid att träna. Landmark learning är ett meta-lärande tillvägagångssätt som syftar till att lösa detta problem. Det handlar bara om att träna de snabba (men oprecisa) algoritmerna i hinken och sedan använda prestanda för dessa algoritmer för att avgöra vilken långsam (men exakt) algoritm som är mest sannolikt att göra bäst.

StackingEdit

stapling (ibland kallad staplad generalisering) innebär att träna en inlärningsalgoritm för att kombinera förutsägelserna för flera andra inlärningsalgoritmer. Först utbildas alla andra algoritmer med hjälp av tillgängliga data, sedan tränas en kombineringsalgoritm för att göra en slutlig förutsägelse med alla förutsägelser av de andra algoritmerna som ytterligare ingångar. Om en godtycklig kombineringsalgoritm används kan stapling teoretiskt representera någon av ensembleteknikerna som beskrivs i denna artikel, även om en logistisk regressionsmodell i praktiken ofta används som kombinerare.

stapling ger vanligtvis prestanda bättre än någon av de utbildade modellerna. Det har framgångsrikt använts på både övervakade inlärningsuppgifter (regression, klassificering och distansutbildning )och oövervakat lärande (densitetsuppskattning). Det har också använts toestimate baggings felfrekvens. Det har rapporterats att utföra Bayesian modellmedelvärde.De två toppartisterna i Netflix-tävlingen använde blandning, vilket kan anses vara en form av stapling.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *