Bayes optimal classifierEdit
Bayes optimal classifier er en klassificeringsteknik. Det er et ensemble af alle hypoteserne i hypoteserummet. I gennemsnit kan intet andet ensemble overgå det. Den naive Bayes optimale klassifikator er en version af dette, der antager, at dataene er betinget uafhængige af klassen og gør beregningen mere gennemførlig. Hver hypotese får en stemme, der er proportional med sandsynligheden for, at træningsdatasættet ville blive samplet fra et system, hvis denne hypotese var sand. For at lette træningsdata af endelig størrelse multipliceres afstemningen for hver hypotese også med den forudgående Sandsynlighed for denne hypotese. Bayes optimale klassifikator kan udtrykkes med følgende ligning:
y = a r g m a c j l k h i L K H P ( c j | h i ) P ( T | h i ) P ( h i ) {\displaystyle y={\underset {c_{j}\in C}{\mathrm {argmaks} }}\sum _{h_{i}\in H}{P(c_{j}|H_{i})P(T|H_{i})P(h_{i})}}
hvor y {\displaystyle Y} er den forudsagte klasse, C {\displaystyle C} er sættet af alle mulige klasser, h {\displaystyle H} er hypoteserummet, p {\displaystyle p} henviser til en sandsynlighed, og t {\displaystyle t} er træningsdataene. Som et ensemble repræsenterer Bayes optimale klassifikator en hypotese, der ikke nødvendigvis er i h {\displaystyle H} . Hypotesen repræsenteret af Bayes optimale klassifikator er imidlertid den optimale hypotese i ensemblerum (rummet for alle mulige ensembler, der kun består af hypoteser i h {\displaystyle H} ).
denne formel kan omformuleres ved hjælp af Bayes ‘ sætning, som siger, at den bageste er proportional med sandsynligheden gange den tidligere:
P ( h i | T) P ( T | h i ) P ( h i ) {\displaystyle P(H_{i}|T)\propto P(T|H_{i})P(h_{i})}
derfor
y = a r g m a c j j c j i ) P ( c j | h i) P ( h i | T) {\displaystyle y={\underset {c_{j}\in C} {
Bootstrap aggregering(sække) rediger
Hovedartikel: Bootstrap aggregering
Bootstrap aggregering, ofte forkortet som sække, indebærer at have hver model i ensemblet stemme med samme vægt. For at fremme modelvarians træner sække hver model i ensemblet ved hjælp af en tilfældigt tegnet delmængde af træningssættet. Som et eksempel kombinerer random forest-algoritmen tilfældige beslutningstræer med sække for at opnå meget høj klassificeringsnøjagtighed.
Ved sækning genereres prøverne på en sådan måde, at prøverne er forskellige fra hinanden, men udskiftning er tilladt. Udskiftning betyder, at en forekomst kan forekomme i flere prøver flere gange, eller at den slet ikke kan vises i nogle prøver. Disse prøver gives derefter til flere elever, og derefter kombineres resultaterne fra hver elev i form af afstemning.
BoostingEdit
Hovedartikel: Boosting (meta-algoritme)
Boosting involverer trinvis opbygning af et ensemble ved at træne hver ny modelinstans for at understrege de træningsinstanser, som tidligere modeller fejlagtigt klassificerede. I nogle tilfælde har boosting vist sig at give bedre nøjagtighed end sække, men det har også en tendens til at være mere tilbøjelige til at overmontere træningsdataene. Langt den mest almindelige implementering af boosting er Adaboost, selvom nogle nyere algoritmer rapporteres at opnå bedre resultater.
Ved Boosting gives en lige vægt (ensartet sandsynlighedsfordeling) til prøveuddannelsesdataene (siger D1) helt i startrunden. Disse data (D1) gives derefter til en basislærer (siger L1). De mis-klassificerede forekomster af L1 tildeles en vægt, der er højere end de korrekt klassificerede forekomster, men husk at den samlede sandsynlighedsfordeling vil være lig med 1. Disse boostede data (siger D2) gives derefter til anden baselærer (siger L2) og så videre. Resultaterne kombineres derefter i form af afstemning.
Bayesian model averagingEdit
Bayesian model averaging (BMA) gør forudsigelser ved hjælp af et gennemsnit over flere modeller med vægte givet af den bageste Sandsynlighed for hver model givet dataene. BMA er kendt for generelt at give bedre svar end en enkelt model, opnået, f.eks. via trinvis regression, især hvor meget forskellige modeller har næsten identisk præstation i træningssættet, men ellers kan udføre helt anderledes.
det mest oplagte spørgsmål med enhver teknik, der bruger Bayes’ sætning, er den forudgående, dvs.en specifikation af sandsynligheden (subjektiv, måske), at hver model er bedst at bruge til et givet formål. Konceptuelt kan BMA bruges med enhver tidligere. EnsembleBMA-og BMA-pakkerne til R bruger det forudgående underforstået af Bayesian information criterion, (BIC), efter Raftery (1995). BAS-pakken til R understøtter brugen af priors underforstået af Akaike information criterion (AIC) og andre kriterier over de alternative modeller såvel som priors over koefficienterne.
forskellen mellem BIC og AIC er styrken af præference for parsimoni. Straffen for modelkompleksitet er Ln ( N ) K {\displaystyle \ln(n)k} for BIC og 2 k {\displaystyle 2k} for AIC. Stor prøve asymptotisk teori har fastslået, at hvis der er en bedste model, så med stigende prøvestørrelser, er BIC stærkt konsistent, dvs.vil næsten helt sikkert finde det, mens AIC måske ikke, fordi AIC kan fortsætte med at placere overdreven posterior sandsynlighed på modeller, der er mere komplicerede, end de skal være. Hvis vi på den anden side er mere optaget af effektivitet, dvs., minimum gennemsnitlig firkantet forudsigelsesfejl, så asymptotisk, AIC og AICc er “effektive”, mens BIC ikke er.
Burnham and Anderson (1998, 2002) bidrog meget til at introducere et bredere publikum til de grundlæggende ideer om Bayesian model gennemsnit og popularisering af metoden. Tilgængeligheden af programmer, herunder andre gratis open source-pakker til R ud over dem, der er nævnt ovenfor, hjalp med at gøre metoderne tilgængelige for et bredere publikum.
Haussler et al. (1994) viste, at når BMA bruges til klassificering, er dens forventede fejl højst dobbelt så stor som den forventede fejl i Bayes optimale klassifikator.
Bayesian model combinationEdit
Bayesian model combination (BMC) er en algoritmisk korrektion til Bayesian model averaging (BMA). I stedet for at prøve hver model i ensemblet individuelt, prøver den fra rummet af mulige ensembler (med modelvægtninger trukket tilfældigt fra en Dirichlet-fordeling med ensartede parametre). Denne ændring overvinder BMA ‘ s tendens til at konvergere mod at give hele vægten til en enkelt model. Selvom BMC er noget mere beregningsmæssigt dyrt end BMA, har det en tendens til at give dramatisk bedre resultater. Resultaterne fra BMC har vist sig at være bedre i gennemsnit (med statistisk signifikans) end BMA og sække.
brugen af Bayes’ lov til at beregne modelvægte nødvendiggør beregning af sandsynligheden for de data, der er givet hver model. Typisk er ingen af modellerne i ensemblet nøjagtigt den fordeling, hvorfra træningsdataene blev genereret, så alle modtager korrekt en værdi tæt på nul for dette udtryk. Dette ville fungere godt, hvis ensemblet var stort nok til at prøve hele modelrummet, men det er sjældent muligt. Derfor vil hvert mønster i træningsdataene få ensemblets vægt til at skifte mod modellen i ensemblet, der er tættest på fordelingen af træningsdataene. Det reducerer i det væsentlige til en unødigt kompleks metode til valg af model.
de mulige vægtninger for et ensemble kan visualiseres som liggende på en simpleks. Ved hvert hjørne af simpleksen gives hele vægten til en enkelt model i ensemblet. BMA konvergerer mod toppunktet, der er tættest på fordelingen af træningsdataene. I modsætning hertil konvergerer BMC mod det punkt, hvor denne distribution projicerer på simpleksen. Med andre ord, i stedet for at vælge den ene model, der er tættest på den genererende distribution, søger den kombinationen af modeller, der er tættest på den genererende distribution.
resultaterne fra BMA kan ofte tilnærmes ved hjælp af krydsvalidering for at vælge den bedste model fra en spand modeller. Ligeledes kan resultaterne fra BMC tilnærmes ved hjælp af krydsvalidering for at vælge den bedste ensemblekombination fra en tilfældig prøveudtagning af mulige vægtninger.
Bucket of modelsEdit
en “bucket of models” er en ensembleteknik, hvor en modelvalgalgoritme bruges til at vælge den bedste model til hvert problem. Når det testes med kun et problem, kan en spand modeller ikke give bedre resultater end den bedste model i sættet, men når det evalueres på tværs af mange problemer, vil det typisk give meget bedre resultater i gennemsnit end nogen model i sættet.
den mest almindelige tilgang, der anvendes til modelvalg, er krydsvalideringsvalg (undertiden kaldet en “bake-Off-konkurrence”). Det er beskrevet med følgende pseudokode:
For each model m in the bucket: Do c times: (where 'c' is some constant) Randomly divide the training dataset into two datasets: A, and B. Train m with A Test m with BSelect the model that obtains the highest average score
Krydsvalideringsvalg kan opsummeres som: “prøv dem alle med træningssættet, og vælg det, der fungerer bedst”.
Gating er en generalisering af Krydsvalideringsvalg. Det indebærer at træne en anden læringsmodel til at beslutte, hvilken af modellerne i spanden der er bedst egnet til at løse problemet. Ofte bruges en perceptron til gating-modellen. Det kan bruges til at vælge den “bedste” model, eller det kan bruges til at give en lineær vægt til forudsigelserne fra hver model i spanden.
når en spand modeller bruges med et stort sæt problemer, kan det være ønskeligt at undgå at træne nogle af de modeller, der tager lang tid at træne. Landmark learning er en meta-learning tilgang, der søger at løse dette problem. Det indebærer kun at træne de hurtige (men upræcise) algoritmer i spanden og derefter bruge udførelsen af disse algoritmer til at bestemme, hvilken langsom (men nøjagtig) algoritme der mest sandsynligt klarer sig bedst.
StackingEdit
stabling (undertiden kaldet stablet generalisering) involverer træning af en læringsalgoritme til at kombinere forudsigelserne fra flere andre læringsalgoritmer. Først trænes alle de andre algoritmer ved hjælp af de tilgængelige data, derefter trænes en kombinationsalgoritme til at foretage en endelig Forudsigelse ved hjælp af alle forudsigelserne fra de andre algoritmer som yderligere input. Hvis der anvendes en vilkårlig kombinationsalgoritme, kan stabling teoretisk repræsentere en hvilken som helst af ensembleteknikkerne beskrevet i denne artikel, skønt en logistisk regressionsmodel i praksis ofte bruges som kombinator.
stabling giver typisk ydeevne bedre end nogen enkelt af de uddannede modeller. Det er med succes blevet brugt på både overvågede læringsopgaver (regression, klassificering og fjernundervisning )og uovervåget læring (tæthedsestimering). Det er også blevet brugt toestimate bagging ‘ s fejlrate. Det er blevet rapporteret at udføre Bayesian model-gennemsnit.De to topspillere i konkurrencen udnyttede blending, hvilket kan anses for at være en form for stabling.
Bootstrap aggregering, ofte forkortet som sække, indebærer at have hver model i ensemblet stemme med samme vægt. For at fremme modelvarians træner sække hver model i ensemblet ved hjælp af en tilfældigt tegnet delmængde af træningssættet. Som et eksempel kombinerer random forest-algoritmen tilfældige beslutningstræer med sække for at opnå meget høj klassificeringsnøjagtighed.
Ved sækning genereres prøverne på en sådan måde, at prøverne er forskellige fra hinanden, men udskiftning er tilladt. Udskiftning betyder, at en forekomst kan forekomme i flere prøver flere gange, eller at den slet ikke kan vises i nogle prøver. Disse prøver gives derefter til flere elever, og derefter kombineres resultaterne fra hver elev i form af afstemning.
BoostingEdit
Boosting involverer trinvis opbygning af et ensemble ved at træne hver ny modelinstans for at understrege de træningsinstanser, som tidligere modeller fejlagtigt klassificerede. I nogle tilfælde har boosting vist sig at give bedre nøjagtighed end sække, men det har også en tendens til at være mere tilbøjelige til at overmontere træningsdataene. Langt den mest almindelige implementering af boosting er Adaboost, selvom nogle nyere algoritmer rapporteres at opnå bedre resultater.
Ved Boosting gives en lige vægt (ensartet sandsynlighedsfordeling) til prøveuddannelsesdataene (siger D1) helt i startrunden. Disse data (D1) gives derefter til en basislærer (siger L1). De mis-klassificerede forekomster af L1 tildeles en vægt, der er højere end de korrekt klassificerede forekomster, men husk at den samlede sandsynlighedsfordeling vil være lig med 1. Disse boostede data (siger D2) gives derefter til anden baselærer (siger L2) og så videre. Resultaterne kombineres derefter i form af afstemning.
Bayesian model averagingEdit
Bayesian model averaging (BMA) gør forudsigelser ved hjælp af et gennemsnit over flere modeller med vægte givet af den bageste Sandsynlighed for hver model givet dataene. BMA er kendt for generelt at give bedre svar end en enkelt model, opnået, f.eks. via trinvis regression, især hvor meget forskellige modeller har næsten identisk præstation i træningssættet, men ellers kan udføre helt anderledes.
det mest oplagte spørgsmål med enhver teknik, der bruger Bayes’ sætning, er den forudgående, dvs.en specifikation af sandsynligheden (subjektiv, måske), at hver model er bedst at bruge til et givet formål. Konceptuelt kan BMA bruges med enhver tidligere. EnsembleBMA-og BMA-pakkerne til R bruger det forudgående underforstået af Bayesian information criterion, (BIC), efter Raftery (1995). BAS-pakken til R understøtter brugen af priors underforstået af Akaike information criterion (AIC) og andre kriterier over de alternative modeller såvel som priors over koefficienterne.
forskellen mellem BIC og AIC er styrken af præference for parsimoni. Straffen for modelkompleksitet er Ln ( N ) K {\displaystyle \ln(n)k} for BIC og 2 k {\displaystyle 2k} for AIC. Stor prøve asymptotisk teori har fastslået, at hvis der er en bedste model, så med stigende prøvestørrelser, er BIC stærkt konsistent, dvs.vil næsten helt sikkert finde det, mens AIC måske ikke, fordi AIC kan fortsætte med at placere overdreven posterior sandsynlighed på modeller, der er mere komplicerede, end de skal være. Hvis vi på den anden side er mere optaget af effektivitet, dvs., minimum gennemsnitlig firkantet forudsigelsesfejl, så asymptotisk, AIC og AICc er “effektive”, mens BIC ikke er.
Burnham and Anderson (1998, 2002) bidrog meget til at introducere et bredere publikum til de grundlæggende ideer om Bayesian model gennemsnit og popularisering af metoden. Tilgængeligheden af programmer, herunder andre gratis open source-pakker til R ud over dem, der er nævnt ovenfor, hjalp med at gøre metoderne tilgængelige for et bredere publikum.
Haussler et al. (1994) viste, at når BMA bruges til klassificering, er dens forventede fejl højst dobbelt så stor som den forventede fejl i Bayes optimale klassifikator.
Bayesian model combinationEdit
Bayesian model combination (BMC) er en algoritmisk korrektion til Bayesian model averaging (BMA). I stedet for at prøve hver model i ensemblet individuelt, prøver den fra rummet af mulige ensembler (med modelvægtninger trukket tilfældigt fra en Dirichlet-fordeling med ensartede parametre). Denne ændring overvinder BMA ‘ s tendens til at konvergere mod at give hele vægten til en enkelt model. Selvom BMC er noget mere beregningsmæssigt dyrt end BMA, har det en tendens til at give dramatisk bedre resultater. Resultaterne fra BMC har vist sig at være bedre i gennemsnit (med statistisk signifikans) end BMA og sække.
brugen af Bayes’ lov til at beregne modelvægte nødvendiggør beregning af sandsynligheden for de data, der er givet hver model. Typisk er ingen af modellerne i ensemblet nøjagtigt den fordeling, hvorfra træningsdataene blev genereret, så alle modtager korrekt en værdi tæt på nul for dette udtryk. Dette ville fungere godt, hvis ensemblet var stort nok til at prøve hele modelrummet, men det er sjældent muligt. Derfor vil hvert mønster i træningsdataene få ensemblets vægt til at skifte mod modellen i ensemblet, der er tættest på fordelingen af træningsdataene. Det reducerer i det væsentlige til en unødigt kompleks metode til valg af model.
de mulige vægtninger for et ensemble kan visualiseres som liggende på en simpleks. Ved hvert hjørne af simpleksen gives hele vægten til en enkelt model i ensemblet. BMA konvergerer mod toppunktet, der er tættest på fordelingen af træningsdataene. I modsætning hertil konvergerer BMC mod det punkt, hvor denne distribution projicerer på simpleksen. Med andre ord, i stedet for at vælge den ene model, der er tættest på den genererende distribution, søger den kombinationen af modeller, der er tættest på den genererende distribution.
resultaterne fra BMA kan ofte tilnærmes ved hjælp af krydsvalidering for at vælge den bedste model fra en spand modeller. Ligeledes kan resultaterne fra BMC tilnærmes ved hjælp af krydsvalidering for at vælge den bedste ensemblekombination fra en tilfældig prøveudtagning af mulige vægtninger.
Bucket of modelsEdit
en “bucket of models” er en ensembleteknik, hvor en modelvalgalgoritme bruges til at vælge den bedste model til hvert problem. Når det testes med kun et problem, kan en spand modeller ikke give bedre resultater end den bedste model i sættet, men når det evalueres på tværs af mange problemer, vil det typisk give meget bedre resultater i gennemsnit end nogen model i sættet.
den mest almindelige tilgang, der anvendes til modelvalg, er krydsvalideringsvalg (undertiden kaldet en “bake-Off-konkurrence”). Det er beskrevet med følgende pseudokode:
For each model m in the bucket: Do c times: (where 'c' is some constant) Randomly divide the training dataset into two datasets: A, and B. Train m with A Test m with BSelect the model that obtains the highest average score
Krydsvalideringsvalg kan opsummeres som: “prøv dem alle med træningssættet, og vælg det, der fungerer bedst”.
Gating er en generalisering af Krydsvalideringsvalg. Det indebærer at træne en anden læringsmodel til at beslutte, hvilken af modellerne i spanden der er bedst egnet til at løse problemet. Ofte bruges en perceptron til gating-modellen. Det kan bruges til at vælge den “bedste” model, eller det kan bruges til at give en lineær vægt til forudsigelserne fra hver model i spanden.
når en spand modeller bruges med et stort sæt problemer, kan det være ønskeligt at undgå at træne nogle af de modeller, der tager lang tid at træne. Landmark learning er en meta-learning tilgang, der søger at løse dette problem. Det indebærer kun at træne de hurtige (men upræcise) algoritmer i spanden og derefter bruge udførelsen af disse algoritmer til at bestemme, hvilken langsom (men nøjagtig) algoritme der mest sandsynligt klarer sig bedst.
StackingEdit
stabling (undertiden kaldet stablet generalisering) involverer træning af en læringsalgoritme til at kombinere forudsigelserne fra flere andre læringsalgoritmer. Først trænes alle de andre algoritmer ved hjælp af de tilgængelige data, derefter trænes en kombinationsalgoritme til at foretage en endelig Forudsigelse ved hjælp af alle forudsigelserne fra de andre algoritmer som yderligere input. Hvis der anvendes en vilkårlig kombinationsalgoritme, kan stabling teoretisk repræsentere en hvilken som helst af ensembleteknikkerne beskrevet i denne artikel, skønt en logistisk regressionsmodel i praksis ofte bruges som kombinator.
stabling giver typisk ydeevne bedre end nogen enkelt af de uddannede modeller. Det er med succes blevet brugt på både overvågede læringsopgaver (regression, klassificering og fjernundervisning )og uovervåget læring (tæthedsestimering). Det er også blevet brugt toestimate bagging ‘ s fejlrate. Det er blevet rapporteret at udføre Bayesian model-gennemsnit.De to topspillere i konkurrencen udnyttede blending, hvilket kan anses for at være en form for stabling.