Bayesův optimální klasifikátor
Bayesův optimální klasifikátor je klasifikační technika. Je to soubor všech hypotéz v hypotézním prostoru. V průměru žádný jiný soubor nemůže překonat. Naivní Bayesův optimální klasifikátor je verze, která předpokládá, že data jsou podmíněně nezávislé na třídě a dělá výpočet schůdnější. Každá hypotéza dostane hlas úměrný pravděpodobnosti, že datová sada školení bude odebrána ze systému, pokud by tato hypotéza byla pravdivá. Pro usnadnění tréninkových dat konečné velikosti je hlas každé hypotézy také vynásoben předchozí pravděpodobností této hypotézy. Bayesův optimální klasifikátor lze vyjádřit následující rovnicí:
y = r g m x c j ∈ C ∑ h i ∈ H P ( c j | h i ) P ( T | h i ) P ( h i ) {\displaystyle y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(T|h_{i})P(h_{i})}}
, kde y {\displaystyle y} je predikovaná třída, C {\displaystyle C} je množina všech možných tříd, H {\displaystyle H} je hypotéza prostor, P {\displaystyle P} označuje pravděpodobnost, že a T {\displaystyle T} je tréninková data. Bayesův optimální klasifikátor jako celek představuje hypotézu, která nemusí být nutně v h {\displaystyle H} . Hypotéza zastoupena Bayesův optimální klasifikátor, nicméně, je optimální hypotéza v kompletu prostoru (prostor všech možných komplety skládající se pouze z hypotéz v H {\displaystyle H} ).
Tento vzorec může být přepočteny pomocí Bayesova věta, která říká, že zadní je úměrná pravděpodobnosti krát před:
P ( h | T ) ∝ P ( T | h i ) P ( h i ) {\displaystyle P(h_{i}|T)\propto P(T|h_{i})P(h_{i})}
proto,
y = r g m x c j ∈ C ∑ h i ∈ H P ( c j | h i ) P ( h | T ) {\displaystyle y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(h_{i}|T)}}
Bootstrap aggregating (pytlování)Upravit
Bootstrap aggregating, často zkrátil jako pytlování, zahrnuje to, že každý model v souboru hlasování s stejné hmotnosti. Za účelem podpory rozptylu modelu, pytlování trénuje každý model v souboru pomocí náhodně nakreslené podmnožiny tréninkové sady. Jako příklad, algoritmus náhodného lesa kombinuje náhodné rozhodovací stromy s pytlováním, aby se dosáhlo velmi vysoké přesnosti klasifikace.
při pytlování jsou vzorky generovány takovým způsobem, že se vzorky od sebe liší, nicméně výměna je povolena. Nahrazení znamená, že instance se může vyskytnout ve více vzorcích vícekrát nebo se v některých vzorcích vůbec neobjeví. Tyto vzorky jsou poté předány více studentům a poté jsou výsledky každého studenta kombinovány ve formě hlasování.
BoostingEdit
Zvýšení zahrnuje postupně budovy kompletu školení každý nový model instance zdůraznit školení případy, které předchozí modely mis-inzerce. V některých případech bylo prokázáno, že posílení přináší lepší přesnost než pytlování, ale také má tendenci být pravděpodobnější, že nadměrně přizpůsobí tréninková data. Zdaleka nejběžnější implementací boostingu je Adaboost, ačkoli některé novější algoritmy jsou hlášeny k dosažení lepších výsledků.
Při Zvyšování, stejnou hmotnost (rovnoměrné rozdělení pravděpodobnosti) je věnována odborné přípravy vzorku dat (řekněme D1) na velmi počáteční kolo. Tato data (D1) jsou pak dána základnímu žákovi (řekněme L1). Chybně klasifikovaným instancím podle L1 je přiřazena váha vyšší než správně klasifikované instance, ale mějte na paměti, že celkové rozdělení pravděpodobnosti bude rovno 1. Tento posílen dat (řekněme D2) je pak vzhledem k druhé metě žáka (řekněme L2), a tak dále. Výsledky jsou pak kombinovány formou hlasování.
Bayesian model averagingEdit
Bayesian model averaging (BMA) dělá předpovědi pomocí průměru přes několik modelů s hmotností dána posteriorní pravděpodobnost každého modelu vzhledem k datům. BMA je známo, že obecně dávají lepší odpovědi než jeden model, získat, např. pomocí postupné regrese, zejména tam, kde velmi různé modely mají téměř identický výkon v tréninku, ale jinak může provést úplně jinak.
nejviditelnější otázka s žádnou techniku, která využívá Bayesův teorém je před, tj. specifikaci pravděpodobnost (subjektivní, možná), že každý model je nejlepší použít pro daný účel. Koncepčně lze BMA použít s jakýmkoli předchozím. Balíčky ensembleBMA a BMA pro R používají předchozí implicitní Bayesovské informační kritérium (BIC) po Raftery (1995). Balíček BAS pro R podporuje použití priors předpokládaných Akaike information criterion (AIC) a dalších kritérií nad alternativními modely, jakož i priors nad koeficienty.
rozdíl mezi BIC a AIC je síla preference parsimony. Trest pro složitost modelu je ln ( n ) k {\displaystyle \ln(n)k} pro BIC a 2 k {\displaystyle 2k} pro AIC. Velký vzorek asymptotické teorie bylo zjištěno, že pokud je to nejlepší model pak s rostoucí velikostí vzorku, BIC je silně konzistentní, tj., bude téměř jistě najít to, zatímco AIC nemusí, protože AIC může i nadále místo, nadměrné posteriorní pravděpodobnosti na modely, které jsou složitější, než musí být. Pokud se na druhé straně více zajímáme o efektivitu, tj., minimální průměrná chyba predikce čtverce, pak asymptoticky, AIC a AICc jsou „efektivní“, zatímco BIC není.
Burnham and Anderson (1998, 2002) významně přispěli k zavedení širšího publika k základním myšlenkám Bayesovského modelu průměrování a popularizace metodiky. Dostupnost softwaru, včetně dalších bezplatných open-source balíčků pro R nad rámec výše uvedených, pomohl zpřístupnit metody širšímu publiku.
Haussler et al. (1994) ukázalo, že při použití BMA pro klasifikaci je její očekávaná chyba nejvýše dvojnásobkem očekávané chyby Bayesova optimálního klasifikátoru.
bayesovský model combinationEdit
bayesovský model combination (BMC) je algoritmická korekce Bayesovského modelu průměrování (BMA). Místo odběru vzorků, každý model v souboru jednotlivě, vzorky z prostoru možných komplety (model váhy náhodně vybrány z Dirichletova rozdělení s jednotnými parametry). Tato modifikace překonává tendenci BMA konvergovat k tomu, aby dala veškerou váhu jedinému modelu. Ačkoli BMC je poněkud výpočetně dražší než BMA, má tendenci přinášet dramaticky lepší výsledky. Ukázalo se, že výsledky BMC jsou v průměru lepší (se statistickou významností) než BMA a pytlování.
použití Bayesova zákona pro výpočet hmotnosti modelu vyžaduje výpočet pravděpodobnosti dat daných každému modelu. Obvykle žádný z modelů v souboru není přesně distribuce, ze které byly generovány tréninkové údaje, takže všechny správně obdrží hodnotu blízkou nule pro tento termín. To by fungovalo dobře, kdyby byl soubor dostatečně velký, aby ochutnal celý modelový prostor, ale to je zřídka možné. V důsledku toho každý vzor v tréninkových datech způsobí, že se hmotnost souboru posune směrem k modelu v souboru, který je nejblíže distribuci tréninkových dat. V podstatě se redukuje na zbytečně složitou metodu pro výběr modelu.
možné váhy pro soubor lze vizualizovat jako ležící na simplexu. Na každém vrcholu simplexu je veškerá váha dána jedinému modelu v souboru. BMA konverguje k vrcholu, který je nejblíže distribuci tréninkových dat. Naproti tomu BMC konverguje k bodu, kdy se tato distribuce promítá do simplexu. Jinými slovy, namísto výběru jednoho modelu, který je nejblíže generující distribuci, hledá kombinaci modelů, které jsou nejblíže generující distribuci.
výsledky z BMA lze často aproximovat pomocí křížové validace pro výběr nejlepšího modelu z kbelíku modelů. Rovněž, výsledky z BMC mohou být aproximovány pomocí křížové validace pro výběr nejlepší kombinace souborů z náhodného výběru možných Váh.
Bucket of modelsEdit
„bucket of models“ je ansámblová technika, ve které se algoritmus výběru modelu používá k výběru nejlepšího modelu pro každý problém. Při testování s jen jeden problém, kbelík modelů může produkovat lepší výsledky, než nejlepší model v sadě, ale když hodnoceny napříč mnoha problémy, bude obvykle produkují mnohem lepší výsledky, v průměru, než jakýkoli model v sadě.
nejběžnějším přístupem používaným pro výběr modelu je cross-validation selection (někdy nazývaný „bake-off contest“). Je popsán následující pseudo-kód:
For each model m in the bucket: Do c times: (where 'c' is some constant) Randomly divide the training dataset into two datasets: A, and B. Train m with A Test m with BSelect the model that obtains the highest average score
Cross-Validace Výběr lze shrnout jako: „zkuste je všechny s trénovací množina, a vybrat ten, který funguje nejlépe“.
Gating je zobecnění křížového validačního výběru. Zahrnuje školení jiného modelu učení, aby se rozhodl, který z modelů v kbelíku je nejvhodnější k vyřešení problému. Perceptron se často používá pro model brány. Může být použit k výběru „nejlepšího“ modelu, nebo může být použit k poskytnutí lineární váhy předpovědím z každého modelu v kbelíku.
Pokud se používá kbelík modelů s velkým množstvím problémů, může být žádoucí vyhnout se tréninku některých modelů, které trénují dlouho. Landmark learning je meta-learning přístup, který se snaží tento problém vyřešit. Zahrnuje výcvik pouze rychlých (ale nepřesných) algoritmů v kbelíku a poté pomocí výkonu těchto algoritmů pomůže určit, který pomalý (ale přesný) algoritmus je s největší pravděpodobností nejlepší.
StackingEdit
Stohování (někdy se nazývá skládaný generalizace) zahrnuje vzdělávání učící algoritmus, spojit předpovědi na několik dalších algoritmů. První, všechny ostatní algoritmy jsou školeni pomocí dostupných dat, pak slučovač algoritmus je trénoval se, aby konečné predikce pomocí všechny předpovědi o další algoritmy jako dodatečné vstupy. Pokud libovolný slučovač je použit algoritmus, pak stohování může teoreticky představují soubor technik popsaných v tomto článku, i když v praxi, logistickou regrese model se často používá jako slučovač.
stohování obvykle poskytuje lepší výkon než kterýkoli z vyškolených modelů. Byl úspěšně použit jak pro úkoly supervizovaného učení (regrese ,klasifikace a distanční vzdělávání), tak pro učení bez dozoru (odhad hustoty). Používá se také k odhadu chybovosti Pytlíka. Bylo hlášeno, že překonává bayesovský model-průměrování.Dva nejlepší umělci v soutěži Netflix využili míchání, což lze považovat za formu stohování.