Bayes optimal classifier
Bayes optimal classifier jest techniką klasyfikacyjną. Jest to zespół wszystkich hipotez w przestrzeni hipotez. Średnio żaden inny zespół nie może go prześcignąć. Naiwny optymalny klasyfikator Bayesa jest wersją tego, która zakłada, że dane są warunkowo niezależne od klasy i sprawia, że obliczenia są bardziej wykonalne. Każda hipoteza otrzymuje głos proporcjonalny do prawdopodobieństwa, że zestaw danych treningowych zostanie pobrany z systemu, gdyby ta hipoteza była prawdziwa. Aby ułatwić dane treningowe o skończonej wielkości, głos każdej hipotezy jest również mnożony przez wcześniejsze prawdopodobieństwo tej hipotezy. Klasyfikator optymalny Bayesa można wyrazić następującym równaniem:
y = a R G m A x C J ∈ C ∑ H i ∈ H P ( c j | H i ) P ( T | h i ) P ( h i ) {\displaystyle y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{H_{i}\in H}{P(c_{j}|h_{i})P(T|H_{i})P(H_{i})}}
gdzie y {\displaystyle y} jest przewidywaną klasą, C {\displaystyle C} jest zbiorem wszystkich możliwych klas, h {\displaystyle H} jest przestrzenią hipotezy, P {\displaystyle p} odnosi się do prawdopodobieństwa, a T {\displaystyle t} jest danymi treningowymi. Jako zespół, klasyfikator optymalny Bayesa reprezentuje hipotezę, która niekoniecznie znajduje się w H {\displaystyle H} . Hipoteza reprezentowana przez klasyfikator optymalny Bayesa jest jednak hipotezą optymalną w przestrzeni zespolonej (przestrzeń wszystkich możliwych zespołów składających się tylko z hipotez w H {\displaystyle H} ).
Ten wzór można przekształcić za pomocą twierdzenia Bayesa, które mówi, że tylna jest proporcjonalna do prawdopodobieństwa razy przed:
P ( h i | T ) ∝ P ( T | h i ) P ( h i ) {\displaystyle P(H_{i}|T)\propto P(T|H_{i})P(H_{i})}
stąd
Y = A R G m A x c j ∈ C ∑ H i ∈ H P ( c j | H i ) P ( h I | T ) {\displaystyle y={\underset {C_{j}\in C}{\mathrm {argmax} }}\Sum _{H_{i}\in H}{P(C_{j}|H_{i})p(H_{i}|t)}}
agregowanie Bootstrap (bagging)edycja
agregowanie bootstrap, często skracane jako bagging, polega na tym, że każdy model w zespole głosuje z taką samą wagą. Aby promować wariancję modelu, pakowanie trenuje każdy model w zespole, używając losowo wylosowanego podzbioru zestawu treningowego. Na przykład algorytm losowego lasu łączy losowe drzewa decyzyjne z pakowaniem, aby uzyskać bardzo wysoką dokładność klasyfikacji.
w pakowaniu próbki są generowane w taki sposób, że próbki są różne od siebie, jednak wymiana jest dozwolona. Zastąpienie oznacza, że instancja może wystąpić w wielu próbkach kilka razy lub nie może pojawić się w niektórych próbkach w ogóle. Próbki te są następnie przekazywane wielu uczniom, a następnie wyniki każdego ucznia są łączone w formie głosowania.
BoostingEdit
Boosting polega na stopniowym budowaniu zespołu poprzez szkolenie każdej nowej instancji modelu w celu podkreślenia instancji treningowych, które poprzednie modele błędnie zaklasyfikowały. W niektórych przypadkach wykazano, że boosting daje lepszą dokładność niż pakowanie, ale również wydaje się być bardziej prawdopodobne, że nadmiernie dopasuje dane treningowe. Zdecydowanie najczęstszą implementacją boostingu jest Adaboost, chociaż niektóre nowsze algorytmy są zgłaszane w celu osiągnięcia lepszych wyników.
w Boostingu na samym początku rundy próbnej dane treningowe (powiedzmy D1) otrzymują równą wagę (jednolity rozkład prawdopodobieństwa). Te dane (D1) są następnie przekazywane do podstawowego ucznia (powiedzmy L1). Błędnie sklasyfikowane instancje przez L1 mają przypisaną wagę wyższą niż prawidłowo sklasyfikowane instancje, ale pamiętając, że całkowity rozkład prawdopodobieństwa będzie równy 1. Te wzmocnione dane (powiedzmy D2) są następnie przekazywane drugiemu uczniowi bazowemu (powiedzmy L2) i tak dalej. Wyniki są następnie łączone w formie głosowania.
Bayesian model averagingedit
Bayesian model averaging (BMA) tworzy prognozy na podstawie średniej w kilku modelach z wagami podanymi przez Prawdopodobieństwo tylne każdego modelu z danymi. Wiadomo, że BMA ogólnie daje lepsze odpowiedzi niż pojedynczy model, uzyskany np. poprzez stopniową regresję, zwłaszcza gdy bardzo różne modele mają prawie identyczne wyniki w zestawie treningowym, ale mogą w przeciwnym razie działać zupełnie inaczej.
najbardziej oczywistym pytaniem w każdej technice, która wykorzystuje twierdzenie Bayesa, jest uprzednie, tj. określenie prawdopodobieństwa (być może subiektywnego), że każdy model jest najlepszy do wykorzystania w danym celu. Koncepcyjnie, BMA może być stosowany z dowolnym wcześniej. Pakiety ensembleBMA i BMA dla R używają wcześniejszego kryterium Bayesian information criterion, (BIC), następującego po Raftery (1995). Pakiet BAS dla R obsługuje stosowanie priorów sugerowanych przez kryterium informacyjne Akaike (AIC) i innych kryteriów nad alternatywnymi modelami, a także priorów nad współczynnikami.
różnica między BIC a AIC to siła preferencji dla parsymonii. Kara za złożoność modelu to ln (N) k {\displaystyle \Ln (n) K} dla BIC i 2 k {\displaystyle 2K} dla AIC. Duża próbka asymptotyczna teoria ustaliła, że jeśli istnieje najlepszy model, a następnie przy rosnących rozmiarach próbek, BIC jest silnie spójny, tj. prawie na pewno go znajdzie, podczas gdy AIC może nie, ponieważ AIC może nadal umieszczać nadmierne prawdopodobieństwo Tylne na modelach, które są bardziej skomplikowane niż muszą być. Jeśli natomiast bardziej zależy nam na efektywności, czyli, minimalny średni błąd przewidywania kwadratu, wtedy asymptotycznie, AIC i AICC są „wydajne”, podczas gdy BIC nie jest.
Burnham i Anderson (1998, 2002) w znacznym stopniu przyczynili się do wprowadzenia szerszej publiczności podstawowych idei modelu bayesowskiego i popularyzacji metodologii. Dostępność oprogramowania, w tym innych wolnych pakietów open-source dla R, poza wymienionymi powyżej, pomogła uczynić metody dostępnymi dla szerszej publiczności.
Haussler et al. (1994) wykazały, że gdy BMA jest używany do klasyfikacji, jego oczekiwany błąd jest co najwyżej dwukrotnie większy od oczekiwanego błędu klasyfikatora optymalnego Bayesa.
Bayesian model combinationEdit
Bayesian model combination (BMC) jest algorytmiczną korektą do Bayesian model averaging (BMA). Zamiast próbkowania każdego modelu w zespole indywidualnie, pobiera próbki z przestrzeni możliwych zespołów (z wagami modeli losowanymi z rozkładu Dirichleta o jednolitych parametrach). Ta modyfikacja pokonuje tendencję BMA do zbieżności w kierunku nadania całej wagi jednemu modelowi. Chociaż BMC jest nieco bardziej kosztowny obliczeniowo niż BMA, ma tendencję do uzyskiwania znacznie lepszych wyników. Wykazano, że wyniki z BMC są średnio lepsze (z istotnością statystyczną) niż BMA i bagging.
zastosowanie prawa Bayesa do obliczania wag modeli wymaga obliczenia prawdopodobieństwa danych danego modelu. Zazwyczaj żaden z modeli w zespole nie jest dokładnie rozkładem, z którego zostały wygenerowane dane treningowe, więc wszystkie z nich poprawnie otrzymują wartość bliską zeru dla tego terminu. Sprawdziłoby się to dobrze, gdyby zespół był wystarczająco duży, aby wypróbować całą przestrzeń modelu, ale rzadko jest to możliwe. W związku z tym każdy wzór w danych treningowych spowoduje przesunięcie masy zespołu w kierunku modelu w zespole, który jest najbliższy rozkładowi danych treningowych. Zasadniczo sprowadza się do niepotrzebnie złożonej metody wyboru modelu.
możliwe wagi dla zespołu można zobrazować jako leżące na simplexie. Na każdym wierzchołku simplex cała waga jest podawana pojedynczemu modelowi w zespole. BMA zbiega się w kierunku wierzchołka najbliższego rozkładowi danych treningowych. Natomiast BMC zbiega się w kierunku punktu, w którym ta dystrybucja przenosi się na simplex. Innymi słowy, zamiast wybrać jeden model, który jest najbliżej dystrybucji generującej, szuka kombinacji modeli, które są najbliżej dystrybucji generującej.
wyniki BMA mogą być często przybliżone za pomocą weryfikacji krzyżowej, aby wybrać najlepszy model z wiadra modeli. Podobnie, wyniki z BMC mogą być przybliżone za pomocą walidacji krzyżowej, aby wybrać najlepszą kombinację zespołu z losowego próbkowania możliwych wag.
Bucket of modelsEdit
„bucket of models” jest techniką zespołową, w której algorytm wyboru modelu jest używany do wyboru najlepszego modelu dla każdego problemu. Jeśli testowany jest tylko z jednym problemem, wiadro modeli nie może przynieść lepszych wyników niż najlepszy model w zestawie, ale gdy oceniany jest w wielu problemach, zwykle daje znacznie lepsze wyniki, średnio niż jakikolwiek model w zestawie.
najczęstszym podejściem stosowanym do wyboru modelu jest wybór cross-validation (czasami nazywany „konkursem bake-off”). Jest on opisany następującym pseudokodem:
For each model m in the bucket: Do c times: (where 'c' is some constant) Randomly divide the training dataset into two datasets: A, and B. Train m with A Test m with BSelect the model that obtains the highest average score
wybór Cross-Validation można podsumować jako: „wypróbuj je wszystkie z zestawem treningowym i wybierz ten, który działa najlepiej”.
Gating jest uogólnieniem selekcji krzyżowej. Polega na szkoleniu innego modelu uczenia się, aby zdecydować, który z modeli w wiadrze najlepiej nadaje się do rozwiązania problemu. Często perceptron jest używany do modelu bramkowania. Może być użyty do wybrania „najlepszego” modelu lub może być użyty do nadania liniowej wagi przewidywaniom z każdego modelu w wiadrze.
gdy wiadro modeli jest używane z dużym zestawem problemów, może być pożądane, aby uniknąć szkolenia niektórych modeli, które zajmują dużo czasu, aby trenować. Landmark learning to podejście meta-learningowe, które ma na celu rozwiązanie tego problemu. Polega na szkoleniu tylko szybkich (ale nieprecyzyjnych) algorytmów w wiadrze, a następnie wykorzystaniu ich wydajności do określenia, który powolny (ale dokładny) algorytm jest najbardziej skuteczny.
StackingEdit
Stacking (czasami nazywane generalizacją stosową) polega na szkoleniu algorytmu uczenia się w celu połączenia prognoz kilku innych algorytmów uczenia się. Po pierwsze, wszystkie inne algorytmy są szkolone na podstawie dostępnych danych, a następnie algorytm kombinacyjny jest szkolony w celu dokonania ostatecznej prognozy przy użyciu wszystkich prognoz innych algorytmów jako dodatkowych danych wejściowych. Jeśli używany jest dowolny algorytm kombinacyjny, to układanie może teoretycznie reprezentować dowolną z technik opisanych w tym artykule, chociaż w praktyce często używany jest model regresji logistycznej jako kombinator.
układanie zwykle daje wydajność lepszą niż jakikolwiek pojedynczy z wytrenowanych modeli. Jest z powodzeniem stosowany zarówno w nadzorowanych zadaniach edukacyjnych (regresja, klasyfikacja i uczenie się na odległość), jak i w nauczaniu bez nadzoru (szacowanie gęstości). Wykorzystano go również do oszacowania wskaźnika błędów w pakowaniu. Stwierdzono, że przewyższa model Bayesa uśredniania.Dwaj najlepsi w konkursie Netflix wykorzystali mieszanie, które można uznać za formę układania.