Ensemble learning

Bayes optimal classifiered

The Bayes optimal classifier is a classification technique. É um conjunto de todas as hipóteses no espaço hipotético. Em média, nenhum outro conjunto pode superá-lo. O ingênuo classificador Bayes optimal é uma versão deste que assume que os dados são condicionalmente independentes na classe e torna a computação mais viável. Cada hipótese é dada uma votação proporcional à probabilidade de que o conjunto de dados de treinamento seria amostrado a partir de um sistema se essa hipótese fosse verdadeira. Para facilitar os dados de treinamento de tamanho finito, o voto de cada hipótese também é multiplicado pela probabilidade prévia dessa hipótese. O classificador ideal de Bayes pode ser expresso com a seguinte equação::

y = a r g a m a x c j ∈ C ∑ h i ∈ H P ( c j | h i ) P ( T | h i ) P ( h i ) {\displaystyle y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\H}{P(c_{j}|h_{i})P(T|h_{i})P(h_{i})}}

onde y {\displaystyle y} é o previsto classe C {\displaystyle C} é o conjunto de todas as possíveis classes, H {\displaystyle H} é a hipótese do espaço, P {\displaystyle P} refere-se a uma probabilidade, e T {\displaystyle T} é que os dados de treinamento. Como um conjunto, o classificador ideal Bayes representa uma hipótese que não é necessariamente em h {\displaystyle H} . A hipótese representada pelo classificador ideal de Bayes, no entanto, é a hipótese ideal no espaço conjunto (o espaço de todos os conjuntos possíveis consistindo apenas de hipóteses em h {\displaystyle H} ).

Esta fórmula pode ser reformulada usando o teorema de Bayes, que diz que o posterior é proporcional à probabilidade vezes o anterior.:

P ( h i | T ) ∝ P ( T | h i ) P ( h i ) {\displaystyle P(h_{i}|T)\propto P(T|h_{i})P(h_{i})}

por isso,

y = a r g a m a x c j ∈ C ∑ h i ∈ H P ( c j | h i ) P ( h i | T ) {\displaystyle y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\H}{P(c_{j}|h_{i})P(h_{i}|T)}}

Bootstrap de agregação (ensaque)Editar

ver artigo Principal: Bootstrap de agregação

Bootstrap agregar, muitas vezes abreviado como ensacamento, envolve a necessidade de cada modelo no conjunto voto com o mesmo peso. A fim de promover a variância de modelos, ensacar treina cada modelo no conjunto usando um subconjunto aleatoriamente desenhado do conjunto de treinamento. Como exemplo, o algoritmo da floresta aleatória combina árvores de decisão aleatórias com bagging para alcançar uma precisão de classificação muito alta.

na ensacagem, as amostras são geradas de modo a que as amostras sejam diferentes umas das outras, no entanto, é permitida a substituição. Substituição significa que uma instância pode ocorrer em várias amostras várias vezes ou não pode aparecer em algumas amostras em tudo. Estas amostras são então dadas a múltiplos alunos e, em seguida, os resultados de cada aluno são combinados na forma de votação.

BoostingEdit

Main article: Boostingedit (meta-algoritmo)

Boostingedit (Boostingedit)

Boostingedit (Boostingedit)

Em alguns casos, boosting tem sido mostrado para produzir melhor precisão do que bagging, mas também tende a ser mais provável de sobre-ajustar os dados de treinamento. De longe, a implementação mais comum de impulsionar é Adaboost, embora alguns algoritmos mais recentes são relatados para alcançar melhores resultados.

no reforço, é dado um peso igual (distribuição de probabilidade uniforme) aos dados de treino da amostra (por exemplo, D1) na fase inicial. Estes dados (D1) são então Dados a um aprendiz de base (digamos L1). Às instâncias mis-classificadas por L1 é atribuído um peso maior do que as instâncias corretamente classificadas, mas tendo em mente que a distribuição de probabilidade total será igual a 1. Estes dados potenciados (por exemplo, D2) são então Dados a um aluno de segunda base (por exemplo, L2) e assim por diante. Os resultados são então combinados sob a forma de votação.

modelo Bayesiano averagingEdit

modelo Bayesiano averaging (BMA) faz previsões usando uma média sobre vários modelos com pesos dados pela probabilidade posterior de cada modelo dado os dados. O BMA geralmente dá melhores respostas do que um único modelo, obtido, por exemplo, por regressão gradual, especialmente quando modelos muito diferentes têm desempenho quase idêntico no conjunto de treinamento, mas podem de outra forma executar de forma bem diferente.

A questão mais óbvia com qualquer técnica que usa o teorema de Bayes é o prior, isto é, uma especificação da probabilidade (subjetiva, talvez) de que cada modelo é o melhor a usar para um dado propósito. Conceptualmente, BMA pode ser usado com qualquer prior. Os pacotes ensembleBMA e BMA para R usam o anterior implícito pelo critério de informação Bayesiana, (BIC), após Raftery (1995). O pacote BAS para R suporta o uso dos priores implícitos pelo critério de informação Akaike (AIC) e outros critérios sobre os modelos alternativos, bem como os priores sobre os coeficientes.

a diferença entre BIC e AIC é a força da preferência por parsimonia. A penalidade para a complexidade do modelo é ln ⁡ ( n ) k {\displaystyle \ln(N)k} para o BIC e 2 k {\displaystyle 2k} para o AIC. A teoria assintótica de grande amostra estabeleceu que se houver um melhor modelo, então com o aumento do tamanho das amostras, BIC é fortemente consistente, ou seja, quase certamente vai encontrá-lo, enquanto AIC pode não, porque AIC pode continuar a colocar excessiva probabilidade posterior em modelos que são mais complicados do que eles precisam ser. Se, por outro lado, estamos mais preocupados com a eficiência, i.e., erro de previsão quadrado médio mínimo, então assintoticamente, AIC e AICc são” eficientes ” enquanto BIC não é.

Burnham and Anderson (1998, 2002) contributed greatly to introducing a wider audience to the basic ideas of Bayesian model averaging and popularizing the methodology. A disponibilidade de software, incluindo outros pacotes livres de código aberto para R além dos mencionados acima, ajudou a tornar os métodos acessíveis a um público mais amplo.Haussler et al. (1994) showed that when BMA is used for classification, its expected error is at most twice the expected error of the Bayes optimal classificator.

modelo Bayesiano combinationEdit

combinação de modelos Bayesianos (BMC) é uma correção algorítmica ao modelo Bayesiano de média (BMA). Em vez de colher amostras de cada modelo no conjunto individualmente, as amostras provêm do espaço de possíveis conjuntos (com ponderações do modelo retiradas aleatoriamente de uma distribuição de Dirichlet com parâmetros uniformes). Esta modificação supera a tendência do BMA a convergir para dar todo o peso a um único modelo. Embora a BMC seja um pouco mais cara computacionalmente do que a BMA, ela tende a produzir resultados dramaticamente melhores. Os resultados da BMC demonstraram ser, em média, melhores (com significado estatístico) do que a BMA e a bagging.

o uso da lei de Bayes para calcular pesos de modelos requer o cálculo da probabilidade dos dados Dados Dados Dados a cada modelo. Normalmente, nenhum dos modelos do conjunto é exatamente a distribuição a partir da qual os dados de treinamento foram gerados, de modo que todos eles recebem corretamente um valor próximo de zero para este termo. Isso funcionaria bem se o conjunto fosse grande o suficiente para provar todo o modelo-espaço, mas isso raramente é possível. Consequentemente, cada padrão nos dados de treinamento fará com que o peso conjunto mude para o modelo no conjunto que está mais próximo da distribuição dos dados de treinamento. Reduz-se essencialmente a um método desnecessariamente complexo para fazer a seleção de modelos.

as ponderações possíveis para um conjunto podem ser visualizadas como estando em um simplex. Em cada vértice do simplex, todo o peso é dado a um único modelo no conjunto. BMA converge para o vértice que é mais próximo da distribuição dos dados de treinamento. Em contraste, a BMC converge para o ponto onde esta distribuição se projeta para o simplex. Em outras palavras, em vez de selecionar o modelo que está mais próximo da distribuição geradora, procura a combinação de modelos que está mais próximo da distribuição geradora.

os resultados de BMA podem muitas vezes ser aproximados usando a validação cruzada para selecionar o melhor modelo a partir de um balde de modelos. Da mesma forma, os resultados da BMC podem ser aproximados utilizando a validação cruzada para seleccionar a melhor combinação de conjuntos a partir de uma amostragem aleatória de ponderações possíveis.

Bucket of modelsEdit

a “bucket of models” is an ensemble technique in which a model selection algorithm is used to choose the best model for each problem. Quando testados com apenas um problema, um balde de modelos que podem produzir melhores resultados do que o melhor modelo em conjunto, mas quando avaliado através de muitos problemas, normalmente, produzir muito melhores resultados, em média, do que qualquer modelo em conjunto.

A abordagem mais comum usada para a seleção de Modelos é a seleção de validação cruzada (às vezes chamada de “concurso de bolos”). É descrito com o seguinte pseudo-código:

For each model m in the bucket: Do c times: (where 'c' is some constant) Randomly divide the training dataset into two datasets: A, and B. Train m with A Test m with BSelect the model that obtains the highest average score

Cross-Validation Selection can be summed up as:”try them all with the training set, and pick the one that works best”.

Gating é uma generalização da seleção de validação cruzada. Envolve a formação de outro modelo de aprendizagem para decidir qual dos modelos no balde é mais adequado para resolver o problema. Muitas vezes, um perceptron é usado para o modelo gating. Pode ser usado para escolher o modelo” melhor”, ou pode ser usado para dar um peso linear para as previsões de cada modelo no balde.

Quando um balde de Modelos é usado com um grande conjunto de problemas, pode ser desejável evitar o treinamento de alguns dos modelos que levam um longo tempo para treinar. Landmark learning é uma abordagem de meta-aprendizagem que procura resolver este problema. Envolve o treinamento apenas dos algoritmos rápidos (mas imprecisos) no balde, e, em seguida, usando o desempenho destes algoritmos para ajudar a determinar qual lento (mas preciso) algoritmo é mais provável de fazer o melhor.

StackingEdit

empilhamento (por vezes chamado de generalização empilhada) envolve a formação de um algoritmo de aprendizagem para combinar as previsões de vários outros algoritmos de aprendizagem. Primeiro, todos os outros algoritmos são treinados usando os dados disponíveis, então um algoritmo combiner é treinado para fazer uma previsão final usando todas as previsões dos outros algoritmos como entradas adicionais. Se um algoritmo combinador arbitrário é usado, então empilhamento pode teoricamente representar qualquer uma das técnicas de conjunto descritas neste artigo, embora, na prática, um modelo de regressão logística é frequentemente usado como combinador.empilhamento tipicamente produz melhor desempenho do que qualquer um dos modelos treinados. Foi utilizado com êxito tanto em tarefas de aprendizagem supervisionada (regressão, classificação e ensino à distância )como no ensino não supervisionado (estimativa da densidade). Também tem sido usado para estimar a taxa de erro de bagging. Tem sido relatado para superar modelo Bayesiano-média.Os dois melhores artistas na competição Netflix utilizaram a mistura, que pode ser considerada uma forma de empilhamento.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *