Ensemble learning

Bayes optimal Classifiereditar

El clasificador óptimo de Bayes es una técnica de clasificación. Es un conjunto de todas las hipótesis en el espacio de hipótesis. En promedio, ningún otro conjunto puede superarlo. El clasificador óptimo de Bayes ingenuo es una versión de esto que asume que los datos son condicionalmente independientes de la clase y hace que el cálculo sea más factible. Cada hipótesis recibe un voto proporcional a la probabilidad de que el conjunto de datos de entrenamiento se muestrearía de un sistema si esa hipótesis fuera cierta. Para facilitar datos de entrenamiento de tamaño finito, el voto de cada hipótesis también se multiplica por la probabilidad previa de esa hipótesis. El clasificador óptimo de Bayes se puede expresar con la siguiente ecuación:

y = a r g m a x c j ∈ C ∑ h i ∈ H P ( c j | h i ) P ( T | h i ) P ( h i ) {\displaystyle y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(T|h_{i})P(h_{i})}}

donde y {\displaystyle y} es la clase predicha, C {\displaystyle C} es el conjunto de todas las clases posibles, H {\displaystyle H} es el espacio de hipótesis, P {\displaystyle P} se refiere a una probabilidad, y T {\displaystyle T} son los datos de entrenamiento. Como conjunto, el clasificador óptimo de Bayes representa una hipótesis que no está necesariamente en H {\displaystyle H} . La hipótesis representada por el clasificador óptimo de Bayes, sin embargo, es la hipótesis óptima en el espacio del conjunto (el espacio de todos los conjuntos posibles que consiste solo en hipótesis en H {\displaystyle H} ).

Esta fórmula se puede volver a calcular utilizando el teorema de Bayes, que dice que la parte posterior es proporcional a la probabilidad por la anterior:

P ( h i | T ) ∝ P ( T | h ) P ( h i ) {\displaystyle P(h_{i}|T)\propto P(T|h_{i})P(h_{i})}

por lo tanto,

y = a r r a g m a x c j ∈ C ∑ h i ∈ H P ( c j | h i ) P ( i | T ) {\displaystyle y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(h_{i}|T)}}

Bootstrap agregación (embolsado)Editar

artículo Principal: Bootstrap agregación

Bootstrap agregación, a menudo abreviado como embolsado, consiste en tener cada modelo en el conjunto de voto con el mismo peso. Con el fin de promover la varianza del modelo, el ensacado entrena a cada modelo en el conjunto utilizando un subconjunto del conjunto de entrenamiento dibujado al azar. Por ejemplo, el algoritmo de bosque aleatorio combina árboles de decisión aleatorios con ensacado para lograr una precisión de clasificación muy alta.

En el embolsado, las muestras se generan de tal manera que las muestras son diferentes entre sí, sin embargo, se permite el reemplazo. Reemplazo significa que una instancia puede ocurrir en varias muestras varias veces o no puede aparecer en algunas muestras en absoluto. Estas muestras se dan a varios alumnos y luego los resultados de cada alumno se combinan en forma de votación.

BoostingEdit

Artículo principal: Boosting (meta-algoritmo)

Boosting consiste en construir un conjunto de forma incremental entrenando cada nueva instancia de modelo para enfatizar las instancias de entrenamiento que los modelos anteriores clasificaron incorrectamente. En algunos casos, se ha demostrado que el impulso produce una mayor precisión que el ensacado, pero también tiende a ser más probable que se ajuste en exceso a los datos de entrenamiento. De lejos, la implementación más común de boosting es Adaboost, aunque se informa que algunos algoritmos más nuevos logran mejores resultados.

En el impulso, se da un peso igual (distribución de probabilidad uniforme) a los datos de entrenamiento de muestra (por ejemplo, D1) en la ronda inicial. Estos datos (D1) se dan a un alumno base (por ejemplo, L1). A las instancias mal clasificadas por L1 se les asigna un peso mayor que a las instancias correctamente clasificadas, pero teniendo en cuenta que la distribución de probabilidad total será igual a 1. Estos datos potenciados (por ejemplo, D2) se dan luego al alumno de segunda base (por ejemplo, L2) y así sucesivamente. Los resultados se combinan en forma de votación.

Promedio del modelo bayesianoeditar

El promedio del modelo bayesiano (BMA) hace predicciones utilizando un promedio sobre varios modelos con pesos dados por la probabilidad posterior de cada modelo dados los datos. Se sabe que BMA generalmente da mejores respuestas que un solo modelo, obtenido, por ejemplo, a través de regresión escalonada, especialmente cuando modelos muy diferentes tienen un rendimiento casi idéntico en el conjunto de entrenamiento, pero pueden tener un rendimiento bastante diferente.

La pregunta más obvia con cualquier técnica que use el teorema de Bayes es la anterior, es decir, una especificación de la probabilidad (subjetiva, quizás) de que cada modelo sea el mejor para usar para un propósito determinado. Conceptualmente, BMA se puede utilizar con cualquier prior. Los paquetes ensembleBMA y BMA para R utilizan el anterior implícito por el criterio de información bayesiano, (BIC), siguiendo a Raftery (1995). El paquete BAS para R admite el uso de los priors implícitos por el criterio de información Akaike (AIC) y otros criterios sobre los modelos alternativos, así como los priors sobre los coeficientes.

La diferencia entre BIC y AIC es la fuerza de preferencia por la parsimonia. La penalización por complejidad del modelo es ln ⁡ ( n ) k {\displaystyle \ln(n)k} para el BIC y 2 k {\displaystyle 2k} para el AIC. La teoría asintótica de muestras grandes ha establecido que si hay un mejor modelo entonces con tamaños de muestra crecientes, el BIC es fuertemente consistente, es decir, casi con certeza lo encontrará, mientras que el AIC puede no, porque el AIC puede continuar colocando una probabilidad posterior excesiva en modelos que son más complicados de lo necesario. Por otro lado, si estamos más preocupados por la eficiencia, es decir,, error de predicción de cuadrado medio mínimo, entonces asintóticamente, AIC y AICc son «eficientes» mientras que BIC no lo es.

Burnham y Anderson (1998, 2002) contribuyeron en gran medida a presentar a un público más amplio las ideas básicas del modelo bayesiano para promediar y popularizar la metodología. La disponibilidad de software, incluidos otros paquetes gratuitos de código abierto para R, además de los mencionados anteriormente, ayudó a que los métodos fueran accesibles a un público más amplio.

Haussler et al. (1994) mostraron que cuando se utiliza BMA para la clasificación, su error esperado es como máximo el doble del error esperado del clasificador óptimo de Bayes.

Combinación de modelos bayesianoseditar

Combinación de modelos bayesianos (BMC) es una corrección algorítmica al promedio de modelos bayesianos (BMA). En lugar de muestrear cada modelo en el conjunto individualmente, muestrea del espacio de los posibles conjuntos (con ponderaciones de modelo dibujadas aleatoriamente de una distribución de Dirichlet con parámetros uniformes). Esta modificación supera la tendencia de BMA a converger para dar todo el peso a un solo modelo. Aunque el BMC es algo más caro computacionalmente que el BMA, tiende a producir resultados dramáticamente mejores. Los resultados de BMC han demostrado ser mejores en promedio (con significación estadística) que BMA y embolsado.

El uso de la ley de Bayes para calcular los pesos de los modelos requiere calcular la probabilidad de los datos dados a cada modelo. Por lo general, ninguno de los modelos del conjunto es exactamente la distribución a partir de la cual se generaron los datos de entrenamiento, por lo que todos reciben correctamente un valor cercano a cero para este término. Esto funcionaría bien si el conjunto fuera lo suficientemente grande como para muestrear todo el espacio del modelo, pero esto rara vez es posible. En consecuencia, cada patrón en los datos de entrenamiento hará que el peso del conjunto cambie hacia el modelo en el conjunto que está más cerca de la distribución de los datos de entrenamiento. Se reduce esencialmente a un método innecesariamente complejo para hacer la selección de modelos.

Las posibles ponderaciones de un conjunto se pueden visualizar como tumbadas en un símplex. En cada vértice del simplex, todo el peso se da a un solo modelo en el conjunto. BMA converge hacia el vértice más cercano a la distribución de los datos de entrenamiento. Por el contrario, BMC converge hacia el punto donde esta distribución se proyecta sobre el simplex. En otras palabras, en lugar de seleccionar el modelo que está más cerca de la distribución generadora, busca la combinación de modelos que está más cerca de la distribución generadora.

Los resultados de BMA a menudo se pueden aproximar mediante validación cruzada para seleccionar el mejor modelo de un conjunto de modelos. Del mismo modo, los resultados del BMC se pueden aproximar mediante validación cruzada para seleccionar la mejor combinación de conjuntos de un muestreo aleatorio de posibles ponderaciones.

Cubo de modeloseditar

Un «cubo de modelos» es una técnica de conjunto en la que se utiliza un algoritmo de selección de modelos para elegir el mejor modelo para cada problema. Cuando se prueba con un solo problema, un conjunto de modelos no puede producir mejores resultados que el mejor modelo del conjunto, pero cuando se evalúa a través de muchos problemas, normalmente producirá resultados mucho mejores, en promedio, que cualquier modelo del conjunto.

El enfoque más común utilizado para la selección de modelos es la selección de validación cruzada (a veces llamada «concurso de cocción»). Se describe con el siguiente pseudocódigo:

For each model m in the bucket: Do c times: (where 'c' is some constant) Randomly divide the training dataset into two datasets: A, and B. Train m with A Test m with BSelect the model that obtains the highest average score

La selección de validación cruzada se puede resumir como: «pruébelos todos con el conjunto de entrenamiento y elija el que funcione mejor».

El Gating es una generalización de la Selección de Validación Cruzada. Implica entrenar a otro modelo de aprendizaje para decidir cuál de los modelos en el cubo es el más adecuado para resolver el problema. A menudo, se utiliza un perceptrón para el modelo de compuerta. Se puede usar para elegir el «mejor» modelo, o se puede usar para dar un peso lineal a las predicciones de cada modelo en el cubo.

Cuando se utiliza un cubo de modelos con un gran conjunto de problemas, puede ser deseable evitar entrenar a algunos de los modelos que tardan mucho tiempo en entrenar. El aprendizaje histórico es un enfoque de meta-aprendizaje que busca resolver este problema. Implica entrenar solo los algoritmos rápidos (pero imprecisos) en el cubo, y luego usar el rendimiento de estos algoritmos para ayudar a determinar qué algoritmo lento (pero preciso) es más probable que funcione mejor.

Apiladoeditar

El apilamiento (a veces llamado generalización apilada) implica entrenar un algoritmo de aprendizaje para combinar las predicciones de varios otros algoritmos de aprendizaje. En primer lugar, todos los demás algoritmos se entrenan utilizando los datos disponibles, luego se entrena un algoritmo combinador para hacer una predicción final utilizando todas las predicciones de los otros algoritmos como entradas adicionales. Si se utiliza un algoritmo combinador arbitrario, el apilamiento puede representar teóricamente cualquiera de las técnicas de conjunto descritas en este artículo, aunque, en la práctica, se usa a menudo un modelo de regresión logística como combinador.

El apilamiento normalmente produce un rendimiento mejor que cualquiera de los modelos entrenados. Se ha utilizado con éxito tanto en tareas de aprendizaje supervisado (regresión, clasificación y aprendizaje a distancia )como en aprendizaje no supervisado (estimación de la densidad). También se ha utilizado para estimar la tasa de error de ensacado. Se ha reportado que supera el promedio del modelo bayesiano.Los dos de mejor desempeño en la competencia de Netflix utilizaron la mezcla, que puede considerarse una forma de apilamiento.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *