Ensemble learning

Classification optimale de Bayesmodifier

Le classificateur optimal de Bayes est une technique de classification. C’est un ensemble de toutes les hypothèses de l’espace des hypothèses. En moyenne, aucun autre ensemble ne peut le surpasser. Le classificateur optimal naïf de Bayes en est une version qui suppose que les données sont conditionnellement indépendantes de la classe et rend le calcul plus réalisable. Chaque hypothèse reçoit un vote proportionnel à la probabilité que l’ensemble de données de formation soit échantillonné à partir d’un système si cette hypothèse était vraie. Pour faciliter les données d’apprentissage de taille finie, le vote de chaque hypothèse est également multiplié par la probabilité préalable de cette hypothèse. Le classificateur optimal de Bayes peut être exprimé avec l’équation suivante:

y = a r g m a x c j ∈ C ∑ h i ∈ H P (c j|h i) P (T|h i) P (h i) {\displaystyle y = {\underset {c_{j} \in C} {\mathrm {argmax}}} \sum _{h_{i} \in H} {P(c_{j}|h_{i}) P(T|h_{i}) P (h_{i}) }}

où y {\displaystyle y} est la classe prédite, C {\displaystyle C} est l’ensemble de toutes les classes possibles, H {\displaystyle H} est l’espace d’hypothèse, P {\displaystyle P} fait référence à une probabilité et T {\displaystyle T} est les données d’apprentissage. En tant qu’ensemble, le classificateur optimal de Bayes représente une hypothèse qui n’est pas nécessairement dans H {\displaystyle H}. L’hypothèse représentée par le classificateur optimal de Bayes, cependant, est l’hypothèse optimale dans l’espace d’ensemble (l’espace de tous les ensembles possibles constitué uniquement d’hypothèses dans H{\displaystyle H}).

Cette formule peut être reformulée à l’aide du théorème de Bayes, qui dit que le postérieur est proportionnel à la probabilité multipliée par le précédent:

P(h i|T) ∝P(T|h i) P(h i) {\displaystyle P(h_{i}|T) \propto P(T|h_{i}) P(h_{i})}

par conséquent,

y = a r g m a x c j ∈ C ∑ h i ∈ H P (c j|h i) P (h i|T) {\displaystyle y = {\underset {c_ {j} \ in C} {\ mathrm{argmax}}} \sum_{h_{i}\in H}{P(c_{j}|h_{i})P(h_{i}|T)}}

Agrégation d’amorçage (ensachage) Modifier

Article principal: Agrégation d’amorçage

L’agrégation d’amorçage, souvent abrégée en ensachage, consiste à avoir chaque modèle dans le vote d’ensemble avec un poids égal. Afin de promouvoir la variance du modèle, l’ensachage entraîne chaque modèle de l’ensemble en utilisant un sous-ensemble tiré aléatoirement de l’ensemble d’entraînement. Par exemple, l’algorithme de forêt aléatoire combine des arbres de décision aléatoires avec l’ensachage pour obtenir une précision de classification très élevée.

Lors de l’ensachage, les échantillons sont générés de telle sorte que les échantillons soient différents les uns des autres, mais le remplacement est autorisé. Le remplacement signifie qu’une instance peut se produire plusieurs fois dans plusieurs échantillons ou qu’elle ne peut pas apparaître du tout dans certains échantillons. Ces échantillons sont ensuite donnés à plusieurs apprenants, puis les résultats de chaque apprenant sont combinés sous forme de vote.

BoostingEdit

Article principal: Boosting (méta-algorithme)

Le Boosting consiste à construire progressivement un ensemble en entraînant chaque nouvelle instance de modèle pour mettre l’accent sur les instances d’entraînement que les modèles précédents ont mal classées. Dans certains cas, il a été démontré que l’amplification donnait une meilleure précision que l’ensachage, mais elle tend également à être plus susceptible de surajuster les données d’entraînement. De loin, l’implémentation la plus courante de boosting est Adaboost, bien que certains algorithmes plus récents soient signalés pour obtenir de meilleurs résultats.

Dans le Boosting, un poids égal (distribution de probabilité uniforme) est donné aux données d’entraînement de l’échantillon (disons D1) au tout début du tour. Ces données (D1) sont ensuite données à un apprenant de base (disons L1). Les instances mal classées par L1 se voient attribuer un poids supérieur aux instances correctement classées, mais en gardant à l’esprit que la distribution de probabilité totale sera égale à 1. Ces données boostées (disons D2) sont ensuite données à l’apprenant de deuxième base (disons L2) et ainsi de suite. Les résultats sont ensuite combinés sous forme de vote.

Moyenne du modèle bayésienmodifier

La moyenne du modèle bayésien (BMA) fait des prédictions en utilisant une moyenne sur plusieurs modèles avec des poids donnés par la probabilité postérieure de chaque modèle compte tenu des données. La BMA est connue pour donner généralement de meilleures réponses qu’un seul modèle, obtenu, par exemple, par régression par étapes, en particulier lorsque des modèles très différents ont des performances presque identiques dans l’ensemble d’entraînement mais peuvent autrement fonctionner très différemment.

La question la plus évidente avec toute technique qui utilise le théorème de Bayes est le prior, c’est-à-dire une spécification de la probabilité (subjective, peut-être) que chaque modèle soit le meilleur à utiliser dans un but donné. Conceptuellement, BMA peut être utilisé avec n’importe quel prior. Les paquets ensembleBMA et BMA pour R utilisent le préalable implicite du critère d’information bayésien, (BIC), suivant Raftery (1995). Le package BAS pour R prend en charge l’utilisation des antécédents impliqués par le critère d’information d’Akaike (AIC) et d’autres critères sur les modèles alternatifs ainsi que des antécédents sur les coefficients.

La différence entre BIC et AIC est la force de la préférence pour la parcimonie. La pénalité pour la complexité du modèle est ln ⁡(n)k {\displaystyle\ln(n)k} pour le BIC et 2 k {\displaystyle 2k} pour l’AIC. La théorie asymptotique à grand échantillon a établi que s’il existe un meilleur modèle, alors avec des tailles d’échantillon croissantes, le BIC est fortement cohérent, c’est-à-dire qu’il le trouvera presque certainement, alors que l’AIC peut ne pas l’être, car l’AIC peut continuer à placer une probabilité postérieure excessive sur des modèles plus compliqués qu’ils ne le devraient. Si en revanche nous sommes plus soucieux d’efficacité, c’est-à-dire, erreur de prédiction quadratique moyenne minimale, alors asymptotiquement, AIC et AICc sont « efficaces » alors que BIC ne l’est pas.

Burnham et Anderson (1998, 2002) ont grandement contribué à présenter à un public plus large les idées de base de la moyenne du modèle bayésien et à populariser la méthodologie. La disponibilité de logiciels, y compris d’autres packages libres pour R au-delà de ceux mentionnés ci-dessus, a contribué à rendre les méthodes accessibles à un public plus large.

Haussler et al. (1994) ont montré que lorsque BMA est utilisé pour la classification, son erreur attendue est au plus le double de l’erreur attendue du classificateur optimal de Bayes.

Combinaison de modèles bayésiensmodifier

La combinaison de modèles bayésiens (BMC) est une correction algorithmique de la moyenne du modèle bayésien (BMA). Au lieu d’échantillonner chaque modèle de l’ensemble individuellement, il échantillonne à partir de l’espace des ensembles possibles (avec des pondérations de modèle tirées aléatoirement à partir d’une distribution de Dirichlet ayant des paramètres uniformes). Cette modification vient à bout de la tendance de la BMA à converger vers l’attribution de tout le poids à un seul modèle. Bien que le BMC soit un peu plus coûteux en calcul que le BMA, il a tendance à donner des résultats nettement meilleurs. Les résultats de la BMC se sont révélés meilleurs en moyenne (avec une signification statistique) que ceux de la BMA et de l’ensachage.

L’utilisation de la loi de Bayes pour calculer les poids des modèles nécessite de calculer la probabilité des données données par chaque modèle. En règle générale, aucun des modèles de l’ensemble n’est exactement la distribution à partir de laquelle les données d’apprentissage ont été générées, de sorte qu’ils reçoivent tous correctement une valeur proche de zéro pour ce terme. Cela fonctionnerait bien si l’ensemble était assez grand pour échantillonner l’ensemble de l’espace modèle, mais cela est rarement possible. Par conséquent, chaque motif dans les données d’entraînement entraînera un déplacement du poids de l’ensemble vers le modèle de l’ensemble le plus proche de la distribution des données d’entraînement. Il se réduit essentiellement à une méthode inutilement complexe pour effectuer la sélection du modèle.

Les pondérations possibles pour un ensemble peuvent être visualisées comme se trouvant sur un simplexe. À chaque sommet du simplexe, tout le poids est donné à un seul modèle de l’ensemble. BMA converge vers le sommet le plus proche de la distribution des données d’apprentissage. En revanche, BMC converge vers le point où cette distribution se projette sur le simplexe. En d’autres termes, au lieu de sélectionner le modèle le plus proche de la distribution génératrice, il recherche la combinaison de modèles le plus proche de la distribution génératrice.

Les résultats de BMA peuvent souvent être approximés en utilisant la validation croisée pour sélectionner le meilleur modèle à partir d’un groupe de modèles. De même, les résultats de BMC peuvent être approximés en utilisant la validation croisée pour sélectionner la meilleure combinaison d’ensemble à partir d’un échantillonnage aléatoire de pondérations possibles.

Bucket of modelsEdit

Un « bucket of models » est une technique d’ensemble dans laquelle un algorithme de sélection de modèle est utilisé pour choisir le meilleur modèle pour chaque problème. Lorsqu’il est testé avec un seul problème, un seau de modèles ne peut pas produire de meilleurs résultats que le meilleur modèle de l’ensemble, mais lorsqu’il est évalué sur de nombreux problèmes, il produira généralement de bien meilleurs résultats, en moyenne, que n’importe quel modèle de l’ensemble.

L’approche la plus couramment utilisée pour la sélection de modèles est la sélection par validation croisée (parfois appelée « concours de cuisson »). Il est décrit avec le pseudo-code suivant:

For each model m in the bucket: Do c times: (where 'c' is some constant) Randomly divide the training dataset into two datasets: A, and B. Train m with A Test m with BSelect the model that obtains the highest average score

La sélection de validation croisée peut se résumer comme suit: « essayez-les tous avec l’ensemble d’entraînement, et choisissez celui qui fonctionne le mieux ».

Gating est une généralisation de la sélection par validation Croisée. Cela implique de former un autre modèle d’apprentissage pour décider lequel des modèles du compartiment est le mieux adapté pour résoudre le problème. Souvent, un perceptron est utilisé pour le modèle de déclenchement. Il peut être utilisé pour choisir le « meilleur » modèle, ou il peut être utilisé pour donner un poids linéaire aux prédictions de chaque modèle dans le compartiment.

Lorsqu’un seau de modèles est utilisé avec un grand nombre de problèmes, il peut être souhaitable d’éviter de former certains des modèles qui prennent beaucoup de temps à s’entraîner. Landmark learning est une approche de méta-apprentissage qui cherche à résoudre ce problème. Cela implique de n’entraîner que les algorithmes rapides (mais imprécis) dans le compartiment, puis d’utiliser les performances de ces algorithmes pour déterminer quel algorithme lent (mais précis) est le plus susceptible de faire le mieux.

StackingEdit

L’empilement (parfois appelé généralisation empilée) consiste à entraîner un algorithme d’apprentissage pour combiner les prédictions de plusieurs autres algorithmes d’apprentissage. Tout d’abord, tous les autres algorithmes sont entraînés en utilisant les données disponibles, puis un algorithme de combineur est entraîné pour faire une prédiction finale en utilisant toutes les prédictions des autres algorithmes comme entrées supplémentaires. Si un algorithme de combineur arbitraire est utilisé, l’empilement peut théoriquement représenter l’une des techniques d’ensemble décrites dans cet article, bien que, dans la pratique, un modèle de régression logistique soit souvent utilisé comme combinateur.

L’empilement donne généralement des performances meilleures que n’importe lequel des modèles entraînés. Il a été utilisé avec succès à la fois sur des tâches d’apprentissage supervisées (régression, classification et apprentissage à distance) et sur des apprentissages non supervisés (estimation de la densité). Il a également été utilisé pourestimer le taux d’erreur de l’ensachage. Il a été rapporté qu’il surpassait la moyenne du modèle bayésien.Les deux plus performants de la compétition Netflix ont utilisé le mélange, qui peut être considéré comme une forme d’empilement.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *