La classification est le processus de prédiction de la classe de points de données donnés. Les classes sont parfois appelées cibles / étiquettes ou catégories. La modélisation prédictive de classification consiste à approximer une fonction de mappage (f) des variables d’entrée (X) aux variables de sortie discrètes (y).
Par exemple, la détection de spam chez les fournisseurs de services de messagerie peut être identifiée comme un problème de classification. Il s’agit de la classification binaire s car il n’y a que 2 classes comme spam et non comme spam. Un classificateur utilise certaines données de formation pour comprendre comment les variables d’entrée données se rapportent à la classe. Dans ce cas, les e-mails de spam et non-spam connus doivent être utilisés comme données de formation. Lorsque le classificateur est formé avec précision, il peut être utilisé pour détecter un e-mail inconnu.
La classification appartient à la catégorie de l’apprentissage supervisé où les cibles ont également fourni les données d’entrée. Il existe de nombreuses applications en classification dans de nombreux domaines tels que l’approbation de crédit, le diagnostic médical, le marketing cible, etc.
Il existe deux types d’apprenants dans la classification en tant qu’apprenants paresseux et apprenants impatients.
- Les apprenants paresseux
Les apprenants paresseux stockent simplement les données d’entraînement et attendent qu’une donnée de test apparaisse. Lorsque c’est le cas, la classification est effectuée sur la base des données les plus connexes dans les données d’entraînement stockées. Par rapport aux apprenants impatients, les apprenants paresseux ont moins de temps de formation mais plus de temps pour prédire.
Ex. k – voisin le plus proche, raisonnement basé sur des cas
2. Les apprenants impatients
Les apprenants impatients construisent un modèle de classification basé sur les données de formation données avant de recevoir des données pour la classification. Il doit pouvoir s’engager sur une seule hypothèse qui couvre tout l’espace d’instance. En raison de la construction du modèle, les apprenants impatients prennent beaucoup de temps pour s’entraîner et moins de temps pour prédire.
Ex. Arbre de décision, Bayes Naïves, Réseaux de neurones artificiels
Algorithmes de classification
Il y a beaucoup d’algorithmes de classification disponibles maintenant mais il n’est pas possible de conclure lequel est supérieur aux autres. Cela dépend de l’application et de la nature de l’ensemble de données disponible. Par exemple, si les classes sont séparables linéairement, les classificateurs linéaires comme la régression logistique, le discriminant linéaire de Fisher peut surpasser les modèles sophistiqués et vice versa.
Arbre de décision
L’arbre de décision construit des modèles de classification ou de régression sous la forme d’une structure arborescente. Il utilise un ensemble de règles if-then qui s’excluent mutuellement et sont exhaustives pour la classification. Les règles sont apprises séquentiellement en utilisant les données d’entraînement une à la fois. Chaque fois qu’une règle est apprise, les tuples couverts par les règles sont supprimés. Ce processus est poursuivi sur l’ensemble de formation jusqu’à ce qu’une condition de résiliation soit remplie.
L’arbre est construit d’une manière récursive de division et de conquête de haut en bas. Tous les attributs doivent être catégoriques. Sinon, ils devraient être discrétisés à l’avance. Les attributs au sommet de l’arbre ont plus d’impact dans la classification et ils sont identifiés à l’aide du concept de gain d’information.
Un arbre de décision peut être facilement sur-ajusté générant trop de branches et peut refléter des anomalies dues au bruit ou des valeurs aberrantes. Un modèle suréquipé a de très mauvaises performances sur les données invisibles même s’il donne des performances impressionnantes sur les données d’entraînement. Cela peut être évité en pré-élagage qui arrête la construction des arbres tôt ou en post-élagage qui enlève les branches de l’arbre adulte.
Bayes Naïves
Bayes Naïves est un classificateur probabiliste inspiré du théorème de Bayes sous une hypothèse simple qui est que les attributs sont conditionnellement indépendants.
La classification est effectuée en dérivant le maximum postérieur qui est le maximum P (Ci/X) avec l’hypothèse ci-dessus s’appliquant au théorème de Bayes. Cette hypothèse réduit considérablement le coût de calcul en ne comptant que la distribution de classe. Même si l’hypothèse n’est pas valide dans la plupart des cas puisque les attributs sont dépendants, Bayes, étonnamment naïf, a pu effectuer de manière impressionnante.
Naïve Bayes est un algorithme très simple à mettre en œuvre et de bons résultats ont été obtenus dans la plupart des cas. Il peut être facilement évolutif pour des ensembles de données plus importants car il prend du temps linéaire, plutôt que par une approximation itérative coûteuse comme utilisée pour de nombreux autres types de classificateurs.
Les Bayes naïfs peuvent souffrir d’un problème appelé problème de probabilité nulle. Lorsque la probabilité conditionnelle est nulle pour un attribut particulier, elle ne donne pas de prédiction valide. Cela doit être corrigé explicitement à l’aide d’un estimateur laplacien.
Réseaux de neurones artificiels
Le réseau de neurones artificiels est un ensemble d’unités d’entrée / sortie connectées où chaque connexion a un poids associé, commencé par des psychologues et des neurobiologistes pour développer et tester des analogues informatiques de neurones. Pendant la phase d’apprentissage, le réseau apprend en ajustant les poids de manière à pouvoir prédire l’étiquette de classe correcte des tuples d’entrée.
Il existe de nombreuses architectures réseau disponibles maintenant comme Feed-forward, Convolutive, récurrente, etc. L’architecture appropriée dépend de l’application du modèle. Dans la plupart des cas, les modèles d’avance donnent des résultats raisonnablement précis et, en particulier pour les applications de traitement d’images, les réseaux convolutifs fonctionnent mieux.
Il peut y avoir plusieurs couches cachées dans le modèle en fonction de la complexité de la fonction qui va être mappée par le modèle. Avoir plus de couches cachées permettra de modéliser des relations complexes telles que des réseaux de neurones profonds.
Cependant, lorsqu’il y a beaucoup de couches cachées, il faut beaucoup de temps pour s’entraîner et ajuster les wights. L’autre inconvénient de est la mauvaise interprétabilité du modèle par rapport à d’autres modèles comme les arbres de décision en raison de la signification symbolique inconnue derrière les poids appris.
Mais les réseaux de neurones artificiels ont des performances impressionnantes dans la plupart des applications du monde réel. C’est une tolérance élevée aux données bruyantes et capable de classer les modèles non formés. Habituellement, les réseaux de neurones artificiels fonctionnent mieux avec des entrées et des sorties à valeur continue.
Tous les algorithmes ci-dessus sont des apprenants enthousiastes car ils entraînent un modèle à l’avance pour généraliser les données d’entraînement et les utiliser pour la prédiction plus tard.
k – Voisin le plus proche (KNN)
k- Le plus proche voisin est un algorithme d’apprentissage paresseux qui stocke toutes les instances correspondent à des points de données d’entraînement dans un espace à n dimensions. Lorsqu’une donnée discrète inconnue est reçue, elle analyse le nombre k d’instances enregistrées le plus proche (voisins les plus proches) et renvoie la classe la plus courante comme prédiction et pour les données à valeur réelle, elle renvoie la moyenne de k voisins les plus proches.
Dans l’algorithme du voisin le plus proche pondéré par la distance, il pondère la contribution de chacun des k voisins en fonction de leur distance en utilisant la requête suivante donnant plus de poids aux voisins les plus proches.
Usually KNN is robust to noisy data since it is averaging the k-nearest neighbors.