Klassifizierung ist der Prozess der Vorhersage der Klasse bestimmter Datenpunkte. Klassen werden manchmal als Ziele / Labels oder Kategorien bezeichnet. Klassifikation Prädiktive Modellierung ist die Aufgabe, eine Abbildungsfunktion (f) von Eingangsvariablen (X) zu diskreten Ausgangsvariablen (y) zu approximieren.
Beispielsweise kann die Spam-Erkennung bei E-Mail-Dienstanbietern als Klassifizierungsproblem identifiziert werden. Dies ist eine binäre Klassifizierung, da es nur 2 Klassen als Spam und nicht als Spam gibt. Ein Klassifikator verwendet einige Trainingsdaten, um zu verstehen, wie sich gegebene Eingabevariablen auf die Klasse beziehen. In diesem Fall müssen bekannte Spam- und Nicht-Spam-E-Mails als Trainingsdaten verwendet werden. Wenn der Klassifikator genau trainiert wird, kann er verwendet werden, um eine unbekannte E-Mail zu erkennen.
Klassifizierung gehört zu der Kategorie des überwachten Lernens, wo die Ziele auch mit den Eingabedaten zur Verfügung gestellt. Es gibt viele Anwendungen in der Klassifizierung in vielen Bereichen wie in der Kreditgenehmigung, medizinische Diagnose, Zielmarketing usw.
Es gibt zwei Arten von Lernenden in der Klassifizierung als faule Lernende und eifrige Lernende.
Faule Lernende
Faule Lernende speichern einfach die Trainingsdaten und warten, bis Testdaten angezeigt werden. Wenn dies der Fall ist, wird die Klassifizierung basierend auf den am meisten verwandten Daten in den gespeicherten Trainingsdaten durchgeführt. Im Vergleich zu eifrigen Lernenden haben faule Lernende weniger Trainingszeit, aber mehr Zeit für Vorhersagen.
Eifrige Lernende konstruieren ein Klassifikationsmodell basierend auf den gegebenen Trainingsdaten, bevor sie Daten zur Klassifizierung erhalten. Es muss in der Lage sein, sich auf eine einzelne Hypothese festzulegen, die den gesamten Instanzraum abdeckt. Aufgrund der Modellkonstruktion benötigen eifrige Lernende viel Zeit für den Zug und weniger Zeit für die Vorhersage.
Es gibt jetzt viele Klassifizierungsalgorithmen, aber es ist nicht möglich zu schließen, welcher anderen überlegen ist. Dies hängt von der Anwendung und der Art des verfügbaren Datensatzes ab. Wenn die Klassen beispielsweise linear trennbar sind, können die linearen Klassifikatoren wie die logistische Regression und die lineare Diskriminante von Fisher anspruchsvolle Modelle übertreffen und umgekehrt.