la Clasificación es el proceso de predecir la clase de puntos de datos. Las clases a veces se llaman como destinos/ etiquetas o categorías. El modelado predictivo de clasificación es la tarea de aproximar una función de mapeo (f) de variables de entrada (X) a variables de salida discretas (y).
Por ejemplo, la detección de spam en los proveedores de servicios de correo electrónico se puede identificar como un problema de clasificación. Esta es la clasificación binaria s, ya que solo hay 2 clases como spam y no spam. Un clasificador utiliza algunos datos de entrenamiento para comprender cómo determinadas variables de entrada se relacionan con la clase. En este caso, los correos electrónicos conocidos de spam y no spam deben usarse como datos de entrenamiento. Cuando el clasificador se entrena con precisión, se puede usar para detectar un correo electrónico desconocido.La clasificación
pertenece a la categoría de aprendizaje supervisado en la que los destinatarios también proporcionaron los datos de entrada. Hay muchas aplicaciones en clasificación en muchos dominios, como la aprobación de créditos, el diagnóstico médico,la comercialización de objetivos, etc.
Hay dos tipos de alumnos clasificados como alumnos perezosos y alumnos ansiosos.
- Alumnos perezosos
Alumnos perezosos simplemente almacene los datos de entrenamiento y espere hasta que aparezcan los datos de prueba. Cuando lo hace, la clasificación se realiza en función de los datos más relacionados en los datos de entrenamiento almacenados. En comparación con los estudiantes ansiosos, los estudiantes perezosos tienen menos tiempo de entrenamiento, pero más tiempo para predecir.
Ex. k-vecino más cercano, Razonamiento basado en casos
2. Aprendices ansiosos
Aprendices ansiosos construyen un modelo de clasificación basado en los datos de entrenamiento dados antes de recibir los datos para la clasificación. Debe ser capaz de comprometerse a una sola hipótesis que cubra todo el espacio de instancia. Debido a la construcción del modelo, los estudiantes ansiosos tardan mucho tiempo en entrenar y menos en predecir.
Ex. Árbol de Decisión, Bayes Ingenuos, Redes Neuronales Artificiales
Algoritmos de clasificación
Hay muchos algoritmos de clasificación disponibles ahora, pero no es posible concluir cuál es superior a otro. Depende de la aplicación y la naturaleza del conjunto de datos disponible. Por ejemplo, si las clases son linealmente separables, los clasificadores lineales como la regresión logística, el discriminante lineal de Fisher puede superar a los modelos sofisticados y viceversa.
Árbol de Decisión
Árbol de decisión se basa la clasificación o regresión de los modelos en la forma de una estructura de árbol. Utiliza un conjunto de reglas if-then que son mutuamente excluyentes y exhaustivas para la clasificación. Las reglas se aprenden secuencialmente utilizando los datos de entrenamiento uno a la vez. Cada vez que se aprende una regla, se eliminan las tuplas cubiertas por las reglas. Este proceso se continúa en el set de entrenamiento hasta que se cumpla una condición de terminación.
El árbol está construido de una manera recursiva de arriba hacia abajo de dividir y conquistar. Todos los atributos deben ser categóricos. De lo contrario, deben ser discretizados por adelantado. Los atributos en la parte superior del árbol tienen más impacto en la clasificación y se identifican utilizando el concepto de ganancia de información.
Un árbol de decisiones puede ajustarse fácilmente generando demasiadas ramas y puede reflejar anomalías debido al ruido o valores atípicos. Un modelo sobreajustado tiene un rendimiento muy bajo en los datos invisibles, a pesar de que ofrece un rendimiento impresionante en los datos de entrenamiento. Esto se puede evitar mediante la poda previa, que detiene la construcción temprana del árbol, o la poda posterior, que elimina las ramas del árbol completamente crecido.
Naive Bayes
Naive Bayes es un clasificador probabilístico inspirado en el teorema de Bayes bajo una suposición simple que es que los atributos son condicionalmente independientes.
La clasificación se lleva a cabo por obtener los máximos posterior que es el máximo de P(Ci|X) con la hipótesis anterior aplicando el teorema de Bayes. Esta suposición reduce en gran medida el costo computacional al contar solo la distribución de clases. A pesar de que la suposición no es válida en la mayoría de los casos, ya que los atributos son dependientes, sorprendentemente Ingenuo Bayes ha sido capaz de realizar de manera impresionante.
Naive Bayes es un algoritmo muy simple de implementar y se han obtenido buenos resultados en la mayoría de los casos. Puede escalarse fácilmente a conjuntos de datos más grandes, ya que toma tiempo lineal, en lugar de una costosa aproximación iterativa como se usa para muchos otros tipos de clasificadores.
Los Bayes ingenuos pueden sufrir un problema llamado problema de probabilidad cero. Cuando la probabilidad condicional es cero para un atributo en particular, no da una predicción válida. Esto necesita ser corregido explícitamente usando un estimador laplaciano.
Redes Neuronales Artificiales
Red Neuronal Artificial es un conjunto de conexión de la entrada/salida de las unidades, donde cada conexión tiene un peso asociado con la que comenzó por los psicólogos y neurobiólogos para desarrollar y probar computacional análogos de las neuronas. Durante la fase de aprendizaje, la red aprende ajustando los pesos para poder predecir la etiqueta de clase correcta de las tuplas de entrada.
Hay muchas arquitecturas de red disponibles ahora como Feed-forward, Convolucional, Recurrente, etc. La arquitectura adecuada depende de la aplicación del modelo. En la mayoría de los casos, los modelos de avance proporcionan resultados razonablemente precisos y, especialmente para aplicaciones de procesamiento de imágenes, las redes convolucionales funcionan mejor.
Puede haber múltiples capas ocultas en el modelo dependiendo de la complejidad de la función que va a ser mapeada por el modelo. Tener más capas ocultas permitirá modelar relaciones complejas, como redes neuronales profundas.
Sin embargo, cuando hay muchas capas ocultas, se necesita mucho tiempo para entrenar y ajustar las medias. La otra desventaja es la mala interpretabilidad del modelo en comparación con otros modelos como Árboles de Decisión debido al significado simbólico desconocido detrás de los pesos aprendidos.
Pero las Redes Neuronales artificiales han tenido un rendimiento impresionante en la mayoría de las aplicaciones del mundo real. Es altamente tolerante a datos ruidosos y capaz de clasificar patrones no entrenados. Por lo general, las Redes Neuronales artificiales funcionan mejor con entradas y salidas de valor continuo.
Todos los algoritmos anteriores son aprendices ansiosos, ya que entrenan un modelo por adelantado para generalizar los datos de entrenamiento y usarlos para la predicción más adelante.
k-vecinos más cercanos (KNN)
k-Vecino más cercano es un perezoso algoritmo de aprendizaje que almacena todos los casos corresponden a la formación de puntos de datos en el espacio n-dimensional. Cuando se recibe un dato discreto desconocido, analiza el número k más cercano de instancias guardadas (vecinos más cercanos)y devuelve la clase más común como predicción y, para los datos de valor real, devuelve la media de k vecinos más cercanos.
En el algoritmo vecino más cercano ponderado por distancia, pondera la contribución de cada uno de los vecinos k de acuerdo con su distancia utilizando la siguiente consulta dando mayor peso a los vecinos más cercanos.
Usually KNN is robust to noisy data since it is averaging the k-nearest neighbors.