Classificação é o processo de prever a classe de pontos de dados. As Classes são chamadas às vezes como alvos/ etiquetas ou categorias. Modelagem preditiva de classificação é a tarefa de aproximar uma função de mapeamento (f) de variáveis de entrada (X) para variáveis de saída discretas (y).
Por exemplo, a detecção de spam em prestadores de serviços de email pode ser identificada como um problema de classificação. Esta é a classificação binária desde que existem apenas 2 classes como spam e não spam. Um classificador utiliza alguns dados de treinamento para entender como as variáveis de entrada dadas se relacionam com a classe. Neste caso, spam conhecido e E-mails não-spam têm que ser usados como os dados de treinamento. Quando o classificador é treinado com precisão, ele pode ser usado para detectar um e-mail desconhecido.
A Classificação pertence à categoria de aprendizagem supervisionada, onde os objectivos também foram fornecidos com os dados de entrada. Há muitas aplicações na classificação em muitos domínios, tais como na aprovação de crédito, diagnóstico médico, marketing alvo, etc.
Há dois tipos de aprendentes em classificação como aprendizes preguiçosos e aprendizes ansiosos.aprendizes preguiçosos aprendizes preguiçosos aprendizes preguiçosos simplesmente armazenam os dados da formação e esperam até que os dados dos testes apareçam. Quando o faz, a classificação é realizada com base nos dados mais relacionados nos dados de treinamento armazenados. Em comparação com aprendizes ansiosos, aprendizes preguiçosos têm menos tempo de treinamento, mas mais tempo na previsão.
Ex. K-vizinho mais próximo, raciocínio baseado em casos
2. Aprendizes ansiosos
aprendizes ansiosos constroem um modelo de classificação baseado nos dados de formação fornecidos antes de receberem dados para classificação. Deve ser capaz de se comprometer com uma única hipótese que cobre todo o espaço de instância. Devido à construção do modelo, aprendizes ansiosos levam muito tempo para treinar e menos tempo para prever.
Ex. Árvore de decisão, Naive Bayes, Redes Neurais Artificiais
algoritmos de Classificação
Há um monte de algoritmos de classificação disponível agora, mas não é possível concluir que um é superior ao outro. Depende da aplicação e da natureza do conjunto de dados disponíveis. Por exemplo, se as classes são linearmente separáveis, os classificadores lineares como regressão logística, o discriminante linear de Fisher pode superar modelos sofisticados e vice-versa.
Árvore de Decisão
Árvore de decisão compilações de classificação ou de modelos de regressão na forma de uma estrutura de árvore. Utiliza um conjunto de regras if-then que é mutuamente exclusivo e exaustivo para a classificação. As regras são aprendidas sequencialmente usando os dados de treinamento um de cada vez. Cada vez que uma regra é aprendida, as tuplas cobertas pelas regras são removidas. Este processo é continuado no conjunto de treinamento até o cumprimento de uma condição de terminação.
A árvore é construída de uma maneira de dividir para conquistar de cima para baixo. Todos os atributos devem ser categóricos. Caso contrário, eles devem ser discretizados antecipadamente. Os atributos no topo da árvore têm mais impacto na classificação e são identificados usando o conceito de ganho de informação.
uma árvore de decisão pode ser facilmente sobre-montada gerando demasiados ramos e pode reflectir anomalias devidas ao ruído ou a valores anómalos. Um modelo super-equipado tem um desempenho muito fraco sobre os dados invisíveis, mesmo que ele dá um desempenho impressionante em dados de treinamento. Isto pode ser evitado através da pré-poda que interrompe a construção das árvores no início ou após a poda que remove os ramos da árvore totalmente cultivada.
Naive Bayes
Naive Bayes é um classificador probabilístico inspirado pelo teorema de Bayes em um simples pressuposto que os atributos são condicionalmente independentes.
A classificação é realizada por derivar o máximo posterior, que é o máximo de P(Ci|X) com o pressuposto acima aplicando teorema de Bayes. Esta suposição reduz grandemente o custo computacional contando apenas a distribuição de classe. Mesmo que a suposição não seja válida na maioria dos casos, uma vez que os atributos são dependentes, Bayes surpreendentemente ingênuo é capaz de executar de forma impressionante.
ingênuo Bayes é um algoritmo muito simples de implementar e bons resultados têm obtido na maioria dos casos. Pode ser facilmente escalável para conjuntos de dados maiores, uma vez que leva tempo linear, ao invés de uma aproximação iterativa cara como usado para muitos outros tipos de classificadores.Bayes ingênuos podem sofrer de um problema chamado problema de probabilidade zero. Quando a probabilidade condicional é zero para um atributo particular, ele não dá uma previsão válida. Isto precisa ser corrigido explicitamente usando um estimador Laplaciano.
Redes Neurais Artificiais
Artificial Neural Network é um conjunto de ligação de entrada/saída de unidades, onde cada conexão tem um peso associado a ele iniciado por psicólogos e neurobiologists para desenvolver e testar computacional análogos de neurônios. Durante a fase de aprendizagem, a rede aprende ajustando os pesos de modo a ser capaz de prever o rótulo de classe correto das tuplas de entrada.
Existem muitas arquiteturas de rede disponíveis agora, como Feed-forward, convolucional, recorrente, etc. A arquitetura apropriada depende da aplicação do modelo. Para a maioria dos casos, os modelos feed-forward dão resultados razoavelmente precisos e, especialmente para aplicações de processamento de imagens, as redes convolucionais funcionam melhor.
pode haver várias camadas ocultas no modelo dependendo da complexidade da função que vai ser mapeada pelo modelo. Ter mais camadas escondidas permitirá modelar relações complexas como redes neurais profundas.
no entanto, quando existem muitas camadas ocultas, leva muito tempo para treinar e ajustar as ligações. A outra desvantagem é a má interpretação do modelo em comparação com outros modelos como árvores de decisão devido ao significado simbólico desconhecido por trás dos pesos aprendidos.mas as redes neurais artificiais têm sido impressionantes na maioria das aplicações do mundo real. É alta tolerância a dados ruidosos e capaz de classificar padrões não treinados. Normalmente, as Redes Neurais Artificiais funcionam melhor com Entradas e saídas de valor contínuo.
todos os algoritmos acima são aprendizes ansiosos, uma vez que eles treinam um modelo com antecedência para generalizar os dados de treinamento e usá-lo para a previsão mais tarde.
k-Vizinho mais próximo (KNN)
k-Vizinho mais próximo é um preguiçoso algoritmo de aprendizagem que armazena todas as instâncias correspondem aos dados de treinamento, os pontos no espaço n-dimensional. Quando um dado discreto desconhecido é recebido, ele analisa o número k Mais Próximo de instâncias salvas (vizinhos mais próximos)e retorna a classe mais comum como a previsão e para dados de valor real ele retorna a média de K vizinhos mais próximos.
no algoritmo vizinho mais próximo ponderado à distância, pesa a contribuição de cada um dos vizinhos k de acordo com a sua distância, usando a seguinte consulta dando maior peso aos vizinhos mais próximos.
Usually KNN is robust to noisy data since it is averaging the k-nearest neighbors.