분류하는 과정을 예측하는 클래스의 주어진 데이터 포인트입니다. 클래스는 때때로 대상/레이블 또는 카테고리로 호출됩니다. 분류 예측 모델링은 입력 변수(X)에서 이산 출력 변수(y)로 매핑 함수(f)를 근사화하는 작업입니다.
예를 들어,전자 메일 서비스 제공 업체의 스팸 탐지는 분류 문제로 식별 될 수 있습니다. 스팸이 아닌 스팸으로 2 개의 클래스 만 있기 때문에 이것은 s 이진 분류입니다. 분류자는 주어진 입력 변수가 클래스와 어떻게 관련되는지 이해하기 위해 일부 교육 데이터를 사용합니다. 이 경우 알려진 스팸 및 비 스팸 전자 메일을 교육 데이터로 사용해야합니다. 분류자가 정확하게 훈련되면 알 수 없는 이메일을 탐지하는 데 사용될 수 있습니다.
분류는 대상이 또한 입력 데이터를 제공 감독 학습의 범주에 속한다. 많은 응용 프로그램에서 분류에 많은 도메인에서와 같이 신용 승인이 의학적 진단,대상 마케팅 등입니다.
게으른 학습자와 열망하는 학습자로 분류에는 두 가지 유형의 학습자가 있습니다.
- 게으른 학습자
게으른 학습자에 단순히 훈련 데이터를 저장하고 기다릴 때까지 테스트 데이터가 나타납니다. 그렇게 할 때 저장된 교육 데이터에서 가장 관련이있는 데이터를 기반으로 분류가 수행됩니다. 열망하는 학습자와 비교할 때,게으른 학습자는 훈련 시간이 적지 만 예측에 더 많은 시간을 보냅니다.
Ex. k-가장 가까운 이웃 사례 기반 추론
2. 열망하는 학습자
열망하는 학습자 구조 분류 모델을 기반으로 주어진 훈련 데이터를 받기 전에 대한 데이터를 분류하고 있습니다. 전체 인스턴스 공간을 포괄하는 단일 가설을 커밋 할 수 있어야합니다. 모델 구축으로 인해 열망하는 학습자는 열차에 오랜 시간이 걸리고 예측 시간이 줄어 듭니다.
Ex. 결정 트리 Naive Bayes,인공 신경망
분류 알고리즘
는 많은 분류 알고리즘을 사용할 수 있지만 그것을 가능하지 않은 결론을 하는 우수하다. 사용 가능한 데이터 세트의 응용 프로그램 및 특성에 따라 다릅니다. 는 경우,예를 들어 클래스를 선형적으로 분리 가능,선형 분류 같은 로지스틱 회귀분석,피셔의 선형 판별할 수 있는 뛰어나다 정교한 모델과 그 반대입니다.
의사 결정 트리
결정을 내리 빌드를 분류하거나 회귀분석 모델의 형태로는 나무 구조입니다. 그것은 분류를 위해 상호 배타적이고 철저한 if-then 규칙 세트를 사용합니다. 규칙은 훈련 데이터를 한 번에 하나씩 사용하여 순차적으로 학습됩니다. 규칙을 배울 때마다 규칙이 적용되는 튜플이 제거됩니다. 이 프로세스는 종료 조건을 충족 할 때까지 교육 세트에서 계속됩니다.
트리는 하향식 재귀 분할 및 정복 방식으로 구성됩니다. 모든 속성은 범주 형이어야합니다. 그렇지 않으면 사전에 이산 처리해야합니다. 트리 상단의 속성은 분류에 대한 더 많은 영향을 미치며 정보 이득 개념을 사용하여 식별됩니다.
의사 결정 트리할 수 있습을 통해 쉽게 장착 생성하기 너무 많이 가지고 있습을 반영상으로 인해 소음이나 특이하다. 이상 장착 모델은 매우 사용 가능한 보이지 않는 데이터더라도 그것은 인상적인 성능을 제공합 훈련에 데이터입니다. 이것은 피할 수 있에 의해 미리 정이 중단 하는 나무 건축기 또는 사후 치기로 제거하는 지사에서 완전히 성장한 나무입니다.
Naive Bayes
Naive Bayes 은 확률론적 분류에서 영감을 Bayes 정리 아래에서 간단한 가정의 특성은 조건에 따라 독립적입니다.
분류에 의해 수행되는 파생되는 최대 후부는 최대 P(Ci|X)위의 가정을 적용하는 Bayes 정리했습니다. 이 가정은 클래스 분포 만 계산하여 계산 비용을 크게 줄입니다. 비록 가정에 유효하지 않습니다 대부분의 경우 때문에 특성에 따라 놀라 울 정도로 Naive Bayes 이 있을 수행할 수 있 인상적으로 표현되었습니다.
Naive Bayes 는 구현하는 매우 간단한 알고리즘이며 대부분의 경우 좋은 결과를 얻었습니다. 그것은 쉽게 확장하는 더 큰 데이터 집합이 소요되기 때문에 선 시간,오히려 비싼 반복적인 근사치로 사용되는 많은 다른 유형의 분류.
Naive Bayes 는 제로 확률 문제라는 문제로 고통받을 수 있습니다. 특정 특성에 대해 조건부 확률이 0 일 때 유효한 예측을 제공하지 못합니다. 이것은 라플라시안 추정기를 사용하여 명시 적으로 수정해야합니다.
인공 신경망
인공 신경 네트워크의 연결되어 입력/출력 단위는 각각 연결하는 무게 그와 관련된 심리학자들에 의해 시작되고 신경 생물 학자를 개발하고 테스트 연산 유사체의 신경 세포. 학습 단계에서 네트워크는 입력 튜플의 올바른 클래스 레이블을 예측할 수 있도록 가중치를 조정하여 학습합니다.
피드 포워드,컨볼 루션,반복 등과 같은 많은 네트워크 아키텍처가 있습니다. 적절한 아키텍처는 모델의 적용에 따라 다릅니다. 대부분의 경우에는 먹이를 앞으로 모델을 제공 합리적으로 정확한 결과를 위해 특별히 이미지 프로세싱 어플리케이션,나선형 네트워크에 더 나은 수행합니다.
모델에 의해 매핑 될 함수의 복잡성에 따라 모델에 여러 개의 숨겨진 레이어가있을 수 있습니다. 더 많은 숨겨진 레이어가 있으면 깊은 신경망과 같은 복잡한 관계를 모델링 할 수 있습니다.그러나 숨겨진 레이어가 많으면 와이트를 훈련하고 조정하는 데 많은 시간이 걸립니다. 다른 단점이가 가난한 해석 가능성의 모델로 다른 모델에 비해 다음과 같 의사 결정 때문에 알 수 없는 상징적인 의미를 배웠습니다.
그러나 인공 신경망은 대부분의 실제 응용 분야에서 인상적으로 수행되었습니다. 시끄러운 데이터에 대한 내성이 높고 훈련받지 않은 패턴을 분류 할 수 있습니다. 일반적으로 인공 신경망은 연속 값 입력 및 출력으로 더 잘 수행됩니다.
모든 위의 알고리즘을 열망하는 학생들 때문에 그들은 기차 모델에서 진행하는 일반화 교육 데이터는 사용을 위한 예측니다.
k-가장 가까운 이웃(KNN)
k 가장 가까운 이웃은 게으른 학습 알고리즘을 저장하는 모든 경우에 해당하는 훈련 데이터에 포인트를 다차원 공간입니다. 알 수 없는 개별 데이터를 수신,그것을 분석하고 가장 가까운 k 수의 인스턴스 저장(가장 가까운 이웃)반환한 가장 일반적으로 예측하고 실제 중요한 데이터를 반환합니다 것을 의미의 k 장 가까운 이웃이 있습니다.
에서는 거리-가중 가장 가까운 이웃 알고리즘,그것에 무게를 기여의 각각의 이웃에 따라 그들의 거리를 사용하여 다음과 같은 쿼리에게 더 큰 비중을 가장 가까운 이웃이 있습니다.
Usually KNN is robust to noisy data since it is averaging the k-nearest neighbors.