分類は、与えられたデータポイントのクラスを予測するプロセスです。 クラスは、ターゲット/ラベルまたはカテゴリと呼ばれることがあります。 分類予測モデリングは、入力変数(X)から離散出力変数(y)へのマッピング関数(f)を近似するタスクです。
たとえば、電子メールサービスプロバイダでのスパム検出は、分類の問題として識別できます。 スパムとスパムではない2つのクラスしかないので、これはsバイナリ分類です。 分類器は、与えられた入力変数がクラスにどのように関連するかを理解するためにいくつかの訓練データを利用する。 この場合、既知のスパムメールとスパム以外のメールをトレーニングデータとして使用する必要があります。 分類子が正確に訓練されると、未知の電子メールを検出するために使用できます。
分類は、ターゲットが入力データを提供する教師あり学習のカテゴリに属します。 信用の承認、医学診断、ターゲットマーケティング等のような多くの範囲の分類に多くの適用があります。
怠惰な学習者と熱心な学習者として分類されている学習者には二つのタイプがあります。
- 怠惰な学習者
怠惰な学習者は、単にトレーニングデータを保存し、テストデータが表示されるまで待ちます。 そうである場合、分類は、格納されたトレーニングデータの中で最も関連するデータに基づいて行われます。 熱心な学習者と比較して、怠惰な学習者は、トレーニング時間が少なく、予測に多くの時間を持っています。
k-最近傍、ケースベースの推論
2。 Eager learners
Eager learnersは、分類のためのデータを受信する前に、与えられたトレーニングデータに基づいて分類モデルを構築します。 インスタンス空間全体をカバーする単一の仮説にコミットできる必要があります。 モデル構築のために、熱心な学習者は列車に長い時間がかかり、予測する時間が短くなります。
決定木、Naive Bayes、人工ニューラルネットワーク
分類アルゴリズム
現在利用可能な分類アルゴリズムはたくさんありますが、どちらが他のものより優れているかを結論付けることはできません。 これは、使用可能なデータセットのアプリケーションと性質に依存します。 たとえば、クラスが線形分離可能な場合、ロジスティック回帰、フィッシャーの線形判別式のような線形分類子は、洗練されたモデルよりも優れており、その逆も可能です。
決定ツリー
意思決定ツリーは、ツリー構造の形で分類または回帰モデルを構築します。 これは、分類のために相互に排他的かつ網羅的であるif-thenルールセットを利用する。 ルールは、学習データを一度に1つずつ使用して順番に学習されます。 ルールが学習されるたびに、ルールによってカバーされるタプルが削除されます。 このプロセスは、終了条件を満たすまでトレーニングセットで継続されます。
ツリーはトップダウンの再帰的な分割と征服の方法で構築されます。 すべての属性はcategoricalである必要があります。 それ以外の場合は、事前に離散化する必要があります。 ツリーの最上部にある属性は、分類に向けてより多くの影響を与え、それらは情報ゲインの概念を使用して識別されます。
決定木は、あまりにも多くの枝を生成する簡単にオーバーフィットすることができ、ノイズや外れ値による異常を反映する可能性があります。 過度に適合したモデルは、トレーニングデータに対して印象的なパフォーマンスを与えるにもかかわらず、目に見えないデータでは非常にパフォーマ これは木の構造を早く停止する前切り取るか、または十分に育てられた木から枝を取除く後切り取ることによって避けることができる。
Naive Bayes
Naive Bayesは、属性が条件付きで独立しているという単純な仮定の下でのベイズの定理に触発された確率的分類器です。p>
分類は、最大事後を導出することによって行われます。上記の仮定をベイズの定理に適用した最大p(ci|x)。 この仮定は、クラス分布を数えるだけで計算コストを大幅に削減します。 属性が依存しているため、ほとんどの場合、仮定は有効ではありませんが、驚くほどNaive Bayesは印象的に実行できます。
Naive Bayesは実装するのが非常に簡単なアルゴリズムであり、ほとんどの場合良い結果が得られています。 他の多くのタイプの分類器に使用されるような高価な反復近似ではなく、線形時間がかかるため、より大きなデータセットに簡単に拡張できます。
ナイーブベイズは、ゼロ確率問題と呼ばれる問題に苦しむことができます。 特定の属性の条件付き確率がゼロである場合、有効な予測を与えることができません。 これは、ラプラシアン推定器を使用して明示的に修正する必要があります。
人工ニューラルネットワーク
人工ニューラルネットワークは、各接続が神経細胞の計算類似体を開発し、テストするために心理学者や神経生物学者によって開始され、それに関連 学習フェーズでは、入力タプルの正しいクラスラベルを予測できるように重みを調整することによって、ネットワークが学習します。
フィードフォワード、畳み込み、再帰などのような多くのネットワークアーキテクチャが利用可能になりました。 適切なアーキテクチャは、モデルの適用に依存します。 ほとんどの場合、フィードフォワードモデルは合理的に正確な結果を与え、特に画像処理アプリケーションでは、畳み込みネットワークの性能が向上します。
モデルによってマッピングされる関数の複雑さに応じて、モデルに複数の隠れたレイヤーが存在する可能性があります。 より多くの隠れ層を持つことは、深いニューラルネットワークのような複雑な関係をモデル化することを可能にする。しかし、多くの隠れた層がある場合、それは訓練し、wightsを調整するために多くの時間がかかります。
しかし、多くの隠れた層がある場合、それは訓練し、 他の欠点は、学習された重みの背後にある未知の象徴的な意味のために、決定木のような他のモデルと比較してモデルの解釈性が低いことです。
しかし、人工ニューラルネットワークは、現実世界のアプリケーションのほとんどで印象的に実行されています。 ノイズの多いデータに対して高い耐性を持ち、訓練されていないパターンを分類することができます。 通常、人工ニューラルネットワークは、連続値の入力と出力でより優れた性能を発揮します。
上記のアルゴリズムはすべて、事前にモデルを訓練して訓練データを一般化し、後で予測に使用するため、熱心な学習者です。
k-最近傍(KNN)
k-NEAREST neighborは、すべてのインスタンスがn次元空間の学習データポイントに対応するように格納する遅延学習アルゴリズムです。 未知の離散データを受信すると、保存された最も近いk個のインスタンス(最近傍)を分析し、最も一般的なクラスを予測として返し、実数値データの場合はk個の最近傍の平均を返します。
distance-weighted nearest neighbor algorithmでは、次のクエリを使用して、距離に応じてk個の近傍のそれぞれの寄与を重みづけし、最も近い近傍に大きな重みを与えます。
Usually KNN is robust to noisy data since it is averaging the k-nearest neighbors.