Klasifikace je proces předpovídání třídy z daných datových bodů. Třídy jsou někdy nazývány jako cíle / štítky nebo kategorie. Klasifikační prediktivní modelování je úkolem aproximace mapovací funkce (f) ze vstupních proměnných (X) na diskrétní výstupní proměnné (y).
například detekce spamu u poskytovatelů e-mailových služeb může být identifikována jako klasifikační problém. Toto je binární klasifikace, protože existují pouze 2 třídy jako spam a ne spam. Klasifikátor využívá některá tréninková data k pochopení toho, jak se dané vstupní proměnné vztahují ke třídě. V tomto případě musí být jako tréninková data použity známé spamové a nevyžádané e-maily. Když je klasifikátor vyškolen přesně, může být použit k detekci neznámého e-mailu.
klasifikace patří do kategorie supervizovaného učení, kde cíle také poskytly vstupní údaje. Existuje mnoho aplikací v klasifikaci v mnoha oblastech, jako je schválení úvěru, lékařská diagnóza, cílový marketing atd.
existují dva typy studentů v klasifikaci jako líní studenti a dychtiví studenti.
- líní studenti
líní studenti jednoduše ukládají tréninková data a čekají, až se objeví testovací data. Pokud ano, klasifikace se provádí na základě nejvíce souvisejících údajů v uložených tréninkových datech. Ve srovnání s dychtivými studenty mají líní studenti méně času na trénink, ale více času na předpovídání.
Ex. k-nejbližší soused, Case-based reasoning
2. Dychtiví studenti
dychtiví studenti sestaví klasifikační model založený na daných tréninkových datech před přijetím dat pro klasifikaci. Musí být schopen zavázat se k jediné hypotéze, která pokrývá celý prostor instance. Vzhledem k konstrukci modelu, dychtiví studenti trvat dlouhou dobu na vlak a méně času předvídat.
Ex. Rozhodovací Strom, Naivní Bayes, Neuronové Sítě,
Klasifikace algoritmů
Existuje mnoho klasifikace algoritmů k dispozici, ale teď to není možné dospět k závěru, který z nich je lepší než ostatní. Záleží na aplikaci a povaze dostupné datové sady. Například, pokud jsou třídy lineárně separovatelné, lineární klasifikátory, jako je Logistická regrese, Fisherův lineární diskriminant může překonat sofistikované modely a naopak.
Rozhodovací Strom
Rozhodovací strom navazuje klasifikační nebo regresní modely v podobě stromové struktury. Využívá sadu pravidel if-then, která se pro klasifikaci vzájemně vylučuje a vyčerpává. Pravidla se učí postupně pomocí tréninkových dat jeden po druhém. Pokaždé, když se pravidlo naučí, jsou n-tice, na které se pravidla vztahují, odstraněny. Tento proces pokračuje v tréninkové sadě až do splnění podmínky ukončení.
strom je konstruován rekurzivním způsobem dělení a dobývání shora dolů. Všechny atributy by měly být kategorické. V opačném případě by měly být předem diskretizovány. Atributy v horní části stromu mají větší dopad na klasifikaci a jsou identifikovány pomocí konceptu information gain.
rozhodovacího stromu lze snadno přes-zařízená generování příliš mnoha oborů a může odrážet anomálie vzhledem k hluku nebo odlehlé hodnoty. Nadměrně vybavený model má velmi špatný výkon na neviditelných datech, i když poskytuje působivý výkon na tréninkových datech. Tomu se lze vyhnout předběžným prořezáváním, které zastaví stavbu stromů brzy, nebo po prořezávání, které odstraní větve z plně dospělého stromu.
Naivní Bayes
Naivní Bayes je pravděpodobnostní klasifikátor inspirován Bayesova věta pod jednoduchý předpoklad, který je atributy jsou podmíněně nezávislé.
klasifikace se provádí odvození maximální posterior, což je maximální P(Ci|X) s výše uvedeným předpokladem použití Bayesova věta. Tento předpoklad výrazně snižuje výpočetní náklady pouze počítáním rozdělení tříd. I když předpoklad není ve většině případů platný, protože atributy jsou závislé, překvapivě naivní Bayes dokázal působit působivě.
Naive Bayes je velmi jednoduchý algoritmus pro implementaci a ve většině případů byly dosaženy dobré výsledky. To může být snadno škálovatelné na větší datové sady, protože to trvá lineární čas, spíše než drahé iterační aproximace, jak se používá pro mnoho jiných typů klasifikátorů.
naivní Bayes může trpět problémem nazývaným problém nulové pravděpodobnosti. Pokud je podmíněná pravděpodobnost pro určitý atribut nulová, nedokáže poskytnout platnou předpověď. To je třeba explicitně opravit pomocí Laplaciánského estimátoru.
umělé neuronové sítě
umělá neuronová síť je sada připojených vstupních / výstupních jednotek, kde každé spojení má s tím spojenou váhu, kterou začali psychologové a neurobiologové vyvíjet a testovat výpočetní analogy neuronů. Během fáze učení se síť učí úpravou závaží tak, aby byla schopna předpovědět správný štítek třídy vstupních n-tic.
existuje mnoho síťových architektur, které jsou nyní k dispozici jako Feed-forward, Convolutional, rekurentní atd. Vhodná Architektura závisí na aplikaci modelu. Ve většině případů poskytují předávací modely přiměřeně přesné výsledky a zejména pro aplikace pro zpracování obrazu fungují konvoluční sítě lépe.
v modelu může být více skrytých vrstev v závislosti na složitosti funkce, kterou bude model mapovat. Mít více skrytých vrstev umožní modelovat složité vztahy, jako jsou hluboké neuronové sítě.
Pokud je však mnoho skrytých vrstev, trvá hodně času trénovat a upravovat váhy. Další nevýhodou je špatná interpretovatelnost modelu ve srovnání s jinými modely, jako Rozhodovací Stromy vzhledem k neznámým symbolický význam za dozvěděli závaží.
ale umělé neuronové sítě působivě fungovaly ve většině aplikací v reálném světě. Je vysoká tolerance k hlučným datům a je schopna klasifikovat netrénované vzory. Umělé neuronové sítě obvykle fungují lépe se spojitými vstupy a výstupy.
Všechny výše uvedené algoritmy jsou dychtiví studenti, protože se vlak model v předstihu, aby zobecnit tréninková data a použít je pro predikci později.
k-Nejbližšího Souseda (KNN)
k-Nejbližší Soused je líný algoritmus učení, který ukládá všechny instance odpovídají školení datových bodů v n-rozměrném prostoru. Když neznámý diskrétní data je přijat, analyzuje nejblíže k počtu instancí uložených (nejbližší sousedé)a vrátí nejčastější třídy jako předpověď a skutečný-oceněný data, vrátí průměr z k nejbližších sousedů.
v algoritmu nejbližšího souseda váženého na dálku váží příspěvek každého ze sousedů k podle jejich vzdálenosti pomocí následujícího dotazu, který dává větší váhu nejbližším sousedům.
Usually KNN is robust to noisy data since it is averaging the k-nearest neighbors.