osztályozás az adott adatpontok osztályozásának előrejelzése. Az osztályokat néha céloknak/ címkéknek vagy kategóriáknak nevezik. Osztályozás a prediktív modellezés feladata egy leképezési függvény (f) közelítése a bemeneti változóktól (X) a diszkrét kimeneti változókig (y).
például az e-mail szolgáltatókban a spam észlelése osztályozási problémaként azonosítható. Ez s bináris besorolás, mivel csak 2 osztályok spam, nem spam. Az osztályozó bizonyos képzési adatokat használ annak megértéséhez, hogy az adott bemeneti változók hogyan kapcsolódnak az osztályhoz. Ebben az esetben az ismert spam és nem spam e-maileket kell használni képzési adatként. Ha az osztályozó képzett pontosan, akkor lehet használni, hogy érzékeli egy ismeretlen e-mailt.
A besorolás a felügyelt tanulás kategóriájába tartozik, ahol a célok a bemeneti adatokkal is rendelkeztek. Számos alkalmazás van a besorolásban számos területen, például hitel-jóváhagyás, orvosi diagnózis, célmarketing stb.
kétféle tanuló van a lusta tanulók és a lelkes tanulók osztályozásában.
- lusta tanulók
lusta tanulók egyszerűen tárolják a képzési adatokat, és várják meg, amíg a vizsgálati adatok megjelennek. Ha ez megtörténik, a besorolás a tárolt képzési adatok leginkább kapcsolódó adatai alapján történik. A lelkes tanulókhoz képest a lusta tanulóknak kevesebb képzési ideje van, de több idő van az előrejelzésben.
Ex. k-legközelebbi szomszéd, eset – alapú érvelés
2. Eager tanulók
Eager tanulók az adott képzési adatok alapján osztályozási modellt készítenek, mielőtt adatokat kapnak az osztályozáshoz. Képesnek kell lennie arra, hogy elkötelezze magát egy olyan hipotézis mellett, amely lefedi az egész példányterületet. A modellépítés miatt a lelkes tanulóknak hosszú időbe telik a vonatozás, és kevesebb időt kell előre jelezniük.
Ex. Döntési fa, naiv Bayes, mesterséges neurális hálózatok
osztályozási algoritmusok
sok osztályozási algoritmus áll rendelkezésre, de nem lehet arra következtetni, hogy melyik jobb a másiknál. A rendelkezésre álló adathalmaz alkalmazásától és jellegétől függ. Például, ha az osztályok lineárisan elválaszthatók, akkor a lineáris osztályozók, mint például a logisztikai regresszió, a Fisher lineáris diszkriminánsa felülmúlhatja a kifinomult modelleket, és fordítva.
döntési Fa
Döntési fa épít osztályozás vagy regressziós modellek formájában fa szerkezet. Egy if-then szabálykészletet használ, amely kölcsönösen kizárja és kimeríti a besorolást. A szabályokat egymás után tanulják meg a képzési adatok felhasználásával. Minden alkalommal, amikor egy szabályt megtanulnak, a szabályok által lefedett kapcsokat eltávolítják. Ezt a folyamatot a képzési készleten folytatják a felmondási feltétel teljesítéséig.
a fa felülről lefelé rekurzív divide-and-conquer módon van kialakítva. Minden attribútumnak kategorikusnak kell lennie. Ellenkező esetben előzetesen diszkrétizálni kell őket. A fa tetején lévő attribútumok nagyobb hatással vannak az osztályozásra, és az információnyereség-koncepció segítségével azonosítják őket.
egy döntőfa könnyen túlméretezhető, túl sok ágat generálhat, és a zaj vagy a kiugró értékek miatti anomáliákat tükrözheti. A túl felszerelt modell nagyon gyenge teljesítményt nyújt a láthatatlan adatokon, annak ellenére, hogy lenyűgöző teljesítményt nyújt a képzési adatokon. Ezt el lehet kerülni az elővágással, amely megállítja a faépítést korai vagy utáni metszéssel, amely eltávolítja az ágakat a teljesen termesztett fáról.
naiv Bayes
naiv Bayes egy valószínűségi osztályozó ihlette Bayes tétel egy egyszerű feltételezés, amely az attribútumok feltételesen független.
A besorolás által végzett származó maximális hátsó, amely a maximális P(Ci|X) a fenti feltételezés a kérelmező a Bayes-tétel. Ez a feltételezés nagymértékben csökkenti a számítási költségeket azáltal, hogy csak az osztályelosztást számolja. Annak ellenére, hogy a feltételezés a legtöbb esetben nem érvényes, mivel az attribútumok függenek, meglepően naiv Bayes képes lenyűgözően fellépni.
a naiv Bayes egy nagyon egyszerű algoritmus, amely a legtöbb esetben jó eredményeket ért el. Könnyen skálázható nagyobb adatkészletekre, mivel lineáris időt vesz igénybe, nem pedig drága iteratív közelítéssel, amelyet sok más típusú osztályozóhoz használnak.
naiv Bayes szenvedhet egy probléma az úgynevezett nulla valószínűségi probléma. Ha a feltételes valószínűség nulla egy adott attribútum esetében, akkor nem ad érvényes előrejelzést. Ezt kifejezetten egy Laplacian becslővel kell rögzíteni.
a Mesterséges Neurális Hálózatok
Mesterséges Neurális Hálózat beállítása a csatlakoztatott bemeneti/kimeneti egység, ahol minden kapcsolat egy súly társul kezdődött azzal, pszichológusok, neurobiologists fejlesztése, valamint a vizsgálati számítási analógok a neuronok. A tanulási fázis során a hálózat a súlyok beállításával tanul, hogy képes legyen megjósolni a bemeneti kapcsok megfelelő osztálycímkéjét.
számos hálózati architektúra áll rendelkezésre, mint például az előtolás, konvolúciós, visszatérő stb. A megfelelő architektúra a modell alkalmazásától függ. A legtöbb esetben a továbbítási modellek ésszerűen pontos eredményeket adnak, különösen a képfeldolgozó alkalmazások esetében, a konvolúciós hálózatok jobban teljesítenek.
a modellben több rejtett réteg is lehet, a modell által leképezett funkció összetettségétől függően. A több rejtett réteg lehetővé teszi olyan komplex kapcsolatok modellezését, mint a mély neurális hálózatok.
azonban, ha sok rejtett réteg van, sok időbe telik a wights kiképzése és beállítása. A másik hátránya a rossz értelmezhetősége modell, mint a többi modell, mint a döntés fák miatt ismeretlen szimbolikus jelentése mögött tanult súlyok.
de a mesterséges neurális hálózatok lenyűgözően teljesítettek a legtöbb valós alkalmazásban. Nagy toleranciát mutat a zajos adatokkal szemben, és képes osztályozni a képzetlen mintákat. Általában a mesterséges neurális hálózatok jobban teljesítenek folyamatos értékű bemenetekkel és kimenetekkel.
a fenti algoritmusok lelkes tanulók mivel a vonat egy modell előre, hogy általánosítani a képzési adatok használata jóslat később.
a k-Legközelebbi Szomszéd (KNN)
a k-A legközelebbi Szomszéd egy lusta tanuló algoritmus, amely tárolja minden esetben felelnek meg a képzési adatokat az n-dimenziós térben. Egy ismeretlen diszkrét adat beérkezésekor elemzi a mentett példányok legközelebbi k számát (legközelebbi szomszédok), és a leggyakoribb osztályt adja vissza predikcióként, a valós értékű adatoknál pedig a legközelebbi szomszédok átlagát adja vissza.
a távolsággal súlyozott legközelebbi szomszéd algoritmusban súlyozza az egyes k szomszédok hozzájárulását távolságuk szerint a következő lekérdezés segítségével, nagyobb súlyt adva a legközelebbi szomszédoknak.
Usually KNN is robust to noisy data since it is averaging the k-nearest neighbors.