luokittelu on prosessi, jossa ennustetaan annettujen datapisteiden Luokka. Luokkia kutsutaan joskus kohteiksi/ etiketeiksi tai luokiksi. Luokittelun ennakoiva mallinnus on kartoitusfunktion (f) approksimointi tulomuuttujista (X) diskreetteihin lähtömuuttujiin (y).
esimerkiksi sähköpostipalveluiden tarjoajien roskapostin havaitseminen voidaan tunnistaa luokitteluongelmaksi. Tämä on s binääriluokitus, koska on olemassa vain 2 luokkaa roskapostiksi eikä roskapostiksi. Luokittaja hyödyntää joitakin koulutustietoja ymmärtääkseen, miten annetut syöttömuuttujat liittyvät luokkaan. Tällöin koulutustietoina on käytettävä tunnettuja roskaposteja ja ei-roskapostia. Kun luokittelija on koulutettu tarkasti, sen avulla voidaan havaita tuntematon Sähköposti.
– luokitus kuuluu ohjatun oppimisen luokkaan, jossa kohteet antoivat myös syöttötiedot. Luokittelussa on monia sovelluksia monilla aloilla, kuten luotonhyväksynnässä, lääketieteellisessä diagnoosissa, kohdemarkkinoinnissa jne.
luokittelussa laiskiksi oppijoiksi ja innokkaiksi oppijoiksi on kahdenlaisia oppijoita.
- laiskat oppijat
laiskat oppijat yksinkertaisesti tallentavat harjoitustiedot ja odottavat, kunnes testaustiedot tulevat näkyviin. Silloin luokittelu tehdään tallennettujen harjoitusaineistojen suhteellisimpien tietojen perusteella. Innokkaisiin oppijoihin verrattuna laiskalla oppijalla on vähemmän harjoitusaikaa, mutta enemmän aikaa ennustamiseen.
Ex. k-lähin naapuri, Tapausperusteinen päättely
2. Innokkaat oppijat
innokkaat oppijat rakentavat annettujen koulutustietojen pohjalta luokittelumallin ennen kuin saavat tietoa luokitusta varten. Sen on pystyttävä sitoutumaan yhteen hypoteesiin, joka kattaa koko instanssiavaruuden. Mallirakentamisen vuoksi innokkailla oppijoilla kestää junassa kauan ja ennustamisessa vähemmän aikaa.
Ex. Ratkaisupuu, naiivi Bayes, keinotekoiset Neuroverkkot
Luokittelualgoritmit
luokittelualgoritmeja on nyt paljon saatavilla, mutta ei ole mahdollista päätellä, kumpi on muita parempi. Se riippuu käytettävissä olevien tietojen soveltamisesta ja luonteesta. Esimerkiksi jos luokat ovat lineaarisesti erotettavissa, lineaariset luokittelijat kuten logistinen regressio, Fisherin lineaarinen diskriminantti voi päihittää hienostuneet mallit ja päinvastoin.
Ratkaisupuu
ratkaisupuu rakentaa luokitus-tai regressiomalleja puurakenteen muodossa. Se käyttää if-then-sääntökokonaisuutta, joka on toisensa poissulkeva ja tyhjentävä luokittelua varten. Säännöt opitaan peräkkäin harjoitustietojen avulla yksi kerrallaan. Joka kerta kun sääntö opitaan, sääntöjen kattamat tuplat poistetaan. Tätä prosessia jatketaan koulutustilaisuuksissa, kunnes irtisanomisehto täyttyy.
puu on rakennettu ylhäältä alaspäin rekursiivisesti hajota ja hallitse-tavalla. Kaikkien attribuuttien tulee olla kategorisia. Muuten ne olisi diskretoitava etukäteen. Attribuutit puun latvassa vaikuttavat luokittelussa enemmän ja ne tunnistetaan information gain-käsitteen avulla.
ratkaisupuu on helposti ylimitoitettu synnyttäen liikaa oksia, ja se voi heijastaa melusta tai poikkeamista johtuvia poikkeamia. Ylivarustellun mallin suorituskyky on erittäin huono näkymättömissä tiedoissa, vaikka se antaa vaikuttavan suorituskyvyn harjoitustietoihin. Tämä voidaan välttää esikarsinnalla, joka pysäyttää puun rakentamisen aikaisin, tai jälkikarsinnalla, joka poistaa oksat täysikasvuisesta puusta.
naiivi Bayes
naiivi Bayes on Bayesin lauseen innoittama todennäköisyysluokittelija yksinkertaisella oletuksella, jonka mukaan attribuutit ovat ehdollisesti riippumattomia.
luokittelu suoritetaan johtamalla posteriorin suurin arvo, joka on maksimaalinen p(ci|X), ja edellä mainittu oletus pätee Bayesin lauseeseen. Tämä oletus vähentää laskennallisia kustannuksia huomattavasti laskemalla vain luokkajakauman. Vaikka oletus ei useimmissa tapauksissa päde, koska attribuutit ovat riippuvaisia, yllättävän naiivi Bayes on pystynyt näyttäviin suorituksiin.
naiivi Bayes on hyvin yksinkertainen algoritmi toteuttaa ja hyviä tuloksia on saatu useimmissa tapauksissa. Se voidaan helposti skaalata suuremmille tietojoukoille, koska se vie lineaarista aikaa, eikä kalliilla iteratiivisella approksimaatiolla, jota käytetään monien muiden luokittelijoiden kohdalla.
naiivi Bayes voi kärsiä ongelmasta, jota kutsutaan nollatodennäköisyysongelmaksi. Kun ehdollinen todennäköisyys on nolla tietylle attribuutille, se ei anna pätevää ennustetta. Tämä on vahvistettava nimenomaisesti käyttämällä Laplacian estimaattori.
keinotekoiset hermoverkot
keinotekoinen neuroverkko on joukko kytkettyjä tulo / lähtöyksiköitä, joissa jokaisella yhteydellä on siihen liittyvä paino, jonka psykologit ja neurobiologit ovat aloittaneet kehittääkseen ja testatakseen neuronien laskennallisia analogeja. Oppimisvaiheessa verkko oppii säätämällä painoja niin, että syöttöpullojen oikea luokkamerkintä voidaan ennustaa.
on olemassa monia verkkoarkkitehtuureja, kuten Feed-forward, Convolutionary, Recurrent jne. Sopiva arkkitehtuuri riippuu mallin soveltamisesta. Useimmissa tapauksissa syöttömallit antavat kohtuullisen tarkkoja tuloksia ja erityisesti kuvankäsittelysovelluksissa convolutionaaliset verkot toimivat paremmin.
mallissa voi olla useita piilokerroksia riippuen mallin kartoittaman funktion monimutkaisuudesta. Kun piilokerroksia on enemmän, voidaan mallintaa monimutkaisia suhteita, kuten syviä neuroverkkoja.
kuitenkin, kun piilokerroksia on paljon, valojen treenaaminen ja säätäminen vie paljon aikaa. Toinen haitta on mallin huono tulkittavuus verrattuna muihin malleihin, kuten Päätöksentekopuihin, johtuen opittujen painojen takana olevasta tuntemattomasta symbolisesta merkityksestä.
mutta keinotekoiset hermoverkot ovat toimineet vaikuttavasti useimmissa reaalimaailman sovelluksissa. Se on korkea toleranssi meluisa tietoja ja pystyy luokittelemaan kouluttamattomia kuvioita. Yleensä keinotekoiset hermoverkot toimivat paremmin jatkuvalla arvolla tuotoilla ja lähdöillä.
kaikki edellä mainitut algoritmit ovat innokkaita oppijoita, sillä ne kouluttavat etukäteen mallin, jolla harjoitustiedot yleistetään ja sitä käytetään ennustamiseen myöhemmin.
K-lähin naapuri (KNN)
k-lähin naapuri on laiskan oppimisen algoritmi, joka tallentaa kaikki instanssit, jotka vastaavat koulutustietopisteitä n-ulotteisessa avaruudessa. Kun tuntematon diskreetti data vastaanotetaan, se analysoi lähimmän k tallennettujen esiintymien määrän (lähimmät naapurit) ja palauttaa yleisimmän luokan ennusteeksi ja reaaliarvoisille tiedoille se palauttaa k lähimpien naapureiden keskiarvon.
etäisyyspainotteisessa lähinaapurialgoritmissa se punnitsee jokaisen k-naapurin osuuden niiden etäisyyden mukaan käyttäen seuraavaa kyselyä, joka antaa suuremman painoarvon lähimmille naapureille.
Usually KNN is robust to noisy data since it is averaging the k-nearest neighbors.