Klassifisering er prosessen med å forutsi klassen av gitte datapunkter. Klasser kalles noen ganger som mål / etiketter eller kategorier. Klassifisering prediktiv modellering er oppgaven med å tilnærme en kartlegging funksjon (f) fra input variabler (X) til diskrete output variabler (y).
for eksempel kan spam-gjenkjenning i e-postleverandører identifiseres som et klassifiseringsproblem. Dette er s binær klassifisering siden det er bare 2 klasser som spam og ikke spam. En klassifikator benytter noen treningsdata for å forstå hvordan gitt input variabler forholde seg til klassen. I dette tilfellet må kjente spam-og ikke-spam-e-poster brukes som treningsdata. Når klassifikatoren er opplært nøyaktig, kan den brukes til å oppdage en ukjent e-post.
Klassifisering tilhører kategorien veiledet læring der målene også følger med inngangsdataene. Det er mange programmer i klassifisering i mange domener som i kreditt godkjenning, medisinsk diagnose, mål markedsføring etc.
det er to typer elever i klassifisering som late elever og ivrige elever.
- Late elever
Late elever bare lagre treningsdata og vente til en testing data vises. Når det gjøres, utføres klassifisering basert på de mest relaterte dataene i de lagrede treningsdataene. Sammenlignet med ivrige elever, har lat elever mindre treningstid, men mer tid til å forutsi.
Ex. k-nærmeste nabo, Case-basert resonnement
2. Ivrige elever konstruerer en klassifiseringsmodell basert på de gitte treningsdataene før de mottar data for klassifisering. Det må være i stand til å forplikte seg til en enkelt hypotese som dekker hele forekomstområdet. På grunn av modellkonstruksjonen tar ivrige elever lang tid for tog og mindre tid å forutsi.
Ex. Decision Tree, Naive Bayes, Artificial Neural Networks
Klassifiseringsalgoritmer
det er mange klassifiseringsalgoritmer tilgjengelig nå, men det er ikke mulig å konkludere hvilken som er overlegen til andre. Det avhenger av programmet og arten av tilgjengelige datasett. For eksempel, Hvis klassene er lineært separerbare, kan de lineære klassifiseringene Som Logistisk regresjon, Fishers lineære diskriminant overgå sofistikerte modeller og omvendt.
Beslutningstre
beslutningstreet bygger klassifiserings-eller regresjonsmodeller i form av en trestruktur. Den benytter et hvis-da-regelsett som er gjensidig utelukkende og uttømmende for klassifisering. Reglene læres sekvensielt ved hjelp av treningsdataene en om gangen. Hver gang en regel blir lært, fjernes tuplene som omfattes av reglene. Denne prosessen fortsetter på treningssettet til de oppfyller en oppsigelsestilstand.
treet er konstruert i en top-down rekursiv divide-and-conquer måte. Alle attributter skal være kategoriske. Ellers bør de diskretiseres på forhånd. Attributter i toppen av treet har større innvirkning på klassifiseringen, og de identifiseres ved hjelp av informasjonsgevinst-konseptet.
et beslutningstre kan enkelt overmonteres og generere for mange grener og kan gjenspeile uregelmessigheter på grunn av støy eller uteliggere. En overmontert modell har svært dårlig ytelse på de usynlige dataene, selv om det gir en imponerende ytelse på treningsdata. Dette kan unngås ved pre-beskjæring som stopper trekonstruksjon tidlig eller post-beskjæring som fjerner grener fra fullvoksen treet.
Naive Bayes
Naive Bayes er en probabilistisk klassifikator inspirert Av Bayes-teoremet under en enkel antagelse som er attributtene er betinget uavhengige.
klassifiseringen utføres ved å utlede den maksimale bakre som er den maksimale p(ci / x) med den ovennevnte antagelsen som gjelder for bayes teorem. Denne antagelsen reduserer beregningskostnaden sterkt ved bare å telle klassefordelingen. Selv om antakelsen ikke er gyldig i de fleste tilfeller siden attributtene er avhengige, overraskende Naive Bayes har i stand til å utføre imponerende.Naive Bayes Er en veldig enkel algoritme å implementere og gode resultater har oppnådd i de fleste tilfeller. Det kan lett skaleres til større datasett siden det tar lineær tid, snarere enn ved dyre iterativ tilnærming som brukes for mange andre typer klassifikatorer.
Naive Bayes kan lide av et problem som kalles null sannsynlighet problem. Når den betingede sannsynligheten er null for et bestemt attributt, unnlater det å gi en gyldig prediksjon. Dette må løses eksplisitt ved hjelp Av En Laplacian estimator.
Kunstige Nevrale Nettverk
kunstig nevralt nettverk er et sett med tilkoblede inngangs – /utgangsenheter hvor hver tilkobling har en vekt forbundet med den startet av psykologer og nevrobiologer for å utvikle og teste beregningsanaloger av nevroner. I løpet av læringsfasen lærer nettverket ved å justere vektene for å kunne forutsi riktig klasseetikett for inngangsparti.
det er mange nettverksarkitekturer tilgjengelig nå som Feed-forward, Convolutional, Relapsing etc. Den aktuelle arkitekturen avhenger av anvendelsen av modellen. For de fleste tilfeller gir feed-forward-modeller rimelig nøyaktige resultater, og spesielt for bildebehandlingsprogrammer gir convolutional networks bedre resultater.
det kan være flere skjulte lag i modellen avhengig av kompleksiteten til funksjonen som skal kartlegges av modellen. Å ha flere skjulte lag vil gjøre det mulig å modellere komplekse relasjoner som dype nevrale nettverk.
Men når det er mange skjulte lag, tar det mye tid å trene og justere vekter. Den andre ulempen med er den dårlige tolkbarheten av modellen sammenlignet med andre modeller som Beslutningstrær på grunn av den ukjente symbolske betydningen bak de lærte vekter.Men Kunstige Nevrale Nettverk har utført imponerende i de fleste virkelige verden applikasjoner. Det er høy toleranse for støyende data og i stand til å klassifisere uutdannede mønstre. Vanligvis Fungerer Kunstige Nevrale Nettverk bedre med kontinuerlige innganger og utganger.
alle ovennevnte algoritmer er ivrige elever siden de trener en modell på forhånd for å generalisere treningsdataene og bruke den til prediksjon senere.