Machine Learning Classifiers

klassificering er processen med at forudsige klassen af givne datapunkter. Klasser kaldes undertiden som mål / etiketter eller kategorier. Klassificering forudsigelig modellering er opgaven med at tilnærme en kortlægningsfunktion (f) fra inputvariabler (H) til diskrete outputvariabler (y).

for eksempel kan spamdetektering i e-mail-tjenesteudbydere identificeres som et klassificeringsproblem. Dette er s binær klassificering, da der kun er 2 klasser som spam og ikke spam. En klassifikator bruger nogle træningsdata til at forstå, hvordan givne inputvariabler vedrører klassen. I dette tilfælde skal kendte spam-og ikke-spam-e-mails bruges som træningsdata. Når klassifikatoren trænes nøjagtigt, kan den bruges til at registrere en ukendt e-mail.

klassificering hører til kategorien overvåget læring, hvor målene også leveres med inputdataene. Der er mange applikationer i klassificering på mange områder, såsom i kreditgodkendelse, medicinsk diagnose, målmarkedsføring osv.

der er to typer elever i klassificering som dovne elever og ivrige elever.

  1. dovne elever

dovne elever gemmer blot træningsdataene og venter, indtil der vises testdata. Når det sker, udføres klassificering baseret på de mest relaterede data i de lagrede træningsdata. Sammenlignet med ivrige elever har dovne elever mindre træningstid, men mere tid til at forudsige.

eks. k-nærmeste nabo, Sagsbaseret ræsonnement

2. Ivrige elever

ivrige elever konstruerer en klassificeringsmodel baseret på de givne træningsdata, inden de modtager data til klassificering. Det skal være i stand til at forpligte sig til en enkelt hypotese, der dækker hele instansrummet. På grund af modelkonstruktionen tager ivrige elever lang tid på toget og mindre tid til at forudsige.

eks. Beslutningstræ, Naive Bayes, kunstige neurale netværk

Klassificeringsalgoritmer

der er mange klassificeringsalgoritmer tilgængelige nu, men det er ikke muligt at konkludere, hvilken der er bedre end andre. Det afhænger af anvendelsen og arten af tilgængelige datasæt. For eksempel, hvis klasserne er lineært adskillelige, kan de lineære klassifikatorer som logistisk regression, Fishers lineære diskriminant overgå sofistikerede modeller og omvendt.

beslutningstræ

beslutningstræ bygger klassificerings-eller regressionsmodeller i form af en træstruktur. Det bruger et if-then-regelsæt, der er gensidigt eksklusivt og udtømmende til klassificering. Reglerne læres sekventielt ved hjælp af træningsdataene en ad gangen. Hver gang en regel læres, fjernes de tupler, der er omfattet af reglerne. Denne proces fortsættes på træningssættet, indtil den opfylder en opsigelsesbetingelse.

træet er konstrueret i en oppefra og ned rekursiv kløft-og-erobre måde. Alle attributter skal være kategoriske. Ellers bør de diskretiseres på forhånd. Attributter i toppen af træet har større indflydelse i klassificeringen, og de identificeres ved hjælp af information gain-konceptet.

et beslutningstræ kan let overmonteres og generere for mange grene og kan afspejle uregelmæssigheder på grund af støj eller outliers. En overmonteret model har en meget dårlig præstation på de usete data, selvom den giver en imponerende præstation på træningsdata. Dette kan undgås ved forbeskæring, der stopper trækonstruktionen tidligt eller efterbeskæring, der fjerner grene fra det fuldvoksne træ.

Naive Bayes

Naive Bayes er en probabilistisk klassifikator inspireret af Bayes sætning under en simpel antagelse, som er attributterne er betinget uafhængige.

klassificeringen udføres ved at udlede den maksimale posterior, som er den maksimale p(ci / h) med ovenstående antagelse, der gælder for Bayes sætning. Denne antagelse reducerer i høj grad beregningsomkostningerne ved kun at tælle klassedistributionen. Selvom antagelsen ikke er gyldig i de fleste tilfælde, da attributterne er afhængige, overraskende Naive Bayes har i stand til at udføre imponerende.

Naive Bayes er en meget enkel algoritme til implementering, og der er opnået gode resultater i de fleste tilfælde. Det kan let skaleres til større datasæt, da det tager lineær tid snarere end ved dyre iterativ tilnærmelse som brugt til mange andre typer klassifikatorer.

Naive Bayes kan lide af et problem kaldet nul sandsynlighedsproblemet. Når den betingede sandsynlighed er nul for en bestemt attribut, giver den ikke en gyldig forudsigelse. Dette skal løses eksplicit ved hjælp af en Laplacian estimator.

kunstige neurale netværk

>

kunstigt neuralt netværk er et sæt tilsluttede input / output-enheder, hvor hver forbindelse har en vægt forbundet med det startet af psykologer og neurobiologer til at udvikle og teste beregningsanaloger af neuroner. I læringsfasen lærer netværket ved at justere vægten for at være i stand til at forudsige den korrekte klassemærke for input-tuplerne.

der er mange netværksarkitekturer tilgængelige nu som Feed-fremad, Convolutional, recidiverende osv. Den passende arkitektur afhænger af anvendelsen af modellen. I de fleste tilfælde giver fremføringsmodeller rimeligt nøjagtige resultater, og især til billedbehandlingsapplikationer fungerer konvolutionsnetværk bedre.

der kan være flere skjulte lag i modellen afhængigt af kompleksiteten af den funktion, der skal kortlægges af modellen. At have mere skjulte lag vil gøre det muligt at modellere komplekse relationer såsom dybe neurale netværk.

men når der er mange skjulte lag, tager det meget tid at træne og justere vægte. Den anden ulempe ved er den dårlige fortolkningsevne af modellen sammenlignet med andre modeller som beslutningstræer på grund af den ukendte symbolske betydning bag de lærte vægte.

men kunstige neurale netværk har udført imponerende i de fleste af de virkelige applikationer. Det er høj tolerance over for støjende data og i stand til at klassificere utrænede mønstre. Normalt fungerer kunstige neurale netværk bedre med kontinuerlige værdsatte input og output.

alle ovenstående algoritmer er ivrige elever, da de træner en model på forhånd for at generalisere træningsdataene og bruge dem til forudsigelse senere.

k-nærmeste nabo (KNN)

k-nærmeste nabo er en doven læringsalgoritme, der gemmer alle forekomster svarer til træningsdatapunkter i n-dimensionelt rum. Når der modtages en ukendt diskret data, analyserer den det nærmeste k-antal gemte forekomster (nærmeste naboer)og returnerer den mest almindelige klasse som forudsigelse, og for data med reel værdi returnerer den gennemsnittet af K nærmeste naboer.

i den afstandsvægtede nærmeste naboalgoritme vægter den bidraget fra hver af K-naboerne i henhold til deres afstand ved hjælp af følgende forespørgsel, der giver større vægt til de nærmeste naboer.

Distance calculating query

Usually KNN is robust to noisy data since it is averaging the k-nearest neighbors.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *