beslutningstræ bygger klassificerings-eller regressionsmodeller i form af en træstruktur. Det bruger et if-then-regelsæt, der er gensidigt eksklusivt og udtømmende til klassificering. Reglerne læres sekventielt ved hjælp af træningsdataene en ad gangen. Hver gang en regel læres, fjernes de tupler, der er omfattet af reglerne. Denne proces fortsættes på træningssættet, indtil den opfylder en opsigelsesbetingelse.
træet er konstrueret i en oppefra og ned rekursiv kløft-og-erobre måde. Alle attributter skal være kategoriske. Ellers bør de diskretiseres på forhånd. Attributter i toppen af træet har større indflydelse i klassificeringen, og de identificeres ved hjælp af information gain-konceptet.
et beslutningstræ kan let overmonteres og generere for mange grene og kan afspejle uregelmæssigheder på grund af støj eller outliers. En overmonteret model har en meget dårlig præstation på de usete data, selvom den giver en imponerende præstation på træningsdata. Dette kan undgås ved forbeskæring, der stopper trækonstruktionen tidligt eller efterbeskæring, der fjerner grene fra det fuldvoksne træ.
Naive Bayes
Naive Bayes er en probabilistisk klassifikator inspireret af Bayes sætning under en simpel antagelse, som er attributterne er betinget uafhængige.
Naive Bayes er en meget enkel algoritme til implementering, og der er opnået gode resultater i de fleste tilfælde. Det kan let skaleres til større datasæt, da det tager lineær tid snarere end ved dyre iterativ tilnærmelse som brugt til mange andre typer klassifikatorer.
Naive Bayes kan lide af et problem kaldet nul sandsynlighedsproblemet. Når den betingede sandsynlighed er nul for en bestemt attribut, giver den ikke en gyldig forudsigelse. Dette skal løses eksplicit ved hjælp af en Laplacian estimator.
kunstige neurale netværk
>
kunstigt neuralt netværk er et sæt tilsluttede input / output-enheder, hvor hver forbindelse har en vægt forbundet med det startet af psykologer og neurobiologer til at udvikle og teste beregningsanaloger af neuroner. I læringsfasen lærer netværket ved at justere vægten for at være i stand til at forudsige den korrekte klassemærke for input-tuplerne.
der er mange netværksarkitekturer tilgængelige nu som Feed-fremad, Convolutional, recidiverende osv. Den passende arkitektur afhænger af anvendelsen af modellen. I de fleste tilfælde giver fremføringsmodeller rimeligt nøjagtige resultater, og især til billedbehandlingsapplikationer fungerer konvolutionsnetværk bedre.
der kan være flere skjulte lag i modellen afhængigt af kompleksiteten af den funktion, der skal kortlægges af modellen. At have mere skjulte lag vil gøre det muligt at modellere komplekse relationer såsom dybe neurale netværk.
men når der er mange skjulte lag, tager det meget tid at træne og justere vægte. Den anden ulempe ved er den dårlige fortolkningsevne af modellen sammenlignet med andre modeller som beslutningstræer på grund af den ukendte symbolske betydning bag de lærte vægte.
men kunstige neurale netværk har udført imponerende i de fleste af de virkelige applikationer. Det er høj tolerance over for støjende data og i stand til at klassificere utrænede mønstre. Normalt fungerer kunstige neurale netværk bedre med kontinuerlige værdsatte input og output.
alle ovenstående algoritmer er ivrige elever, da de træner en model på forhånd for at generalisere træningsdataene og bruge dem til forudsigelse senere.
k-nærmeste nabo (KNN)
k-nærmeste nabo er en doven læringsalgoritme, der gemmer alle forekomster svarer til træningsdatapunkter i n-dimensionelt rum. Når der modtages en ukendt diskret data, analyserer den det nærmeste k-antal gemte forekomster (nærmeste naboer)og returnerer den mest almindelige klasse som forudsigelse, og for data med reel værdi returnerer den gennemsnittet af K nærmeste naboer.
i den afstandsvægtede nærmeste naboalgoritme vægter den bidraget fra hver af K-naboerne i henhold til deres afstand ved hjælp af følgende forespørgsel, der giver større vægt til de nærmeste naboer.
Usually KNN is robust to noisy data since it is averaging the k-nearest neighbors.