beslutsträd bygger klassificerings-eller regressionsmodeller i form av en trädstruktur. Den använder en if-then regeluppsättning som är ömsesidigt uteslutande och uttömmande för klassificering. Reglerna lärs sekventiellt med hjälp av träningsdata en i taget. Varje gång en regel lärs, tas de tuplar som omfattas av reglerna bort. Denna process fortsätter på utbildningen tills man uppfyller ett uppsägningsvillkor.
trädet är konstruerat på ett rekursivt divide-and-conquer-sätt. Alla attribut ska vara kategoriska. Annars bör de diskretiseras i förväg. Attribut i toppen av trädet har större inverkan på klassificeringen och de identifieras med hjälp av information gain-konceptet.
ett beslutsträd kan enkelt övermonteras och generera för många grenar och kan återspegla avvikelser på grund av buller eller avvikelser. En övermonterad modell har en mycket dålig prestanda på osynliga data trots att det ger en imponerande prestanda på träningsdata. Detta kan undvikas genom för beskärning som stoppar trädkonstruktion tidigt eller efter beskärning som tar bort grenar från det fullvuxna trädet.
Naive Bayes
Naive Bayes är en probabilistisk klassificerare inspirerad av Bayes sats under ett enkelt antagande som är attributen är villkorligt oberoende.
klassificeringen utförs genom att härleda den maximala bakre som är den maximala p(ci / X) med ovanstående antagande som gäller Bayes sats. Detta antagande minskar kraftigt beräkningskostnaden genom att bara räkna klassfördelningen. Även om antagandet inte är giltigt i de flesta fall eftersom attributen är beroende, överraskande naiva Bayes har möjlighet att utföra imponerande.Naive Bayes är en mycket enkel algoritm att implementera och goda resultat har uppnåtts i de flesta fall. Det kan enkelt skalbar till större datamängder eftersom det tar linjär tid, snarare än genom dyra iterativ approximation som används för många andra typer av klassificerare.naiva Bayes kan drabbas av ett problem som kallas noll sannolikhetsproblemet. När den villkorliga sannolikheten är noll för ett visst attribut, misslyckas det med att ge en giltig förutsägelse. Detta måste fastställas uttryckligen med hjälp av en Laplacian estimator.
artificiella neurala nätverk
artificiellt neuralt nätverk är en uppsättning anslutna ingångs – / utgångsenheter där varje anslutning har en vikt associerad med den som startades av psykologer och neurobiologer för att utveckla och testa beräkningsanaloger av neuroner. Under inlärningsfasen lär nätverket sig genom att justera vikterna för att kunna förutsäga den korrekta klassetiketten för ingångstuplarna.
det finns många nätverksarkitekturer tillgängliga nu som Feed-forward,Convolutional, Recurrent etc. Lämplig arkitektur beror på modellens tillämpning. För de flesta fall ger framåtriktade modeller rimligt korrekta resultat och särskilt för bildbehandlingsapplikationer fungerar konvolutionella nätverk bättre.
det kan finnas flera dolda lager i modellen beroende på komplexiteten hos funktionen som ska kartläggas av modellen. Att ha mer dolda lager gör det möjligt att modellera komplexa relationer som djupa neurala nätverk.
men när det finns många dolda lager tar det mycket tid att träna och justera wights. Den andra nackdelen med är modellens dåliga tolkbarhet jämfört med andra modeller som beslutsträd på grund av den okända symboliska betydelsen bakom de lärda vikterna.
men artificiella neurala nätverk har utfört imponerande i de flesta av de verkliga applikationerna. Det är hög tolerans mot bullriga data och kan klassificera otränade mönster. Vanligtvis fungerar artificiella neurala nätverk bättre med kontinuerliga värderade ingångar och utgångar.
alla ovanstående algoritmer är ivriga elever eftersom de tränar en modell i förväg för att generalisera träningsdata och använda den för förutsägelse senare.
k-närmaste granne (KNN)
k-närmaste granne är en lat inlärningsalgoritm som lagrar alla instanser motsvarar träningsdatapunkter i n-dimensionellt utrymme. När en okänd diskret data tas emot analyserar den det närmaste K-antalet sparade instanser (närmaste grannar)och returnerar den vanligaste klassen som förutsägelse och för realvärderade data returnerar den medelvärdet för k närmaste grannar.
i den avståndsvägda närmaste grannalgoritmen väger den bidraget från var och en av k-grannarna enligt deras avstånd med hjälp av följande fråga som ger större vikt till närmaste grannar.
Usually KNN is robust to noisy data since it is averaging the k-nearest neighbors.