Introduktion till Ensemble Methods in Machine Learning

I den här artikeln kommer vi att se en översikt över Ensemble Methods in Machine Learning. Ensemblärande är en kombination av olika maskininlärningstekniker till en prediktiv modell för att förbättra förutsägelsen. Ensemblärande förvärvas för att minska variationen i prediktiva data. Denna typ av lärande är avsedd att minimera modellens förspänning. Ensemblärande är ett flermodellsystem där olika klassificerare eller tekniker kombineras strategiskt för att klassificera eller förutsäga statistik från det komplexa problemet med bättre noggrannhet. Målet med sådant lärande är att minimera sannolikheten för ett dåligt urval från modellen. Den utser förtroendet för modellens beslut. Idén att välja optimala funktioner har förverkligats i ensemblärande.

Typer av ensemblemetoder i maskininlärning

Ensemblemetoder hjälper till att skapa flera modeller och kombinerar dem sedan för att ge förbättrade resultat. Vissa ensemblemetoder kategoriseras i följande grupper:

1. Sekventiella metoder

I denna typ av Ensemble-metod finns det sekventiellt genererade baselever i vilka datainständighet finns. Varje annan information i baseläraren är beroende av tidigare data. Så de tidigare felmärkta uppgifterna är inställda baserat på dess vikt för att förbättra prestandan för det övergripande systemet.

Exempel : Boosting

2. Parallell metod

I den här typen av Ensemble-metoden genereras baseläraren i parallell ordning i vilken datainständighet inte finns. Varje data i baseläraren genereras oberoende.

Exempel : Stapling

3. Homogen ensemble

En sådan ensemble-metod är en kombination av samma typer av klassificerare. Men datasatsen är olika för varje klassificerare. Detta gör att den kombinerade modellen fungerar mer exakt efter samlingen av resultaten från varje modell. Denna typ av ensemble-metod fungerar med ett stort antal datasätt. I den homogena metoden är funktionsvalmetoden densamma för olika träningsdata. Det är beräkningsvärt dyrt.

Exempel: Populära metoder som bagging och boosting kommer in i den homogena ensemblen.

4. Heterogen ensemble

En sådan ensemble-metod är kombinationen av olika typer av klassificerare eller maskininlärningsmodeller där varje klassificerare bygger på samma data. En sådan metod fungerar för små datasätt. På heterogent sätt är metoden för val av funktioner olika för samma träningsdata. Det totala resultatet av denna ensemble-metod utförs genom att i genomsnitt beräkna alla resultat för varje kombinerad modell.

Exempel : Stapling

Teknisk klassificering av ensemble-metoder

Nedan är den tekniska klassificeringen av Ensemble Methods:

1. Bagging

Denna ensemblemetod kombinerar två maskininlärningsmodeller, dvs Bootstrapping och Aggregation till en enda ensemblemodell. Målet med påsningsmetoden är att minska modellens höga varians. Beslutsträden har varians och låg förspänning. Det stora datasättet är (säg 1000 sampel) subprov (säg 10 delprover vardera innehåller 100 sampel med data). Flera beslutsträd bygger på varje delprovs träningsdata. Samtidigt som de underprovade uppgifterna om de olika beslutsträden slås ned, minskar oroet för överanpassning av träningsdata på varje beslutsträd. För modellens effektivitet odlas var och en av de enskilda beslutsträden djupt innehållande underprovade träningsdata. Resultaten från varje beslutsträd är sammanlagda för att förstå den slutliga förutsägelsen. Variationen av de aggregerade uppgifterna minskar. Noggrannheten i förutsägelsen av modellen i säckmetoden beror på antalet beslutsträd som används. Det olika delprovet av en samplingsdata väljs slumpmässigt med ersättning. Utgången från varje träd har en hög korrelation.

2. Förstärkning

Den förstärkande ensemblen kombinerar också samma typ av klassificerare. Boosting är en av de sekventiella ensemblemetoderna där varje modell eller klassificering körs baserat på funktioner som kommer att användas av nästa modell. På detta sätt gör boosting-metoden en starkare elevmodell från svaga elevmodeller genom medelvärden av deras vikter. Med andra ord, en starkare utbildad modell beror på de flera svaga utbildade modellerna. En svag elev eller en slittränad modell är en som är mycket mindre korrelerad med verklig klassificering. Men nästa svaga elev är lite mer korrelerad med sann klassificering. Kombinationen av sådana olika svaga elever ger en stark elev som är väl korrelerad med den verkliga klassificeringen.

3. Stapling

Denna metod kombinerar också flera klassificeringar eller regressionstekniker med hjälp av en metaklassificering eller metamodell. Modellerna på lägre nivåer tränas med det kompletta träningsdatasetet och sedan tränas den kombinerade modellen med resultaten från lägre nivåmodeller. Till skillnad från att öka, genomgår varje modell på lägre nivå i parallellträning. Förutsägelsen från modellerna på lägre nivå används som input för nästa modell som träningsdataset och bildar en bunt där modellens övre lager är mer tränad än modellens bottenlager. Topplagermodellen har god förutsägbarhetsnoggrannhet och de bygger på modeller på lägre nivå. Bunten fortsätter att öka tills den bästa förutsägelsen utförs med ett minimifel. Förutsägelsen för den kombinerade modellen eller metamodellen baseras på förutsägelsen för de olika svaga modellerna eller lägre skiktmodeller. Den fokuserar på att producera mindre partisk modell.

4. Slumpmässig skog

Den slumpmässiga skogen skiljer sig något från påsar eftersom den använder djupa träd som är monterade på provkroppar. Outputen från varje tress kombineras för att minska variansen. Medan vi växer varje träd, snarare än att generera ett bootstrap-prov baserat på observation i datasättet, provar vi också datasatsen baserat på funktioner och använder bara en slumpmässig delmängd av ett sådant prov för att bygga trädet. Med andra ord, sampling av datasatsen görs baserat på funktioner som minskar korrelationen mellan olika utgångar. Den slumpmässiga skogen är bra att bestämma för saknade data. Slumpmässig skog betyder slumpmässigt val av en delmängd av ett prov som minskar chansen att få relaterade prediktionsvärden. Varje träd har en annan struktur. Slumpmässig skog resulterar i en ökning av skogens förspänning något, men på grund av den genomsnittliga all mindre relaterade förutsägelsen från olika träd minskar den resulterande variationen och ger totalt sett bättre prestanda.

Slutsats

Ensemblets multimodellansats realiseras av djupa inlärningsmodeller där komplexa data har studerat och bearbetat genom sådana olika kombinationer av klassificeraren för att få bättre förutsägelse eller klassificering. Förutsägelsen för varje modell i ensembleinlärning måste vara mer okorrelerad. Detta kommer att hålla modellens förspänning och varians så låg som möjligt. Modellen kommer att vara effektivare och förutsäga utdata under minimifel. Ensemblen är en övervakad inlärningsalgoritm eftersom modellen tränats tidigare med datauppsättningen för att förutsäga. Vid ensembleutbildning bör antalet komponentklassificerare vara samma som klassetiketter för att uppnå hög noggrannhet.

Rekommenderade artiklar

Detta är en guide till Ensemble Methods in Machine Learning. Här diskuterar vi de viktiga typerna av ensemble-metoder i maskininlärning tillsammans med teknisk klassificering. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer -

  1. Introduktion till Ensembeltekniker
  2. Maskinlärande livscykel med fördelar
  3. Maskininlärningsalgoritmer
  4. Topp 24 frågor om maskininlärningsintervjuer

Kategori: