Skapa ett beslutsträd - Enkla sätt att visualisera beslutsträddiagram

Innehållsförteckning:

Anonim

Introduktion till att skapa ett beslutsträd

Med den snabba tillväxten av mängden data som genereras av informationssystem, för att hantera stora datamängder, finns det ett dominerande behov av beslutsträdet för att minska beräkningskomplexiteten. Ett beslutsträd kan betraktas som det viktigaste tillvägagångssättet för att representera klassificerare. Med andra ord kan vi säga att uppgifterna är strukturerade med hjälp av en splittring och erövringsstrategi. upp till veta att vi bara har utforskat. Ett beslutsträd är strukturerat som ett ramverk för att exakta värdena och sannolikheten för utfallsbeslut

m varje nivå av noden och hjälper beslutsfattare att välja korrekta förutsägelser bland de olika olämpliga uppgifterna. I den här artikeln går du igenom hur du skapar ett beslutsträd baserat på exempeldata på ett enkelt sätt.

Vad är beslutsträdet?

Ett beslutsträd är en binär hierarkisk struktur som identifierar sättet där varje nod delar upp en datamängd baserat på olika förhållanden. Att konstruera ett optimalt träd med en modellinriktning för att klassificera en svarsvariabel som förutsäger värdet på en målvariabel med enkla beslutsregler (if-then-else-uttalanden). Metoden är övervakad inlärning som oftast används i klassificeringsproblem och anses vara en mycket effektiv prediktiv modell. De används inom olika applikationsdomäner som spelteori, artificiell intelligens, maskininlärning, data mining och områden som säkerhet och medicin.

Hur skapar jag ett beslutsträd?

Ett beslutsträd skapas på enkla sätt på toppen och ner; de består av noder som bildar en riktad nod som har rotnoder utan inkommande kanter. Alla andra noder kallas beslutsnoder (intern noder och bladnoder som motsvarar attribut och klassetiketter) med minst en inkommande kanter. Huvudmålet från datamängden är att minimera generaliseringsfelen genom att hitta den optimala lösningen i beslutsträdet.

Ett exempel på ett beslutsträd förklaras nedan med en provdatauppsättning. Målet är att förutsäga om en vinst är nere eller uppåt genom att använda livets och konkurrensens egenskaper. Här är beslutsträdvariablerna kategoriska (Ja, Nej).

Datauppsättningen

Liv Konkurrens Typ Vinst
Gammal Ja programvara Ner
Gammal Nej programvara Ner
Gammal Nej Hårdvara Ner
Mitten Ja programvara Ner
Mitten Ja Hårdvara Ner
Mitten Nej Hårdvara Upp
Mitten Nej programvara Upp
Ny Ja programvara Upp
Ny Nej Hårdvara Upp
Ny Nej programvara Upp

Från ovanstående datauppsättning: liv, konkurrens, typ är prediktorerna och attributets vinst är målet. Det finns olika algoritmer för att implementera ett beslutsträd, men den bästa algoritmen som används för att bygga ett beslutsträd är ID3 som betonar på giriga sökmetoder. Beslutsträdet följer beslutet om slutsats om beslut eller den vanliga normala formen (^).

Beslutsträd

Inledningsvis anses allt träningsattribut vara roten. Beställningsprioriteten för att placera attributen som root görs genom följande tillvägagångssätt. Denna process är känd för attribut att välja för att identifiera vilket attribut som görs till en rotnod på varje nivå. Trädet följer två steg: konstruktion av ett träd, beskärning av träd. Och uppgifterna är uppdelade i alla beslutsnoder.

Informationsvinster

Det är måttet på förändringen i entropi baserat på den oberoende variabeln. Beslutsträdet måste hitta den högsta informationsvinsterna.

Entropi

Entropi definieras som för den ändliga uppsättningen, måttet på slumpmässighet i data eller händelseförutsägbarhet, om provet är liknande värden är entropin noll och om det är lika uppdelat med provet är det en.

Entropi för klassen

Där p är sannolikheten för att få vinst för att säga 'ja' och N är förlust säger 'nej'.

därför entropi = 1

När entropivärde har beräknats är det nödvändigt att bestämma en rotnod från attributet.

Ålders entropi

Enligt datauppsättningen för attributet Life har vi gamla = 3 ner, mitten = 2 ner och en upp angående vinstetiketten.

Liv Pi ni I (pi, ni)
Gammal 0 3 0
Mitten 2 2 1
Ny 3 0 0

Vinst = klassentropi - livets entropi = 1 - 0, 4 = 0, 6

Entropi (tävling) = 0, 87

Konkurrens Pi ni I (pi, ni)
Ja 1 3 0, 8
Nej 4 2 0, 9

Vinst = klassentropi - livets entropi = 1 - 0, 87 = 0, 12

Nu uppstår problemet i attributet Liv där mitten har lika stor sannolikhet både upp och ner. därför är entropi 1. på liknande sätt beräknas det för typattribut igen, entropin är 1 och förstärkning är 0. Nu har ett komplett beslut skapats för att få ett korrekt resultat för medelvärdet.

Fördelarna med beslutsträdet

  • De är lätta att förstå och reglerna som genereras är flexibla. Har liten ansträngning för att förbereda data.
  • En visuell strategi för att representera beslut och resultat är till stor hjälp.
  • Beslutsträdet hanterar träningsdatauppsättningen med fel och saknade värden.
  • De kan hantera diskreta värden och ett numeriskt attribut. Det fungerar kategoriska och kontinuerliga variabler för input och output.
  • De är ett användbart verktyg för affärsområdet som måste fatta beslut efter analys under vissa förhållanden.

Nackdelar med beslutsträdet

  • Eleverna kan skapa ett komplext beslutsträd beroende på utbildad data. denna process benämns övermontering, en svår process i beslutsträdmodeller.
  • De värden som föredras att vara är kategoriska, om det är fortlöpande förlorar beslutsträdet information som leder till felbenägenhet. Exponentiell beräkningstillväxt är högre under analysen.
  • Många klassetiketter leder till felaktiga komplexa beräkningar och ger låg förutsägbarhetsnoggrannhet för datasättet.
  • Information som erhållits i DT-algoritmen ger ett partiskt svar på kategoriska högre värden.

Slutsats

Avslutningsvis är beslutsträd en praktisk och enkel metod för inlärning och mycket känt som effektiva verktyg för maskininlärning eftersom de på kort tid fungerar bra med stora datasätt. Det är en inlärningsuppgift som använder en statistisk strategi för att göra en allmän slutsats. Nu är det bättre förstått varför beslutsträdet används i prediktiv modellering och för datavetarna är de det kraftfulla verktyget.

Rekommenderade artiklar

Detta är en guide för att skapa ett beslutsträd. Här diskuterar vi hur du skapar ett beslutsträd tillsammans med olika fördelar och nackdelar. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer -

  1. Översikt över beslutsträdet i R
  2. Vad är beslutsträdalgoritmen?
  3. Introduktion till artificiell intelligensverktyg
  4. Topp 10 frågor om konstgjord intelligensintervju