Introduktion till dataförberedelse i maskininlärning

Dataförbehandling i maskininlärning är ett sätt att konvertera data från råformen till en mycket mer formaterad, oanvändbar eller önskad form. Det är en integrerad uppgift för maskininlärning som utförs av datavetaren. Eftersom insamlade data är i ett råformat kanske det inte är möjligt att träna modellen med den. Det är viktigt att behandla denna råa data noggrant för att göra en korrekt tolkning av den och slutligen undvika negativa resultat i förutsägelsen. Kort sagt, kvaliteten på vår inlärningsalgoritm beror mycket på vilken typ av datasats vi använde för att mata modellen så dataförbehandling används för att upprätthålla den kvaliteten.

Data som samlas in för utbildning av modellen är från olika källor. Dessa insamlade data är vanligtvis i sitt råa format, dvs de kan ha ljud som saknade värden, och relevant information, nummer i strängformatet etc. eller så kan de vara ostrukturerade. Förbehandling av data ökar effektiviteten och noggrannheten för maskininlärningsmodellerna. Eftersom det hjälper till att ta bort dessa ljud från och dataset och ge mening till datasatsen

Sex olika steg involverade i maskininlärning

Följande är sex olika steg involverade i maskininlärning för att utföra dataförbehandling:

Steg 1: Importera bibliotek

Steg 2: Importera data

Steg 3: Kontrollera om det saknas värden

Steg 4: Sök efter kategoriska data

Steg 5: Funktionsskalning

Steg 6: Dela upp data i tränings-, validerings- och utvärderingsuppsättningar

Låt oss förstå var och en av dessa steg i detaljer:

1. Importera bibliotek

Det allra första steget är att importera några av de viktiga biblioteken som krävs för dataförbehandling. Ett bibliotek är en samling moduler som kan anropas och användas. I python har vi många bibliotek som är till hjälp vid förbehandling av data.

Några av följande viktiga bibliotek i python är:

  • Numpy: Använde mest biblioteket för att implementera eller använda komplicerad matematisk beräkning av maskininlärning. Det är användbart för att utföra en operation på flerdimensionella matriser.
  • Pandas : Det är ett open source-bibliotek som ger högpresterande och lättanvända datastrukturer och dataanalysverktyg i python. Den är utformad på ett sätt som gör arbetet med relation och märkta data enkelt och intuitivt.
  • Matplotlib: Det är ett visualiseringsbibliotek som tillhandahålls av python för 2D-plott eller array. Det är byggt på en numpy matris och utformad för att arbeta med en bredare Scipy-stack. Visualisering av datasätt är till hjälp i scenariot där stora data finns tillgängliga. Tomter tillgängliga i matplot lib är linje, stapel, spridning, histogram etc.
  • Seaborn: Det är också ett visualiseringsbibliotek som ges av python. Det ger ett gränssnitt på hög nivå för ritning av attraktiva och informativa statistiska grafer.

2. Importera datasats

När biblioteken har importerats är nästa steg att ladda insamlade data. Pandas bibliotek används för att importera dessa datasätt. Dataprogrammen finns oftast tillgängliga i CSV-format eftersom de är av liten storlek vilket gör det snabbt för bearbetning. Så att ladda en csv-fil med hjälp av read_csv-funktionen i pandans bibliotek. Olika andra format för datasatsen som kan ses är

När datasatsen laddas måste vi inspektera det och leta efter brus. För att göra det måste vi skapa en funktionsmatris X och en observationsvektor Y med avseende på X.

3. Kontrollera om det saknas värden

När du skapar funktionsmatrisen kanske du hittar det finns några saknade värden. Om vi ​​inte hanterar det kan det orsaka problem vid träningstillfället.

Det finns två metoder för att hantera de saknade värdena:

  1. Ta bort hela raden som innehåller det saknade värdet, men det kan finnas en möjlighet att du kan förlora viss viktig information. Detta kan vara ett bra tillvägagångssätt om datasättets storlek är stor.
  2. Om en numerisk kolumn har ett saknat värde kan du uppskatta värdet genom att ta medelvärdet, median, läge etc.

4. Sök efter kategoriska data

Data i datasatsen måste vara i en numerisk form så att de kan beräkna dem. Eftersom modeller för maskininlärning innehåller komplex matematisk beräkning, kan vi inte mata dem ett icke-numeriskt värde. Så det är viktigt att konvertera alla textvärden till numeriska värden. LabelEncoder () klass av lärda används för att omvandla dessa kategoriska värden till numeriska värden.

5. Funktionsskalning

Värdena på rådata varierar extremt och det kan resultera i partisk utbildning av modellen eller till slut öka beräkningskostnaden. Så det är viktigt att normalisera dem. Funktionsskalning är en teknik som används för att föra datavärdet i ett kortare intervall.

Metoder som används för funktionsskalning är:

  • Återskalning (min-max normalisering)
  • Genomsnittlig normalisering
  • Standardisering (Z-poäng Normalisering)
  • Skalning till enhetens längd

6. Dela upp data i utbildnings-, validerings- och utvärderingsuppsättningar

Slutligen måste vi dela upp våra data i tre olika uppsättningar, utbildningsuppsättning för att träna modellen, valideringsuppsättning för att validera vår modell och slutligen testuppsättning för att testa vår modell på generiska data. Innan du delar upp datauppsättningen är det viktigt att blanda upp datasättet för att undvika fördröjningar. En idealisk andel för att dela upp datasättet är 60:20:20 dvs. 60% som träningsuppsättning, 20% som test- och valideringsuppsättning. För att dela upp datasättet använder du train_test_split av sklearn.model_selection två gånger. En gång för att dela upp datasatsen i tåg- och valideringsuppsättning och sedan dela upp återstående tågsdatasätt i tåg- och testuppsättning.

Slutsats - Förbehandling av data i maskininlärning

Förbehandling av data är något som kräver övning. Det är inte som en enkel datastruktur där du lär dig och tillämpar direkt för att lösa ett problem. För att få god kunskap om hur man rengör en datasats eller hur man visualiserar ditt datasæt måste du arbeta med olika datasätt.

Ju mer du använder dessa tekniker desto bättre förståelse får du om det. Detta var en allmän idé om hur databehandling spelar en viktig roll i maskininlärning. Tillsammans med det har vi också sett de steg som krävs för dataförbehandling. Så nästa gång du börjar träna modellen med hjälp av insamlade data måste du tillämpa dataförbehandling.

Rekommenderade artiklar

Detta är en guide till dataförberedelse i maskininlärning. Här diskuterar vi introduktionen, sex olika steg involverade i maskininlärning. Du kan också gå igenom våra andra artiklar som föreslås för att lära dig mer–

  1. Betydelsen av konstgjord intelligens
  2. IoT Technology
  3. PL / SQL-datatyper
  4. Hive-datatyper
  5. R Datatyper

Kategori: