Introduktion till multivariat regression
- Termen i multivariat betyder modell med mer än en variabel
- Multivariat regression är en del av multivariat statistik.
- Multivariat regression är en teknik som används för att uppskatta en enda regressionsmodell när det finns mer än en utfallsvariabel.
- Multivariat regression används vanligtvis en maskininlärningsalgoritm som är en Supervised Learning-algoritm.
Varför en enda regressionsmodell fungerar inte?
- Som känt används regressionsanalys främst för att utforska förhållandet mellan en beroende och oberoende variabel.
- I den verkliga världen finns det många situationer där många oberoende variabler påverkas av andra variabler för att vi måste flytta till olika alternativ än en enda regressionsmodell som bara kan ta en oberoende variabel.
Vad är multivariat regression?
- Multivariat regression hjälper till att mäta vinkeln på mer än en oberoende variabel och mer än en beroende variabel. Det hittar förhållandet mellan variablerna (Linjärt relaterade).
- Det användes för att förutsäga beteendet hos utfallsvariabeln och föreningen mellan prediktorvariabler och hur prediktorns variabler förändras.
- Det kan tillämpas på många praktiska områden som politik, ekonomi, medicin, forskningsarbeten och många olika typer av företag.
- Multivariat regression är en enkel förlängning av multipel regression.
- Multipel regression används för att förutsäga och utbyta värdena på en variabel baserat på det kollektiva värdet för mer än ett värde av prediktorvariabler.
- Först tar vi ett exempel för att förstå användningen av multivariat regression efter det att vi letar efter lösningen på det problemet.
Exempel på multivariat regression
- Om e-handelsföretag har samlat in sina uppgifter från sina kunder som ålder, vill köp av historia hos en kund, kön och företag hitta förhållandet mellan dessa olika beroende och oberoende variabler.
- En gymtränare har samlat in uppgifterna från sin klient som kommer till hans gym och vill observera vissa saker hos klienten som är hälsa, matvanor (vilken typ av produktklient som konsumerar varje vecka), kundens vikt. Detta vill hitta en relation mellan dessa variabler.
Som ni har sett i ovanstående två exempel att det i båda situationerna finns mer än en variabel är vissa beroende och vissa är oberoende, så en enda regression räcker inte för att analysera denna typ av data.
Här är den multivariata regressionen som kommer in i bilden.
1. Funktionsval -
Valet av funktioner spelar den viktigaste rollen i multivariat regression.
Hitta den funktion som behövs för att hitta vilken variabel som är beroende av den här funktionen.
2. Normaliseringsfunktioner -
För bättre analyser måste funktioner skalas för att få dem in i ett specifikt intervall. Vi kan också ändra värdet på varje funktion.
3. Välj förlustfunktion och hypotes -
Förlustfunktionen beräknar förlusten när hypotesen förutspår fel värde.
Och hypotes betyder förutsagt värde från funktionsvariabeln.
4. Ställ in hypotesparametrar -
Ställ in hypotesparametern som kan minska förlustfunktionen och kan förutsäga.
5. Minimera förlustfunktionen-
Minimera förlusten genom att använda någon förlora minimeringsalgoritm och använda den över datasatsen som kan hjälpa till att justera hypotesparametrarna. När förlusten minimeras kan den användas för förutsägelse.
Det finns många algoritmer som kan användas för att minska förlusten, till exempel gradientnedstigning.
6. Testa hypotesfunktionen -
Kontrollera hypotesfunktionen hur korrekt den förutsäger värden, testa den på testdata.
Steg för att följa arkiv Multivariat regression
1) Importera nödvändiga gemensamma bibliotek som numpy, pandor
2) Läs datasatsen med pandas bibliotek
3) Som vi har diskuterat ovan måste vi normalisera uppgifterna för att få bättre resultat. Varför normalisering eftersom varje funktion har olika värden.
4) Skapa en modell som kan arkivera regression om du använder ekvation med linjär regression
Y = mx + c
I vilken x ges ingång, m är en lutningslinje, c är konstant, y är utgångsvariabeln.
5) Träna modellen med hyperparameter. Förstå hyperparametern som anges enligt modellen. Såsom inlärningshastighet, epoker, iterationer.
6) Som diskuterats ovan hur hypotesen spelar en viktig roll i analysen, kontrollerar hypotesen och mäter förlust / kostnadsfunktionen.
7) Funktionen förlust / kostnad hjälper oss att mäta hur hypotesvärdet är sant och korrekt.
8) Minimera förlust / kostnadsfunktionen hjälper modellen att förbättra förutsägelsen.
9) Förlustekvationen kan definieras som en summa av kvadratdifferensen mellan det förutsagda värdet och det verkliga värdet dividerat med dubbelt så stort som datasatsen.
10) För att minimera förlust- / kostnadsfunktionen, använd gradientstigning, börjar det med ett slumpmässigt värde och finner den punkt som deras förlustfunktion är minst.
Genom att följa ovanstående kan vi implementera multivariat regression
Fördelar med multivariat regression
- Den multivariata tekniken gör det möjligt att hitta en relation mellan variabler eller funktioner
- Det hjälper till att hitta en korrelation mellan oberoende och beroende variabler.
Dis fördelar med multivariat regression
- Multivariate tekniker är lite komplexa och matematiska beräkningar på hög nivå
- Den multivariata regressionsmodellens utgång är inte lätt tolkbar och ibland eftersom vissa förlust- och felutgångar inte är identiska.
- Det kan inte tillämpas på ett litet datasystem eftersom resultaten är mer enkla i större datasätt.
Slutsats - Multivariat regression
- Det huvudsakliga syftet med att använda multivariat regression är när du har mer än en variabel tillgängliga och i så fall fungerar inte en enda linjär regression.
- I huvudsak har den verkliga världen flera variabler eller funktioner när flera variabler / funktioner kommer i spel multivariat regression används.
Rekommenderade artiklar
Detta är en guide till multivariat regression. Här diskuterar vi introduktionen, exempel på multivariat regression tillsammans med fördelarna och dis fördelarna. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer -
- Regressionsformel
- Datavetenskapskurs i London
- SAS operatörer
- Datavetenskapstekniker
- Variabler i JavaScript
- Top Differences of Regression vs Classification