Regressioanalyysi on lähestymistapa yhden tai useamman riippumattoman muuttujan ja riippuvan muuttujan välisen yhteyden tunnistamiseen ja analysointiin. Menetelmää käytetään laajalti useilla eri aloilla, kuten terveydenhuollossa, yhteiskuntatieteissä, tekniikassa, taloustieteissä ja liike-elämässä. Regressioanalyysin avulla voit tutkia tietojen perussuhteita ja kehittää ennustemalleja, jotka auttavat sinua tekemään perusteltuja päätöksiä.

Tässä artikkelissa annetaan kattava yleiskatsaus regressioanalyysiin, mukaan lukien sen toiminta, helppotajuinen esimerkki ja selitetään, miten se eroaa korrelaatioanalyysistä.

Mikä on regressioanalyysi?

Regressioanalyysi on tilastollinen menetelmä, jolla tunnistetaan ja kvantifioidaan riippuvan muuttujan ja yhden tai useamman riippumattoman muuttujan välinen yhteys. Pähkinänkuoressa se auttaa ymmärtämään, miten yhden tai useamman riippumattoman muuttujan muutokset liittyvät riippuvan muuttujan muutoksiin.

Jotta ymmärtäisit regressioanalyysin perusteellisesti, sinun on ensin ymmärrettävä seuraavat termit:

  • Riippuvainen muuttuja: Tämä on muuttuja, jonka analysoinnista tai ennustamisesta olet kiinnostunut. Se on tulosmuuttuja, jota yrität ymmärtää ja selittää.
  • Riippumattomat muuttujat: Nämä ovat muuttujia, joiden uskot vaikuttavan riippuvaiseen muuttujaan. Niitä kutsutaan usein ennustemuuttujiksi, koska niiden avulla ennustetaan tai selitetään riippuvaisen muuttujan muutoksia.

Regressioanalyysiä voidaan käyttää monissa eri tilanteissa, kuten riippuvan muuttujan tulevien arvojen ennustamisessa, riippumattomien muuttujien vaikutuksen ymmärtämisessä riippuvaan muuttujaan ja poikkeavien tai epätavallisten tapausten löytämisessä tiedonkeruussa.

Regressioanalyysi voidaan luokitella useisiin eri tyyppeihin, kuten lineaarinen regressio, logistinen regressio, polynomiregressio ja moninkertainen regressio. Sopiva regressiomalli määräytyy aineiston luonteen ja tarkasteltavana olevan tutkimuskohteen mukaan.

Miten regressioanalyysi toimii?

Regressioanalyysin tarkoituksena on tunnistaa parhaiten sopiva viiva tai käyrä, joka kuvastaa riippumattomien muuttujien ja riippuvan muuttujan välistä yhteyttä. Tämä parhaiten sopiva viiva tai käyrä luodaan käyttämällä tilastollisia menetelmiä, jotka vähentävät eroja tiedonkeruun odotettujen ja todellisten arvojen välillä.

Seuraavassa on kahden yleisimmän regressioanalyysin kaavat:

Yksittäinen lineaarinen regressio

Yksinkertaisessa lineaarisessa regressiossa käytät parhaan sovitteen viivaa osoittamaan kahden muuttujan, riippumattoman muuttujan (x) ja riippuvan muuttujan (y), välistä suhdetta.

Parhaan sovitteen suora voidaan esittää yhtälöllä: y = a + bx.

Tässä a on leikkauspiste ja b on suoran kaltevuus. Kaltevuuden laskemiseksi käytetään kaavaa: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2), jossa n on havaintojen lukumäärä, Σxy on x:n ja y:n tulon summa, Σx ja Σy ovat x:n ja y:n summia ja Σ(x2) on x:n neliöiden summa.

Lasketaan leikkauspiste kaavalla: a = (Σy - bΣx) / n.

Moninkertainen regressio 

Moninkertainen lineaarinen regressio:

Moninkertaisen lineaarisen regressiomallin yhtälön kaava on:

y = b0 + b1x1 + b2x2 + ... + bnxn

jossa y on riippuvainen muuttuja, x1, x2, ..., xn ovat riippumattomia muuttujia ja b0, b1, b2, ..., bn ovat riippumattomien muuttujien kertoimet.

Kaava kertoimien estimoimiseksi käyttäen tavallisia pienimpiä neliöitä on seuraava:

β = (X'X)(-1)X'y

jossa β on kertoimien pylväsvektori, X on riippumattomien muuttujien suunnittelumatriisi, X' on X:n transponointi ja y on riippuvan muuttujan havaintojen vektori.

Regressioanalyysi Esimerkki

Oletetaan, että haluat tutkia yksilön keskiarvon ja viikoittaisen opiskelumäärän välistä yhteyttä. Keräät tietoja joukosta opiskelijoita, mukaan lukien opiskelutuntien määrä ja arvosanojen keskiarvo.

Käytä sitten regressioanalyysia nähdessäsi, onko molempien muuttujien välillä lineaarinen yhteys, ja jos on, voit rakentaa mallin, joka ennustaa opiskelijan keskiarvon viikoittaisen opiskelumäärän perusteella.

Kuva saatavilla osoitteessa alchemer.com

Kun tiedot piirretään hajontakartalle, näyttää siltä, että opiskelutuntien ja keskiarvon välillä on suotuisa lineaarinen yhteys. Tämän jälkeen estimoidaan parhaan sovitussuoran kaltevuus ja leikkauspiste yksinkertaisen lineaarisen regressiomallin avulla. Lopullinen ratkaisu voisi näyttää seuraavalta:

GPA = 2,0 + 0,3 (opiskelutunnit viikossa).

Kuva saatavilla osoitteessa alchemer.com

Tämän yhtälön mukaan jokainen ylimääräinen opiskelutunti viikossa nostaa opiskelijan keskiarvoa 0,3 pistettä, kun kaikki muu on samanarvoista. Tätä algoritmia voidaan käyttää ennustamaan opiskelijan keskiarvoa sen perusteella, kuinka monta tuntia hän opiskelee viikossa, sekä tunnistamaan, mitkä opiskelijat ovat vaarassa alisuoriutua opiskelurutiiniensa perusteella. 

Käyttämällä esimerkin tietoja saadaan seuraavat arvot b ja a ovat seuraavat:

n = 10 (havaintojen lukumäärä)

Σx = 30 (opiskelutuntien summa).

Σy = 25 (GPA-arvojen summa).

Σxy = 149 (opintotuntien ja keskiarvojen summa).

Σ(x)2 = 102 (opintotuntien neliöiden summa).

Laske näiden arvojen avulla b kuten:

b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)

= (10 * 149 – 30 * 25) / (10 * 102 – 302)

= 0.3

Ja laske a kuten:

a = (Σy - bΣx) / n

= (25 – 0.3 * 30) / 10

= 2.0

Näin ollen parhaan sovitussuoran yhtälö on: 

GPA = 2,0 + 0,3 (opiskelutunnit viikossa).

Mitä eroa on korrelaatiolla ja regressiolla?

Sekä korrelaatio että regressio ovat tilastollisia menetelmiä, joilla tutkitaan kahden muuttujan välistä yhteyttä. Ne palvelevat eri tarkoituksia ja tuottavat erityyppistä tietoa.

Korrelaatio on kahden muuttujan välisen yhteyden voimakkuuden ja kulun mitta. Se vaihtelee välillä -1-1, jolloin -1 tarkoittaa täydellistä negatiivista korrelaatiota, 0 ei korrelaatiota ja +1 täydellistä positiivista korrelaatiota. Korrelaatio osoittaa, missä määrin kaksi muuttujaa on yhteydessä toisiinsa, mutta se ei kerro syytä tai ennustettavuutta.

Regressio taas on menetelmä, jolla mallinnetaan kahden muuttujan välistä yhteyttä, yleensä yhden muuttujan ennustamiseksi tai selittämiseksi toisen muuttujan perusteella. Regressioanalyysillä voidaan tuottaa arvioita suhteen suuruudesta ja suunnasta sekä tilastollisia merkitsevyystestejä, luottamusvälejä ja ennusteita tulevista tuloksista.

Luomuksesi, valmiina muutamassa minuutissa

Mind the Graph on verkkoalusta, joka tarjoaa laajan kirjaston tieteellisiä kuvituksia ja infografiikkasuunnitelmia, joita voidaan yksinkertaisesti muokata vastaamaan yksilöllisiä tarpeitasi. Tee ammattimaisen näköisiä kaavioita, julisteita ja graafisia tiivistelmiä muutamassa minuutissa käyttämällä vedä ja pudota -käyttöliittymää ja laajaa valikoimaa työkaluja ja ominaisuuksia. 

logo-tilaus

Tilaa uutiskirjeemme

Eksklusiivista korkealaatuista sisältöä tehokkaasta visuaalisesta
tiedeviestintä.

- Eksklusiivinen opas
- Suunnitteluvinkkejä
- Tieteelliset uutiset ja suuntaukset
- Oppaat ja mallit