Regresijska analiza je pristop za ugotavljanje in analiziranje povezave med eno ali več neodvisnimi spremenljivkami in odvisno spremenljivko. Ta metoda se pogosto uporablja na različnih področjih, vključno z zdravstvom, družboslovjem, inženirstvom, ekonomijo in poslovanjem. Z regresijsko analizo lahko raziskujete temeljne povezave v podatkih in razvijate napovedne modele, ki vam bodo pomagali pri sprejemanju utemeljenih odločitev.
V tem članku boste našli celovit pregled regresijske analize, vključno z njenim delovanjem, razumljivim primerom in razlago, kako se razlikuje od korelacijske analize.
Kaj je regresijska analiza?
Regresijska analiza je statistična metoda za ugotavljanje in količinsko opredelitev povezave med odvisno spremenljivko in eno ali več neodvisnimi spremenljivkami. Na kratko, pomaga vam razumeti, kako so spremembe ene ali več neodvisnih spremenljivk povezane s spremembami odvisne spremenljivke.
Za temeljito razumevanje regresijske analize morate najprej razumeti naslednje izraze:
- Odvisna spremenljivka: To je spremenljivka, ki jo želite analizirati ali napovedati. To je spremenljivka rezultata, ki jo poskušate razumeti in razložiti.
- Neodvisne spremenljivke: To so spremenljivke, za katere menite, da vplivajo na odvisno spremenljivko. Pogosto jih imenujemo napovedne spremenljivke, saj se uporabljajo za napovedovanje ali pojasnjevanje sprememb v odvisni spremenljivki.
Regresijska analiza se lahko uporablja v različnih okoliščinah, vključno z napovedovanjem prihodnjih vrednosti odvisne spremenljivke, razumevanjem vpliva neodvisnih spremenljivk na odvisno spremenljivko ter iskanjem odstopanj ali nenavadnih pojavov pri zbiranju podatkov.
Regresijsko analizo lahko razdelimo na več vrst, med drugim na eno linearno regresijo, logistično regresijo, polinomsko regresijo in multiplo regresijo. Ustrezen regresijski model je odvisen od narave podatkov in predmeta obravnavane preiskave.
Kako deluje regresijska analiza?
Namen regresijske analize je ugotoviti, katera črta ali krivulja najbolje ustreza povezavi med neodvisnimi spremenljivkami in odvisno spremenljivko. Ta najbolje ustrezajoča črta ali krivulja se ustvari z uporabo statističnih metod, ki zmanjšujejo razlike med pričakovanimi in dejanskimi vrednostmi v zbirki podatkov.
Tukaj so formule za dve najpogostejši vrsti regresijske analize:
Enotna linearna regresija
Pri preprosti linearni regresiji uporabite premico najboljše skladnosti za prikaz povezave med dvema spremenljivkama: neodvisno spremenljivko (x) in odvisno spremenljivko (y).
Najustreznejšo premico lahko predstavimo z enačbo: y = a + bx.
Pri tem je a presečišče, b pa naklon premice. Za izračun naklona uporabite formulo: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2), kjer je n število opazovanj, Σxy je vsota produkta x in y, Σx in Σy sta vsoti x oziroma y, Σ(x2) je vsota kvadratov x.
Za izračun intercepcije uporabite formulo: a = (Σy - bΣx) / n.
Večkratna regresija
Večkratna linearna regresija:
Enačba modela večkratne linearne regresije je naslednja:
y = b0 + b1x1 + b2x2 + ... + bnxn
kjer je y odvisna spremenljivka, x1, x2, ..., xn sta neodvisni spremenljivki, b0, b1, b2, ..., bn so koeficienti neodvisnih spremenljivk.
Formula za oceno koeficientov z uporabo navadnih najmanjših kvadratov je:
β = (X'X)(-1)X'y
kjer je β stolpčni vektor koeficientov, X je matrika neodvisnih spremenljivk, X' je transpozicija X, y pa je vektor opazovanj odvisne spremenljivke.
Primer regresijske analize
Recimo, da želite preučiti povezavo med posameznikovo povprečno oceno (GPA) in številom ur učenja na teden. Zberete informacije od skupine študentov, vključno z njihovim številom študijskih ur in povprečjem ocen.
Nato s pomočjo regresijske analize preverite, ali med spremenljivkama obstaja linearna povezava, in če je, lahko sestavite model, ki napoveduje povprečno oceno študenta na podlagi števila ur študija na teden.
Ko podatke prikažemo na zemljevidu razpršitve, se zdi, da obstaja ugodna linearna povezava med študijskimi urami in povprečno oceno študija. Naklon in presečišče najbolj primerne premice se nato ocenita s preprostim linearnim regresijskim modelom. Končna rešitev je lahko videti takole:
Povprečna ocena uspeha = 2,0 + 0,3 (število ur študija na teden)
Ta enačba pravi, da se za vsako dodatno uro učenja na teden povprečna ocena študenta poveča za 0,3 točke, pri čemer je vse ostalo enako. Ta algoritem se lahko uporabi za napovedovanje povprečne ocene študenta glede na to, koliko ur na teden študira, in za ugotavljanje, kateri študenti so glede na svoje študijske navade izpostavljeni tveganju, da bodo dosegli slabše rezultate.
Na podlagi podatkov iz primera so vrednosti za b in . a so naslednji:
n = 10 (število opazovanj)
Σx = 30 (vsota ur študija)
Σy = 25 (vsota povprečnih povprečnih ocen)
Σxy = 149 (vsota zmnožka študijskih ur in povprečne ocene študija)
Σ(x)2 = 102 (vsota kvadratov študijskih ur)
Na podlagi teh vrednosti izračunajte b kot:
b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)
= (10 * 149 – 30 * 25) / (10 * 102 – 302)
= 0.3
In izračunajte a kot:
a = (Σy - bΣx) / n
= (25 – 0.3 * 30) / 10
= 2.0
Zato je enačba najbolj primerne premice naslednja:
Povprečna ocena uspeha = 2,0 + 0,3 (število ur študija na teden)
Kakšna je razlika med korelacijo in regresijo?
Korelacija in regresija sta statistični metodi za preučevanje povezave med dvema spremenljivkama. Uporabljata se za različne namene in zagotavljata različne vrste informacij.
Korelacija je merilo za moč in potek povezave med dvema spremenljivkama. Njena vrednost je od -1 do +1, pri čemer -1 pomeni popolno negativno korelacijo, 0 pomeni brez korelacije, +1 pa pomeni popolno pozitivno korelacijo. Korelacija označuje stopnjo povezanosti dveh spremenljivk, ne kaže pa na vzrok ali predvidljivost.
Regresija pa je metoda za modeliranje povezave med dvema spremenljivkama, običajno za napovedovanje ali pojasnjevanje ene spremenljivke na podlagi druge. Regresijska analiza lahko zagotovi ocene velikosti in smeri povezave ter teste statistične pomembnosti, območja zaupanja in napovedi prihodnjih rezultatov.
Vaše kreacije, pripravljene v nekaj minutah
Mind the Graph je spletna platforma, ki vam ponuja obsežno knjižnico znanstvenih ilustracij in infografik, ki jih lahko preprosto prilagodite svojim edinstvenim potrebam. S pomočjo vmesnika povleci in spusti ter številnih orodij in funkcij v nekaj minutah izdelajte profesionalno oblikovane diagrame, plakate in grafične izvlečke.
Naročite se na naše novice
Ekskluzivna visokokakovostna vsebina o učinkovitih vizualnih
komuniciranje v znanosti.