Regresná analýza je prístup na identifikáciu a analýzu vzťahu medzi jednou alebo viacerými nezávislými premennými a závislou premennou. Táto metóda sa vo veľkej miere používa v rôznych odboroch vrátane zdravotníctva, sociálnych vied, inžinierstva, ekonomiky a podnikania. Pomocou regresnej analýzy môžete skúmať základné vzťahy v údajoch a vytvárať predikčné modely, ktoré vám pomôžu pri prijímaní informovaných rozhodnutí.
Tento článok vám poskytne komplexný prehľad regresnej analýzy vrátane jej fungovania, ľahko pochopiteľného príkladu a vysvetlí, čím sa líši od korelačnej analýzy.
Čo je regresná analýza?
Regresná analýza je štatistická metóda na identifikáciu a kvantifikáciu vzťahu medzi závislou premennou a jednou alebo viacerými nezávislými premennými. V skratke vám pomôže pochopiť, ako zmeny jednej alebo viacerých nezávislých premenných súvisia so zmenami závislej premennej.
Ak chcete dôkladne porozumieť regresnej analýze, musíte najprv pochopiť nasledujúce pojmy:
- Závislá premenná: Toto je premenná, ktorú chcete analyzovať alebo predpovedať. Je to výsledná premenná, ktorú sa snažíte pochopiť a vysvetliť.
- Nezávislé premenné: Ide o premenné, ktoré podľa vás majú vplyv na závislú premennú. Často sa označujú ako prediktívne premenné, pretože sa používajú na predpovedanie alebo vysvetlenie zmien závislej premennej.
Regresnú analýzu možno použiť za rôznych okolností, vrátane predpovedania budúcich hodnôt závislej premennej, pochopenia vplyvu nezávislých premenných na závislú premennú a zistenia odľahlých hodnôt alebo neobvyklých výskytov pri zbere údajov.
Regresnú analýzu možno rozdeliť na niekoľko typov vrátane jednoduchej lineárnej regresie, logistickej regresie, polynomickej regresie a viacnásobnej regresie. Vhodný regresný model sa určuje podľa povahy údajov a predmetu skúmania.
Ako funguje regresná analýza?
Účelom regresnej analýzy je identifikovať najlepšie pasujúcu priamku alebo krivku, ktorá odráža vzťah medzi nezávislými premennými a závislou premennou. Táto najlepšie vyhovujúca priamka alebo krivka sa vytvára pomocou štatistických metód, ktoré znižujú rozdiely medzi očakávanými a skutočnými hodnotami v súbore údajov.
Tu sú uvedené vzorce pre dva najbežnejšie typy regresnej analýzy:
Jednoduchá lineárna regresia
V jednoduchej lineárnej regresii sa na zobrazenie vzťahu medzi dvoma premennými: nezávislou premennou (x) a závislou premennou (y) používa priamka najlepšej zhody.
Priamku najlepšej zhody možno znázorniť rovnicou: y = a + bx.
Tu a je priesečník, b je sklon priamky. Na výpočet sklonu sa použije vzorec: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2), kde n je počet pozorovaní, Σxy je súčet súčinov x a y, Σx a Σy sú súčty x a y a Σ(x2) je súčet štvorcov x.
Na výpočet intercepcie sa použije vzorec: a = (Σy - bΣx) / n.
Viacnásobná regresia
Viacnásobná lineárna regresia:
Vzorec pre rovnicu modelu viacnásobnej lineárnej regresie je:
y = b0 + b1x1 + b2x2 + ... + bnxn
kde y je závislá premenná, x1, x2, ..., xn sú nezávislé premenné a b0, b1, b2, ..., bn sú koeficienty nezávislých premenných.
Vzorec pre odhad koeficientov pomocou obyčajných najmenších štvorcov je:
β = (X'X)(-1)X'y
kde β je stĺpcový vektor koeficientov, X je návrhová matica nezávislých premenných, X' je transpozícia X a y je vektor pozorovaní závislej premennej.
Príklad regresnej analýzy
Predpokladajme, že chcete preskúmať súvislosť medzi priemerom známok (GPA) jednotlivca a počtom hodín štúdia týždenne. Zhromažďujete informácie od súboru študentov vrátane ich počtu študijných hodín a priemeru známok.
Potom pomocou regresnej analýzy zistite, či medzi oboma premennými existuje lineárna súvislosť, a ak áno, môžete vytvoriť model, ktorý predpovedá priemerný študijný výkon študenta na základe počtu hodín štúdia za týždeň.
Keď sa údaje znázornia na mape rozptylu, ukáže sa, že medzi počtom hodín štúdia a GPA existuje priaznivý lineárny vzťah. Sklon a priesečník priamky najlepšej zhody sa potom odhadnú pomocou jednoduchého lineárneho regresného modelu. Konečné riešenie by mohlo vyzerať takto:
GPA = 2,0 + 0,3 (počet odučených hodín za týždeň)
Táto rovnica hovorí, že za každú hodinu štúdia týždenne navyše sa študentovi zvýši GPA o 0,3 bodu, pričom všetko ostatné je rovnocenné. Tento algoritmus sa dá použiť na predpovedanie GPA študenta na základe toho, koľko hodín týždenne študuje, ako aj na identifikáciu študentov, u ktorých hrozí riziko slabších výsledkov na základe ich študijných návykov.
Na základe údajov z príkladu sa určia hodnoty pre b a a sú tieto:
n = 10 (počet pozorovaní)
Σx = 30 (súčet študijných hodín)
Σy = 25 (súčet priemerov GPA)
Σxy = 149 (súčet súčinu študijných hodín a priemerných študijných výsledkov)
Σ(x)2 = 102 (súčet štvorcov študijných hodín)
Na základe týchto hodnôt vypočítajte b ako:
b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)
= (10 * 149 – 30 * 25) / (10 * 102 – 302)
= 0.3
A vypočítať a ako:
a = (Σy - bΣx) / n
= (25 – 0.3 * 30) / 10
= 2.0
Rovnica priamky najlepšej zhody je teda:
GPA = 2,0 + 0,3 (počet odučených hodín za týždeň)
Aký je rozdiel medzi koreláciou a regresiou?
Korelácia aj regresia sú štatistické metódy na skúmanie súvislosti medzi dvoma premennými. Slúžia na rôzne účely a poskytujú rôzne typy informácií.
Korelácia je miera sily a priebehu súvislosti medzi dvoma premennými. Pohybuje sa od -1 do +1, pričom -1 predstavuje dokonalú negatívnu koreláciu, 0 predstavuje žiadnu koreláciu a +1 predstavuje dokonalú pozitívnu koreláciu. Korelácia udáva mieru prepojenia dvoch premenných, ale neoznačuje príčinu ani predvídateľnosť.
Regresia je na druhej strane metóda modelovania vzťahu medzi dvoma premennými, zvyčajne s cieľom predpovedať alebo vysvetliť jednu premennú na základe druhej. Regresná analýza môže poskytnúť odhady veľkosti a smeru vzťahu, ako aj testy štatistickej významnosti, intervaly spoľahlivosti a prognózy budúcich výsledkov.
Vaše výtvory, pripravené v priebehu niekoľkých minút
Mind the Graph je online platforma, ktorá vám ponúka rozsiahlu knižnicu vedeckých ilustrácií a infografiky, ktoré možno jednoducho upraviť podľa vašich jedinečných potrieb. Pomocou rozhrania drag-and-drop a širokej škály nástrojov a funkcií vytvoríte profesionálne vyzerajúce grafy, plagáty a grafické abstrakty za niekoľko minút.
Prihláste sa na odber nášho newslettera
Exkluzívny vysokokvalitný obsah o efektívnom vizuálnom
komunikácia vo vede.