Regresní analýza je přístup k identifikaci a analýze vztahu mezi jednou nebo více nezávislými proměnnými a závislou proměnnou. Tato metoda se hojně využívá v různých oborech, včetně zdravotnictví, sociálních věd, inženýrství, ekonomie a podnikání. Pomocí regresní analýzy můžete zkoumat základní vztahy v datech a vytvářet prediktivní modely, které vám pomohou při přijímání informovaných rozhodnutí.

Tento článek vám poskytne ucelený přehled o regresní analýze, včetně jejího fungování, snadno pochopitelného příkladu a vysvětlí, jak se liší od korelační analýzy.

Co je regresní analýza?

Regresní analýza je statistická metoda pro identifikaci a kvantifikaci vztahu mezi závislou proměnnou a jednou nebo více nezávislými proměnnými. Stručně řečeno, pomáhá pochopit, jak změny jedné nebo více nezávislých proměnných souvisejí se změnami závislé proměnné.

Pro důkladné pochopení regresní analýzy je třeba nejprve porozumět následujícím pojmům:

  • Závislá proměnná: Jedná se o proměnnou, kterou chcete analyzovat nebo předpovídat. Je to výsledná proměnná, kterou se snažíte pochopit a vysvětlit.
  • Nezávislé proměnné: Jedná se o proměnné, o kterých se domníváte, že mají vliv na závislou proměnnou. Často se označují jako prediktivní proměnné, protože se používají k předpovědi nebo vysvětlení změn závislé proměnné.

Regresní analýzu lze použít za různých okolností, včetně předpovědi budoucích hodnot závislé proměnné, pochopení vlivu nezávislých proměnných na závislou proměnnou a zjištění odlehlých hodnot nebo neobvyklých výskytů při sběru dat.

Regresní analýzu lze rozdělit na několik typů, včetně jednoduché lineární regrese, logistické regrese, polynomiální regrese a vícenásobné regrese. Vhodný regresní model se určuje podle povahy dat a předmětu zkoumání.

Jak funguje regresní analýza?

Účelem regresní analýzy je určit nejlépe odpovídající přímku nebo křivku, která odráží souvislost mezi nezávislými proměnnými a závislou proměnnou. Tato nejlépe vyhovující přímka nebo křivka se vytváří pomocí statistických metod, které snižují rozdíly mezi očekávanými a skutečnými hodnotami v souboru dat.

Zde jsou uvedeny vzorce pro dva nejběžnější typy regresní analýzy:

Jednoduchá lineární regrese

V jednoduché lineární regresi se k zobrazení vztahu mezi dvěma proměnnými: nezávislou proměnnou (x) a závislou proměnnou (y) používá přímka nejlepší shody.

Přímku nejlepší shody lze znázornit rovnicí: y = a + bx.

Zde a je průsečík, b je sklon přímky. Pro výpočet sklonu se použije vzorec: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2), kde n je počet pozorování, Σxy je součet součinů x a y, Σx a Σy jsou součty x a y a Σ(x2) je součet čtverců x.

Pro výpočet interceptu se použije vzorec: a = (Σy - bΣx) / n.

Vícenásobná regrese 

Vícenásobná lineární regrese:

Vzorec pro rovnici modelu vícenásobné lineární regrese je:

y = b0 + b1x1 + b2x2 + ... + bnxn

kde y je závislá proměnná, x1, x2, ..., xn jsou nezávislé proměnné a b0, b1, b2, ..., bn jsou koeficienty nezávislých proměnných.

Vzorec pro odhad koeficientů pomocí obyčejných nejmenších čtverců je následující:

β = (X'X)(-1)X'y

kde β je sloupcový vektor koeficientů, X je návrhová matice nezávislých proměnných, X' je transpozice X a y je vektor pozorování závislé proměnné.

Příklad regresní analýzy

Předpokládejme, že chcete zjistit souvislost mezi průměrným prospěchem (GPA) a počtem hodin studia týdně. Shromáždíte informace od souboru studentů, včetně jejich počtu studijních hodin a průměru známek.

Poté pomocí regresní analýzy zjistěte, zda mezi oběma proměnnými existuje lineární souvislost, a pokud ano, můžete sestavit model, který předpovídá průměrný prospěch studenta na základě počtu hodin studia týdně.

Obrázek je k dispozici na alchemer.com

Při vynesení dat do mapy rozptylu se ukazuje, že mezi počtem hodin studia a GPA existuje příznivá lineární souvislost. Sklon a průsečík přímky nejlepší shody jsou pak odhadnuty pomocí jednoduchého lineárního regresního modelu. Konečné řešení by mohlo vypadat následovně:

GPA = 2,0 + 0,3 (počet hodin týdně)

Obrázek je k dispozici na alchemer.com

Tato rovnice říká, že za každou hodinu studia týdně navíc se studentův průměr zvýší o 0,3 bodu, přičemž vše ostatní je rovnocenné. Tento algoritmus lze použít k předpovědi GPA studenta na základě toho, kolik hodin týdně studuje, a také k identifikaci studentů, u kterých hrozí, že budou mít horší výsledky, na základě jejich studijních návyků. 

Na základě údajů z příkladu jsou hodnoty pro b a a jsou následující:

n = 10 (počet pozorování)

Σx = 30 (součet studijních hodin)

Σy = 25 (součet průměrů)

Σxy = 149 (součet součinu studijních hodin a průměrných studijních výsledků)

Σ(x)2 = 102 (součet čtverců studijních hodin)

Na základě těchto hodnot vypočítejte b jako:

b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)

= (10 * 149 – 30 * 25) / (10 * 102 – 302)

= 0.3

A vypočítat a jako:

a = (Σy - bΣx) / n

= (25 – 0.3 * 30) / 10

= 2.0

Rovnice přímky nejlepší shody je tedy: 

GPA = 2,0 + 0,3 (počet hodin týdně)

Jaký je rozdíl mezi korelací a regresí?

Korelace i regrese jsou statistické metody pro zkoumání vztahu mezi dvěma proměnnými. Slouží k různým účelům a poskytují různé typy informací.

Korelace je měřítkem síly a průběhu vztahu mezi dvěma proměnnými. Pohybuje se od -1 do +1, přičemž -1 představuje dokonalou zápornou korelaci, 0 představuje žádnou korelaci a +1 představuje dokonalou kladnou korelaci. Korelace udává míru propojení dvou proměnných, ale nevypovídá o příčině nebo předvídatelnosti.

Regrese je naopak metoda modelování vztahu mezi dvěma proměnnými, obvykle za účelem předpovědi nebo vysvětlení jedné proměnné na základě druhé. Regresní analýza může poskytnout odhady velikosti a směru vztahu, stejně jako testy statistické významnosti, rozsahy spolehlivosti a prognózy budoucích výsledků.

Vaše výtvory připravené během několika minut

Mind the Graph je online platforma, která nabízí rozsáhlou knihovnu vědeckých ilustrací a infografik, které lze jednoduše upravit podle vašich jedinečných potřeb. Vytvářejte profesionálně vypadající grafy, plakáty a grafické abstrakty během několika minut pomocí rozhraní drag-and-drop a široké škály nástrojů a funkcí. 

logo-odběr

Přihlaste se k odběru našeho newsletteru

Exkluzivní vysoce kvalitní obsah o efektivním vizuálním
komunikace ve vědě.

- Exkluzivní průvodce
- Tipy pro návrh
- Vědecké novinky a trendy
- Výukové programy a šablony