A regresszióelemzés egy vagy több független változó és egy függő változó közötti kapcsolat azonosítására és elemzésére szolgáló megközelítés. Ezt a módszert széles körben alkalmazzák számos tudományágban, többek között az egészségügyben, a társadalomtudományokban, a mérnöki tudományokban, a közgazdaságtanban és az üzleti életben. A regresszióelemzés segítségével megvizsgálhatja az adatokban lévő alapvető összefüggéseket, és olyan előrejelző modelleket dolgozhat ki, amelyek segítik a megalapozott döntések meghozatalát.

Ez a cikk átfogó áttekintést nyújt a regresszióelemzésről, beleértve annak működését, egy könnyen érthető példát, és elmagyarázza, miben különbözik a korrelációelemzéstől.

Mi az a regresszióelemzés?

A regresszióelemzés egy statisztikai módszer a függő változó és egy vagy több független változó közötti kapcsolat azonosítására és számszerűsítésére. Dióhéjban segít megérteni, hogy az egy vagy több független változóban bekövetkező változások hogyan függenek össze a függő változóban bekövetkező változásokkal.

A regresszióelemzés alapos megértéséhez először is meg kell értenie a következő fogalmakat:

  • Függő változó: Ez az a változó, amelynek elemzése vagy előrejelzése érdekli. Ez az a kimeneti változó, amelyet megpróbál megérteni és megmagyarázni.
  • Független változók: Ezek azok a változók, amelyekről úgy gondolja, hogy hatással vannak a függő változóra. Gyakran nevezik őket prediktor változóknak, mivel arra szolgálnak, hogy megjósolják vagy megmagyarázzák a függő változóban bekövetkező változásokat.

A regresszióelemzés számos esetben alkalmazható, többek között a függő változó jövőbeli értékeinek előrejelzésére, a független változók függő változóra gyakorolt hatásának megértésére, valamint az adatgyűjtés során a kiugró értékek vagy szokatlan események megtalálására.

A regresszióelemzés több típusba sorolható, beleértve az egyszerű lineáris regressziót, a logisztikus regressziót, a polinomiális regressziót és a többszörös regressziót. A megfelelő regressziós modellt az adatok jellege és a vizsgálat tárgya határozza meg.

Hogyan működik a regresszióelemzés?

A regresszióelemzés célja a független változók és a függő változó közötti kapcsolatot tükröző legjobban illeszkedő egyenes vagy görbe meghatározása. Ezt a legjobban illeszkedő egyenest vagy görbét olyan statisztikai módszerek segítségével hozzák létre, amelyek csökkentik az adatgyűjtés során a várt és a valós értékek közötti eltéréseket.

Az alábbiakban a regresszióelemzés két leggyakoribb típusának képleteit ismertetjük:

Egyetlen lineáris regresszió

Az egyszerű lineáris regresszióban a legjobban illeszkedő egyenest használod a két változó: a független változó (x) és a függő változó (y) közötti kapcsolat bemutatására.

A legjobb illeszkedés egyenese a következő egyenlet segítségével ábrázolható: y = a + bx.

Itt a a metszéspont, b az egyenes meredeksége. A meredekség kiszámításához a következő képletet használjuk: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2), ahol n a megfigyelések száma, Σxy az x és y szorzatának összege, Σx és Σy az x és y összegei, és Σ(x2) az x négyzeteinek összege.

A metszéspont kiszámításához a következő képletet kell használni: a = (Σy - bΣx) / n.

Többszörös regresszió 

Többszörös lineáris regresszió:

A többszörös lineáris regressziós modell egyenletének képlete a következő:

y = b0 + b1x1 + b2x2 + ... + bnxn

ahol y a függő változó, x1, x2, ..., xn a független változók, és b0, b1, b2, ..., bn a független változók együtthatói.

Az együtthatók becslésére szolgáló képlet a következő:

β = (X'X)(-1)X'y

ahol β az együtthatók oszlopvektora, X a független változók tervezési mátrixa, X' az X transzponáltja, y pedig a függő változó megfigyeléseinek vektora.

Példa a regressziós elemzésre

Tegyük fel, hogy az egyén tanulmányi átlaga (GPA) és a heti tanulási órák száma közötti kapcsolatot szeretné megvizsgálni. Összegyűjti a diákok egy csoportjáról az információkat, beleértve a tanulói órák számát és a tanulmányi átlagot.

Ezután a regresszióelemzés segítségével megnézheti, hogy van-e lineáris kapcsolat a két változó között, és ha igen, akkor létrehozhat egy olyan modellt, amely megjósolja a diákok tanulmányi átlagát a heti tanulói órák száma alapján.

A kép elérhető a alchemer.com

Ha az adatokat szórásos térképen ábrázoljuk, úgy tűnik, hogy a tanulmányi órák és a tanulmányi átlag között kedvező lineáris kapcsolat van. A legjobb illeszkedés egyenesének meredekségét és metszéspontját ezután egyszerű lineáris regressziós modell segítségével becsüljük meg. A végső megoldás így nézhet ki:

GPA = 2,0 + 0,3 (heti tanulmányi órák)

A kép elérhető a alchemer.com

Ez az egyenlet kimondja, hogy minden heti többletórával a tanuló tanulmányi átlaga 0,3 ponttal emelkedik, minden más egyenértékűség mellett. Ez az algoritmus felhasználható egy diák tanulmányi átlagának előrejelzésére annak alapján, hogy hány órát tanul hetente, valamint annak megállapítására, hogy a tanulási rutinjuk alapján mely diákokat fenyegeti az alulteljesítés veszélye. 

A példa adatainak felhasználásával az alábbi értékek b és a a következők:

n = 10 (a megfigyelések száma)

Σx = 30 (a tanulmányi órák összege)

Σy = 25 (a GPA-k összege)

Σxy = 149 (a tanulmányi órák és a tanulmányi átlagok szorzatának összege)

Σ(x)2 = 102 (a tanulmányi órák négyzetének összege)

Ezen értékek felhasználásával számítsa ki b mint:

b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)

= (10 * 149 – 30 * 25) / (10 * 102 – 302)

= 0.3

És számítsa ki a mint:

a = (Σy - bΣx) / n

= (25 – 0.3 * 30) / 10

= 2.0

Ezért a legjobb illeszkedési egyenes egyenlete a következő: 

GPA = 2,0 + 0,3 (heti tanulmányi órák)

Mi a különbség a korreláció és a regresszió között?

Mind a korreláció, mind a regresszió olyan statisztikai módszer, amellyel két változó közötti kapcsolatot lehet vizsgálni. Különböző célokat szolgálnak, és különböző típusú információkat szolgáltatnak.

A korreláció a két változó közötti kapcsolat erősségének és lefolyásának mérőszáma. A korreláció mértéke -1 és +1 között mozog, ahol a -1 a tökéletes negatív korrelációt, a 0 a korreláció hiányát, a +1 pedig a tökéletes pozitív korrelációt jelenti. A korreláció azt jelzi, hogy két változó milyen mértékben kapcsolódik egymáshoz, de nem jelzi az okot vagy a kiszámíthatóságot.

A regresszió másrészt két változó közötti kapcsolat modellezésére szolgáló módszer, jellemzően azért, hogy az egyik változót a másik alapján előre jelezzük vagy magyarázzuk. A regresszióelemzés becsléseket adhat a kapcsolat nagyságáról és irányáról, valamint statisztikai szignifikanciateszteket, konfidencia tartományokat és jövőbeli eredmények előrejelzését.

Az Ön kreációi, perceken belül készen állnak

Mind the Graph egy olyan online platform, amely tudományos illusztrációk és infografikus tervek széles körű könyvtárát kínálja, amelyeket egyszerűen módosíthat az egyedi igényeinek megfelelően. Készítsen professzionális megjelenésű grafikonokat, posztereket és grafikai összefoglalókat percek alatt a drag-and-drop felület, valamint az eszközök és funkciók széles skálája segítségével. 

logo-subscribe

Iratkozzon fel hírlevelünkre

Exkluzív, kiváló minőségű tartalom a hatékony vizuális
kommunikáció a tudományban.

- Exkluzív útmutató
- Tervezési tippek
- Tudományos hírek és trendek
- Oktatóanyagok és sablonok