Analiza de regresie este o metodă de identificare și analiză a legăturii dintre una sau mai multe variabile independente și o variabilă dependentă. Această metodă este utilizată pe scară largă într-o varietate de discipline, inclusiv în domeniul sănătății, al științelor sociale, al ingineriei, al economiei și al afacerilor. Puteți utiliza analiza de regresie pentru a investiga relațiile fundamentale din date și pentru a dezvolta modele predictive care vă vor ajuta să luați decizii în cunoștință de cauză.
Acest articol vă va oferi o prezentare cuprinzătoare a analizei de regresie, inclusiv modul în care funcționează, un exemplu ușor de înțeles și va explica în ce fel diferă de analiza de corelație.
Ce este analiza de regresie?
Analiza de regresie este o metodă statistică de identificare și cuantificare a legăturii dintre o variabilă dependentă și una sau mai multe variabile independente. Pe scurt, aceasta vă ajută să înțelegeți modul în care modificările uneia sau mai multor variabile independente sunt legate de modificările variabilei dependente.
Pentru a obține o înțelegere aprofundată a analizei de regresie, trebuie mai întâi să înțelegeți următorii termeni:
- Variabila dependentă: Aceasta este variabila pe care vă interesează să o analizați sau să o preziceți. Este variabila de rezultat pe care încercați să o înțelegeți și să o explicați.
- Variabile independente: Acestea sunt variabilele care credeți că au un efect asupra variabilei dependente. Acestea sunt adesea denumite variabile predictive, deoarece sunt utilizate pentru a prezice sau explica schimbările variabilei dependente.
Analiza de regresie poate fi utilizată într-o serie de situații, inclusiv pentru a prezice valorile viitoare ale variabilei dependente, pentru a înțelege efectul variabilelor independente asupra variabilei dependente și pentru a găsi valori aberante sau evenimente neobișnuite în colectarea datelor.
Analiza de regresie poate fi clasificată în mai multe tipuri, inclusiv regresia liniară simplă, regresia logistică, regresia polinomială și regresia multiplă. Modelul de regresie adecvat este determinat de natura datelor și de subiectul investigației în cauză.
Cum funcționează analiza de regresie?
Scopul analizei de regresie este de a identifica linia sau curba care se potrivește cel mai bine și care reflectă legătura dintre variabilele independente și variabila dependentă. Această linie sau curbă cea mai bine adaptată este generată cu ajutorul unor metode statistice care reduc diferențele dintre valorile așteptate și cele reale din colectarea datelor.
Iată formulele pentru cele mai frecvente două tipuri de analiză de regresie:
Regresie liniară unică
În Regresia liniară simplă, utilizați o linie de cea mai bună potrivire pentru a arăta relația dintre două variabile: variabila independentă (x) și variabila dependentă (y).
Linia de cea mai bună potrivire poate fi reprezentată prin ecuația: y = a + bx.
Aici, a este intercepția, iar b este panta dreptei. Pentru a calcula panta, se folosește formula: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2), unde n este numărul de observații, Σxy este suma produsului dintre x și y, Σx și Σy sunt sumele lui x și respectiv y, iar Σ(x2) este suma pătratelor lui x.
Pentru a calcula intercepția, se folosește formula: a = (Σy - bΣx) / n.
Regresie multiplă
Regresie liniară multiplă:
Formula pentru ecuația modelului de regresie liniară multiplă este:
y = b0 + b1x1 + b2x2 + ... + bnxn
unde y este variabila dependentă, x1, x2, ..., xn sunt variabilele independente, iar b0, b1, b2, ..., bn sunt coeficienții variabilelor independente.
Formula de estimare a coeficienților prin metoda celor mai mici pătrate ordinare este:
β = (X'X)(-1)X'y
unde β este un vector coloană de coeficienți, X este matricea de proiectare a variabilelor independente, X' este transpunerea lui X, iar y este vectorul de observații ale variabilei dependente.
Exemplu de analiză de regresie
Să presupunem că doriți să analizați legătura dintre media unei persoane și numărul de ore de studiu pe săptămână. Adunați informații de la un set de studenți, inclusiv numărul de ore de studiu și media lor.
Apoi, utilizați analiza de regresie pentru a vedea dacă există o legătură liniară între cele două variabile și, dacă da, puteți construi un model care să prezică media generală a unui student pe baza numărului de ore de studiu pe săptămână.
Atunci când datele sunt reprezentate pe o hartă de dispersie, se pare că există o legătură liniară favorabilă între orele de studiu și media generală. Panta și interceptarea liniei de cea mai bună potrivire sunt apoi estimate cu ajutorul unui model de regresie liniară simplă. Soluția finală ar putea arăta astfel:
GPA = 2.0 + 0.3 (ore studiate pe săptămână)
Această ecuație spune că pentru fiecare oră suplimentară de studiu pe săptămână, media unui student va crește cu 0,3 puncte, restul fiind echivalent. Acest algoritm poate fi folosit pentru a prognoza media generală a unui student în funcție de câte ore studiază pe săptămână, precum și pentru a identifica studenții care riscă să aibă rezultate slabe pe baza rutinei lor de studiu.
Utilizând datele din exemplu, valorile pentru b și a sunt următoarele:
n = 10 (numărul de observații)
Σx = 30 (suma orelor de studiu)
Σy = 25 (suma mediilor medii)
Σxy = 149 (suma produsului dintre orele de studiu și media generală)
Σ(x)2 = 102 (suma pătratelor orelor de studiu)
Folosind aceste valori, se calculează b ca:
b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)
= (10 * 149 – 30 * 25) / (10 * 102 – 302)
= 0.3
Și calculați a ca:
a = (Σy - bΣx) / n
= (25 – 0.3 * 30) / 10
= 2.0
Prin urmare, ecuația liniei de cea mai bună potrivire este:
GPA = 2.0 + 0.3 (ore studiate pe săptămână)
Care este diferența dintre corelație și regresie?
Atât corelația, cât și regresia sunt metode statistice de examinare a legăturii dintre două variabile. Acestea au scopuri diferite și oferă tipuri diferite de informații.
Corelația este o măsură a puterii și a cursului unei legături între două variabile. Aceasta variază de la -1 la +1, -1 reprezentând o corelație negativă perfectă, 0 reprezentând absența corelației, iar +1 reprezentând o corelație pozitivă perfectă. Corelația indică gradul în care două variabile sunt conectate, dar nu indică cauza sau predictibilitatea.
Pe de altă parte, regresia este o metodă de modelare a legăturii dintre două variabile, de obicei pentru a prognoza sau explica o variabilă pe baza celeilalte. Analiza de regresie poate furniza estimări ale mărimii și direcției relației, precum și teste de semnificație statistică, intervale de încredere și previziuni ale rezultatelor viitoare.
Creațiile tale, gata în câteva minute
Mind the Graph este o platformă online care vă oferă o bibliotecă extinsă de ilustrații științifice și modele infografice care pot fi modificate simplu pentru a răspunde nevoilor dumneavoastră unice. Realizați diagrame, postere și rezumate grafice cu aspect profesional în câteva minute, utilizând o interfață drag-and-drop și o gamă largă de instrumente și funcții.
Abonează-te la newsletter-ul nostru
Conținut exclusiv de înaltă calitate despre vizuale eficiente
comunicarea în domeniul științei.