Regresinė analizė - tai metodas, skirtas nustatyti ir analizuoti ryšį tarp vieno ar daugiau nepriklausomų kintamųjų ir priklausomo kintamojo. Šis metodas plačiai taikomas įvairiose srityse, įskaitant sveikatos priežiūrą, socialinius mokslus, inžineriją, ekonomiką ir verslą. Regresinę analizę galite naudoti norėdami ištirti esminius duomenų ryšius ir sukurti prognozavimo modelius, kurie padės jums priimti pagrįstus sprendimus.
Šiame straipsnyje išsamiai apžvelgiama regresinė analizė, pateikiama jos veikimo principas, lengvai suprantamas pavyzdys ir paaiškinama, kuo ji skiriasi nuo koreliacinės analizės.
Kas yra regresinė analizė?
Regresinė analizė yra statistinis metodas, skirtas nustatyti ir kiekybiškai įvertinti priklausomo kintamojo ir vieno ar daugiau nepriklausomų kintamųjų ryšį. Trumpai tariant, ji padeda suprasti, kaip vieno ar daugiau nepriklausomų kintamųjų pokyčiai susiję su priklausomo kintamojo pokyčiais.
Kad gerai suprastumėte regresinę analizę, pirmiausia turite suprasti šias sąvokas:
- Priklausomas kintamasis: Tai kintamasis, kurį norite analizuoti arba prognozuoti. Tai rezultato kintamasis, kurį bandote suprasti ir paaiškinti.
- Nepriklausomi kintamieji: Tai kintamieji, kurie, jūsų manymu, turi įtakos priklausomam kintamajam. Jie dažnai vadinami predikciniais kintamaisiais, nes naudojami priklausomo kintamojo pokyčiams prognozuoti arba paaiškinti.
Regresinė analizė gali būti naudojama įvairiomis aplinkybėmis, pavyzdžiui, prognozuojant būsimas priklausomo kintamojo vertes, siekiant suprasti nepriklausomų kintamųjų poveikį priklausomam kintamajam ir ieškant išskirčių ar neįprastų atvejų renkant duomenis.
Regresinė analizė gali būti skirstoma į keletą tipų, įskaitant vieną tiesinę regresiją, logistinę regresiją, polinominę regresiją ir daugialypę regresiją. Tinkamą regresijos modelį lemia duomenų pobūdis ir nagrinėjamas tyrimo objektas.
Kaip veikia regresinė analizė?
Regresinės analizės tikslas - nustatyti geriausiai atitinkančią tiesę arba kreivę, kuri atspindi ryšį tarp nepriklausomų kintamųjų ir priklausomo kintamojo. Ši geriausiai tinkanti linija arba kreivė sudaroma taikant statistinius metodus, kurie sumažina tikėtinų ir realių duomenų rinkinio reikšmių skirtumus.
Toliau pateikiamos dviejų labiausiai paplitusių regresinės analizės tipų formulės:
Viena tiesinė regresija
Taikant paprastąją tiesinę regresiją, dviejų kintamųjų - nepriklausomo kintamojo (x) ir priklausomo kintamojo (y) - ryšiui parodyti naudojama geriausiai tinkanti tiesė.
Geriausiai tinkančią tiesę galima pavaizduoti lygtimi: y = a + bx.
Čia a yra intercepcija, o b - tiesės nuolydis. Norint apskaičiuoti tiesės nuolydį, naudojama formulė: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2), kur n - stebėjimų skaičius, Σxy - x ir y sandaugos suma, Σx ir Σy - atitinkamai x ir y sumos, o Σ(x2) yra x kvadratų suma.
Intercepcijai apskaičiuoti naudojama formulė: a = (Σy - bΣx) / n.
Daugialypė regresija
Daugialypė tiesinė regresija:
Daugialypės tiesinės regresijos modelio lygties formulė yra tokia:
y = b0 + b1x1 + b2x2 + ... + bnxn
kur y yra priklausomas kintamasis, x1, x2, ..., xn yra nepriklausomi kintamieji, o b0, b1, b2, ..., bn yra nepriklausomų kintamųjų koeficientai.
Koeficientų įvertinimo formulė, taikant paprastųjų mažiausiųjų kvadratų metodą, yra tokia:
β = (X'X)(-1)X'y
kur β yra stulpelinis koeficientų vektorius, X yra nepriklausomų kintamųjų matrica, X' yra X transpozicija, o y yra priklausomo kintamojo stebėjimų vektorius.
Regresinės analizės pavyzdys
Tarkime, kad norite išsiaiškinti ryšį tarp asmens pažymių vidurkio (GPA) ir valandų, kurias jis mokosi per savaitę, skaičiaus. Renkate informaciją iš studentų, įskaitant jų studijų valandų skaičių ir pažymių vidurkį.
Tada naudokite regresinę analizę, kad pamatytumėte, ar tarp abiejų kintamųjų yra tiesinis ryšys, ir, jei taip, galite sukurti modelį, pagal kurį būtų galima prognozuoti studento GPA, atsižvelgiant į jo mokymosi valandų skaičių per savaitę.
Duomenis pavaizdavus sklaidos žemėlapyje, paaiškėja, kad egzistuoja palankus tiesinis ryšys tarp mokymosi valandų ir GPA. Tuomet geriausio atitikimo tiesės nuolydis ir interceptas įvertinami taikant paprastosios tiesinės regresijos modelį. Galutinis sprendimas galėtų atrodyti taip:
GPA = 2,0 + 0,3 (mokymosi valandos per savaitę)
Pagal šią lygtį už kiekvieną papildomą mokymosi valandą per savaitę studento vidurkis padidėja 0,3 balo, o visa kita yra lygiavertiška. Šį algoritmą galima naudoti norint prognozuoti studento GPA pagal tai, kiek valandų per savaitę jis mokosi, taip pat nustatyti, kuriems studentams gresia prasti rezultatai, atsižvelgiant į jų mokymosi įpročius.
Naudojant pavyzdžio duomenis, vertės b ir a yra šie:
n = 10 (stebėjimų skaičius)
Σx = 30 (studijų valandų suma)
Σy = 25 (GPA suma)
Σxy = 149 (studijų valandų ir GPA sandaugos suma)
Σ(x)2 = 102 (studijų valandų kvadratų suma)
Remdamiesi šiomis vertėmis, apskaičiuokite b kaip:
b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)
= (10 * 149 – 30 * 25) / (10 * 102 – 302)
= 0.3
Ir apskaičiuokite a kaip:
a = (Σy - bΣx) / n
= (25 – 0.3 * 30) / 10
= 2.0
Todėl geriausiai tinkančios tiesės lygtis yra:
GPA = 2,0 + 0,3 (mokymosi valandos per savaitę)
Kuo skiriasi koreliacija nuo regresijos?
Ir koreliacija, ir regresija yra statistiniai metodai, skirti dviejų kintamųjų ryšiui tirti. Jie naudojami skirtingiems tikslams ir teikia skirtingą informaciją.
Koreliacija yra dviejų kintamųjų ryšio stiprumo ir eigos matas. Jis svyruoja nuo -1 iki +1, kai -1 reiškia tobulą neigiamą koreliaciją, 0 - jokio ryšio, o +1 - tobulą teigiamą koreliaciją. Koreliacija parodo dviejų kintamųjų ryšio laipsnį, tačiau ji nenurodo priežasties ar nuspėjamumo.
Kita vertus, regresija - tai dviejų kintamųjų ryšio modeliavimo metodas, paprastai siekiant prognozuoti arba paaiškinti vieną kintamąjį remiantis kitu. Regresinė analizė gali padėti įvertinti ryšio dydį ir kryptį, taip pat atlikti statistinio reikšmingumo testus, nustatyti patikimumo intervalus ir būsimų rezultatų prognozes.
Jūsų kūriniai, paruošti per kelias minutes
Mind the Graph tai internetinė platforma, kurioje rasite plačią mokslinių iliustracijų ir infografikos dizainų biblioteką, kurią galima lengvai modifikuoti, kad ji atitiktų jūsų unikalius poreikius. Naudodamiesi "drag-and-drop" sąsaja ir įvairiais įrankiais bei funkcijomis, per kelias minutes sukurkite profesionaliai atrodančias diagramas, plakatus ir grafines santraukas.
Prenumeruokite mūsų naujienlaiškį
Išskirtinis aukštos kokybės turinys apie veiksmingą vaizdinį
bendravimas mokslo srityje.