Wykorzystanie analizy regresji do zrozumienia złożonych relacji

Analiza regresji to metoda identyfikacji i analizy związku między jedną lub większą liczbą zmiennych niezależnych a zmienną zależną. Metoda ta jest szeroko stosowana w różnych dyscyplinach, w tym w opiece zdrowotnej, naukach społecznych, inżynierii, ekonomii i biznesie. Analizę regresji można wykorzystać do zbadania podstawowych zależności w danych i opracowania modeli predykcyjnych, które pomogą w podejmowaniu świadomych decyzji.

Ten artykuł zawiera kompleksowy przegląd analizy regresji, w tym sposób jej działania, łatwy do zrozumienia przykład i wyjaśnia, czym różni się ona od analizy korelacji.

Czym jest analiza regresji?

Analiza regresji to metoda statystyczna służąca do identyfikacji i ilościowego określenia związku między zmienną zależną a jedną lub większą liczbą zmiennych niezależnych. W skrócie, pomaga ona zrozumieć, w jaki sposób zmiany jednej lub więcej zmiennych niezależnych są powiązane ze zmianami zmiennej zależnej.

Aby dokładnie zrozumieć analizę regresji, należy najpierw zrozumieć następujące pojęcia:

Zmienna zależna: Jest to zmienna, którą chcesz przeanalizować lub przewidzieć. Jest to zmienna wynikowa, którą próbujesz zrozumieć i wyjaśnić.
Zmienne niezależne: Są to zmienne, które Twoim zdaniem mają wpływ na zmienną zależną. Są one często określane jako zmienne predykcyjne, ponieważ służą do przewidywania lub wyjaśniania zmian w zmiennej zależnej.

Analiza regresji może być wykorzystywana w różnych okolicznościach, w tym do przewidywania przyszłych wartości zmiennej zależnej, zrozumienia wpływu zmiennych niezależnych na zmienną zależną oraz znajdowania wartości odstających lub nietypowych zdarzeń w gromadzeniu danych.

Analizę regresji można podzielić na kilka typów, w tym pojedynczą regresję liniową, regresję logistyczną, regresję wielomianową i regresję wielokrotną. Odpowiedni model regresji zależy od charakteru danych i rozważanego przedmiotu badania.

Jak działa analiza regresji?

Celem analizy regresji jest zidentyfikowanie najlepiej dopasowanej linii lub krzywej, która odzwierciedla związek między zmiennymi niezależnymi a zmienną zależną. Ta najlepiej dopasowana linia lub krzywa jest generowana przy użyciu metod statystycznych, które zmniejszają rozbieżności między oczekiwanymi i rzeczywistymi wartościami w zbiorze danych.

Oto wzory dla dwóch najpopularniejszych typów analizy regresji:

Pojedyncza regresja liniowa

W prostej regresji liniowej używasz linii najlepszego dopasowania, aby pokazać związek między dwiema zmiennymi: zmienną niezależną (x) i zmienną zależną (y).

Linia najlepszego dopasowania może być reprezentowana przez równanie: y = a + bx.

W tym przypadku a to punkt przecięcia, a b to nachylenie linii. Aby obliczyć nachylenie, należy użyć wzoru: b = (nΣ(xy) - ΣxΣy) / (nΣ(x²) - (Σx)²), gdzie n to liczba obserwacji, Σxy to suma iloczynów x i y, Σx i Σy to odpowiednio sumy x i y, a Σ(x²) jest sumą kwadratów x.

Aby obliczyć punkt przecięcia, należy użyć wzoru: a = (Σy - bΣx) / n.

Regresja wielokrotna

Wielokrotna regresja liniowa:

Wzór na równanie modelu wielokrotnej regresji liniowej jest następujący:

y = b₀ + b₁x₁ + b₂x₂ + ... + b_nx_n

gdzie y jest zmienną zależną, x₁, x₂, ..., x_n są zmiennymi niezależnymi, a b₀, b₁, b₂, ..., bn są współczynnikami zmiennych niezależnych.

Wzór na oszacowanie współczynników przy użyciu zwykłych najmniejszych kwadratów jest następujący:

β = (X'X)^(-1)X'y

gdzie β jest wektorem kolumnowym współczynników, X jest macierzą projektową zmiennych niezależnych, X' jest transpozycją X, a y jest wektorem obserwacji zmiennej zależnej.

Przykład analizy regresji

Załóżmy, że chcesz zbadać związek między średnią ocen (GPA) danej osoby a liczbą godzin nauki w tygodniu. Zbierasz informacje od grupy studentów, w tym ich liczbę godzin nauki i średnią ocen.

Następnie użyj analizy regresji, aby sprawdzić, czy istnieje liniowy związek między obiema zmiennymi, a jeśli tak, możesz zbudować model, który przewiduje GPA studenta na podstawie liczby godzin nauki w tygodniu.

*Obraz dostępny na stronie alchemer.com*

Gdy dane są wykreślane na mapie rozrzutu, okazuje się, że istnieje korzystny liniowy związek między godzinami nauki a GPA. Nachylenie i punkt przecięcia linii najlepszego dopasowania są następnie szacowane przy użyciu prostego modelu regresji liniowej. Ostateczne rozwiązanie może wyglądać następująco:

GPA = 2,0 + 0,3 (liczba godzin nauki tygodniowo)

Równanie to mówi, że za każdą dodatkową godzinę nauki w tygodniu, GPA studenta wzrośnie o 0,3 punktu, przy czym wszystko inne jest równoważne. Algorytm ten można wykorzystać do prognozowania GPA studenta na podstawie liczby godzin nauki w tygodniu, a także do określenia, którzy studenci są zagrożeni słabszymi wynikami na podstawie ich rutyny nauki.

Korzystając z danych z przykładu, wartości dla b oraz a są następujące:

n = 10 (liczba obserwacji)

Σx = 30 (suma godzin nauki)

Σy = 25 (suma GPA)

Σxy = 149 (suma iloczynu godzin nauki i GPA)

Σ(x)² = 102 (suma kwadratów godzin nauki)

Korzystając z tych wartości, oblicz b jako:

b = (nΣ(xy) - ΣxΣy) / (nΣ(x²) - (Σx)²)

= (10 * 149 – 30 * 25) / (10 * 102 – 30²)

= 0.3

I obliczyć a jako:

a = (Σy - bΣx) / n

= (25 – 0.3 * 30) / 10

= 2.0

Dlatego równanie linii najlepszego dopasowania wynosi:

GPA = 2,0 + 0,3 (liczba godzin nauki tygodniowo)

Jaka jest różnica między korelacją a regresją?

Zarówno korelacja, jak i regresja są metodami statystycznymi służącymi do badania związku między dwiema zmiennymi. Służą one różnym celom i dostarczają różnych rodzajów informacji.

Korelacja jest miarą siły i przebiegu związku między dwiema zmiennymi. Przyjmuje ona wartości od -1 do +1, gdzie -1 oznacza idealną korelację ujemną, 0 oznacza brak korelacji, a +1 oznacza idealną korelację dodatnią. Korelacja wskazuje stopień, w jakim dwie zmienne są ze sobą powiązane, ale nie wskazuje przyczyny ani przewidywalności.

Z drugiej strony, regresja jest metodą modelowania związku między dwiema zmiennymi, zazwyczaj w celu prognozowania lub wyjaśniania jednej zmiennej na podstawie drugiej. Analiza regresji może zapewnić oszacowanie wielkości i kierunku związku, a także testy istotności statystycznej, przedziały ufności i prognozy przyszłych wyników.

Twoje kreacje gotowe w ciągu kilku minut

Mind the Graph to platforma internetowa oferująca obszerną bibliotekę ilustracji naukowych i infografik, które można łatwo modyfikować, aby spełnić swoje unikalne potrzeby. Pozwala ona tworzyć profesjonalnie wyglądające wykresy, plakaty i streszczenia graficzne w ciągu kilku minut za pomocą interfejsu "przeciągnij i upuść" oraz szerokiej gamy narzędzi i funkcji.