L'analisi di regressione è un approccio per identificare e analizzare la connessione tra una o più variabili indipendenti e una variabile dipendente. Questo metodo è ampiamente utilizzato in diverse discipline, tra cui l'assistenza sanitaria, le scienze sociali, l'ingegneria, l'economia e gli affari. È possibile utilizzare l'analisi di regressione per studiare le relazioni fondamentali nei dati e sviluppare modelli predittivi che vi aiuteranno a prendere decisioni informate.

Questo articolo vi fornirà una panoramica completa dell'analisi di regressione, con il suo funzionamento, un esempio di facile comprensione e spiegherà come si differenzia dall'analisi di correlazione.

Che cos'è l'analisi di regressione?

L'analisi di regressione è un metodo statistico per identificare e quantificare il legame tra una variabile dipendente e una o più variabili indipendenti. In poche parole, aiuta a comprendere come le variazioni di una o più variabili indipendenti siano correlate alle variazioni della variabile dipendente.

Per comprendere a fondo l'analisi di regressione, è necessario innanzitutto comprendere i seguenti termini:

  • Variabile dipendente: È la variabile che vi interessa analizzare o prevedere. È la variabile di risultato che si cerca di capire e spiegare.
  • Variabili indipendenti: Sono le variabili che si ritiene abbiano un effetto sulla variabile dipendente. Spesso vengono chiamate variabili predittive, in quanto vengono utilizzate per prevedere o spiegare le variazioni della variabile dipendente.

L'analisi di regressione può essere utilizzata per una serie di circostanze, tra cui la previsione dei valori futuri della variabile dipendente, la comprensione dell'effetto delle variabili indipendenti sulla variabile dipendente e l'individuazione di valori anomali o di eventi insoliti nella raccolta dei dati.

L'analisi di regressione può essere classificata in diversi tipi, tra cui regressione lineare singola, regressione logistica, regressione polinomiale e regressione multipla. Il modello di regressione adatto è determinato dalla natura dei dati e dall'oggetto dell'indagine.

Come funziona l'analisi di regressione?

Lo scopo dell'analisi di regressione è quello di identificare la linea o la curva più adatta che riflette la connessione tra le variabili indipendenti e la variabile dipendente. Questa linea o curva di miglior adattamento viene generata utilizzando metodi statistici che riducono le disparità tra i valori attesi e quelli reali nella raccolta dei dati.

Ecco le formule per i due tipi più comuni di analisi di regressione:

Regressione lineare singola

Nella Regressione lineare semplice, si utilizza una linea di miglior adattamento per mostrare la relazione tra due variabili: la variabile indipendente (x) e la variabile dipendente (y).

La linea di miglior adattamento può essere rappresentata dall'equazione: y = a + bx.

In questo caso, a è l'intercetta, b è la pendenza della retta. Per calcolare la pendenza, si utilizza la formula: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2), dove n è il numero di osservazioni, Σxy è la somma del prodotto di x e y, Σx e Σy sono le somme di x e y rispettivamente, e Σ(x2) è la somma dei quadrati di x.

Per calcolare l'intercetta, si utilizza la formula: a = (Σy - bΣx) / n.

Regressione multipla 

Regressione lineare multipla:

La formula dell'equazione del modello di regressione lineare multipla è:

y = b0 + b1x1 + b2x2 + ... + bnxn

dove y è la variabile dipendente, x1, x2, ..., xn sono le variabili indipendenti e b0, b1, b2, ..., bn sono i coefficienti delle variabili indipendenti.

La formula per stimare i coefficienti utilizzando i minimi quadrati ordinari è:

β = (X'X)(-1)X'y

dove β è un vettore di colonne di coefficienti, X è la matrice di progetto delle variabili indipendenti, X' è la trasposizione di X e y è il vettore di osservazioni della variabile dipendente.

Esempio di analisi di regressione

Si supponga di voler analizzare il legame tra la media dei voti (GPA) di un individuo e il numero di ore di studio settimanali. Raccogliete informazioni da un gruppo di studenti, tra cui il numero di ore di studio e la media dei voti.

Quindi, utilizzare l'analisi di regressione per verificare se esiste una connessione lineare tra le due variabili e, in caso affermativo, costruire un modello che preveda la media degli studenti in base al numero di ore di studio settimanali.

Immagine disponibile su alchemer.com

Quando i dati vengono tracciati su una mappa di dispersione, risulta che esiste una connessione lineare favorevole tra le ore di studio e la media. La pendenza e l'intercetta della linea di miglior adattamento vengono quindi stimate utilizzando un semplice modello di regressione lineare. La soluzione finale potrebbe essere la seguente:

GPA = 2,0 + 0,3 (ore di studio settimanali)

Immagine disponibile su alchemer.com

Questa equazione stabilisce che per ogni ora di studio in più alla settimana, la media di uno studente aumenterà di 0,3 punti, mentre tutto il resto sarà equivalente. Questo algoritmo può essere utilizzato per prevedere la media di uno studente in base al numero di ore di studio settimanali e per identificare gli studenti che rischiano di avere un rendimento insufficiente in base alle loro abitudini di studio. 

Utilizzando i dati dell'esempio, i valori di b e a sono i seguenti:

n = 10 (il numero di osservazioni)

Σx = 30 (la somma delle ore di studio)

Σy = 25 (la somma delle GPA)

Σxy = 149 (la somma del prodotto delle ore di studio e della media)

Σ(x)2 = 102 (la somma dei quadrati delle ore di studio)

Utilizzando questi valori, calcolare b come:

b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)

= (10 * 149 – 30 * 25) / (10 * 102 – 302)

= 0.3

E calcolare a come:

a = (Σy - bΣx) / n

= (25 – 0.3 * 30) / 10

= 2.0

Pertanto, l'equazione della retta di miglior adattamento è: 

GPA = 2,0 + 0,3 (ore di studio settimanali)

Qual è la differenza tra correlazione e regressione?

Sia la correlazione che la regressione sono metodi statistici per esaminare la connessione tra due variabili. Hanno scopi diversi e forniscono informazioni diverse.

La correlazione è una misura della forza e dell'andamento di una connessione tra due variabili. Va da -1 a +1, con -1 che rappresenta una perfetta correlazione negativa, 0 che rappresenta nessuna correlazione e +1 che rappresenta una perfetta correlazione positiva. La correlazione indica il grado di connessione tra due variabili, ma non indica la causa o la prevedibilità.

La regressione, invece, è un metodo per modellare la connessione tra due variabili, in genere per prevedere o spiegare una variabile in base all'altra. L'analisi di regressione può fornire stime dell'entità e della direzione della relazione, nonché test di significatività statistica, intervalli di confidenza e previsioni di risultati futuri.

Le vostre creazioni, pronte in pochi minuti

Mind the Graph è una piattaforma online che offre una vasta libreria di illustrazioni scientifiche e infografiche che possono essere modificate in modo semplice per soddisfare le vostre esigenze specifiche. Create grafici, poster e abstract grafici dall'aspetto professionale in pochi minuti, utilizzando un'interfaccia drag-and-drop e un'ampia gamma di strumenti e funzionalità. 

logo-iscrizione

Iscriviti alla nostra newsletter

Contenuti esclusivi di alta qualità su visual efficaci
comunicazione nella scienza.

- Guida esclusiva
- Suggerimenti per il design
- Notizie e tendenze scientifiche
- Tutorial e modelli