Un passo significativo per la verifica dell’esistenza di una correlazione tra i caratteri osservati, consiste nel disegnare un diagramma di dispersione, cioè rappresentare nel piano cartesiano le osservazioni con punti o cerchietti.
Se il diagramma di dispersione suggerisce una relazione lineare tra i dati ed inoltre, il valore del coefficiente di correlazione in modulo è prossimo ad uno, anche se tra i dati non esiste una relazione perfettamente lineare, ha senso determinare l’equazione di una retta che approssimi i dati nel “miglior modo possibile”.
Il metodo dei minimi quadrati consente di determinare l’equazione di questa retta, detta retta di regressione o dei minimi quadrati. Lo studio del fenomeno suggerirà quale dei caratteri può essere interpretato come variabile indipendente (indicata con ) e quale come variabile dipendente (indicata con ).
Definizione
Siano e i dati sperimentali osservati in una popolazione e si rappresentino nel piano le coppie .
Si definisce retta di regressione o dei minimi quadrati la retta di equazione
per la quale è minima la quantità
che rappresenta la somma dei quadrati delle distanze di ciascuna coppia dal corrispondente punto sulla retta .
In particolare accade che:
-
se allora risulterà che i punti sono allineati sulla retta con
-
se allora risulterà che i punti sono allineati sulla retta con .
Si dimostra che i coefficienti e della retta di regressione possono calcolarsi mediante le seguenti formule
Esempio
Nella tabella che segue sono riportate le misure del volume di un gas a differenti temperature e nella figura è riportato il relativo grafico di dispersione
Si determini il coefficiente di correlazione e la retta di regressione lineare.
Per calcolare il coefficiente di correlazione campionario è necessario determinare la covarianza campionaria dei valori della temperatura e del volume e le relative deviazioni standard. Si indichi con la serie di dati relativi alle rilevazioni delle temperature e con la serie di dati relative alle rilevazioni dei volumi.
Dalla definizioni della covarianza ricaviamo
mentre per lo scarto quadratico medio abbiamo
Pertanto, il coefficiente di correlazione cercato vale
Un valore del coefficiente di correlazione campionario così prossimo ad 1 ed il diagramma di dispersione riportato in figura 1, suggeriscono l’esistenza di una relazione lineare tra i caratteri osservati. Ha senso, pertanto, determinare la retta di regressione lineare.
Calcolando i valori delle medie e ed utilizzando le (3) e (4), è possibile individuare i coefficienti della retta di regressione lineare
Pertanto la retta di regressione lineare ha equazione: