Un passo significativo per la verifica dell’esistenza di una correlazione tra i caratteri osservati, consiste nel disegnare un diagramma di dispersione, cioè rappresentare nel piano cartesiano le osservazioni con punti o cerchietti.
Se il diagramma di dispersione suggerisce una relazione lineare tra i dati ed inoltre, il valore del coefficiente di correlazione in modulo è prossimo ad uno, anche se tra i dati non esiste una relazione perfettamente lineare, ha senso determinare l’equazione di una retta che approssimi i dati nel “miglior modo possibile”.
Il metodo dei minimi quadrati consente di determinare l’equazione di questa retta, detta retta di regressione o dei minimi quadrati. Lo studio del fenomeno suggerirà quale dei caratteri può essere interpretato come variabile indipendente (indicata con ) e quale come variabile dipendente (indicata con
).
Definizione
Siano e
i dati sperimentali osservati in una popolazione e si rappresentino nel piano le coppie
.
Si definisce retta di regressione o dei minimi quadrati la retta di equazione

per la quale è minima la quantità

che rappresenta la somma dei quadrati delle distanze di ciascuna coppia dal corrispondente punto sulla retta
.

In particolare accade che:
-
se
allora risulterà che i punti
sono allineati sulla retta
con
-
se
allora risulterà che i punti
sono allineati sulla retta
con
.
Si dimostra che i coefficienti e
della retta di regressione possono calcolarsi mediante le seguenti formule


Esempio
Nella tabella che segue sono riportate le misure del volume di un gas a differenti temperature e nella figura è riportato il relativo grafico di dispersione


Si determini il coefficiente di correlazione e la retta di regressione lineare.
Per calcolare il coefficiente di correlazione campionario è necessario determinare la covarianza campionaria dei valori della temperatura e del volume e le relative deviazioni standard. Si indichi con la serie di dati relativi alle rilevazioni delle temperature e con
la serie di dati relative alle rilevazioni dei volumi.
Dalla definizioni della covarianza ricaviamo

mentre per lo scarto quadratico medio abbiamo


Pertanto, il coefficiente di correlazione cercato vale

Un valore del coefficiente di correlazione campionario così prossimo ad 1 ed il diagramma di dispersione riportato in figura 1, suggeriscono l’esistenza di una relazione lineare tra i caratteri osservati. Ha senso, pertanto, determinare la retta di regressione lineare.
Calcolando i valori delle medie e
ed utilizzando le (3) e (4), è possibile individuare i coefficienti della retta di regressione lineare




Pertanto la retta di regressione lineare ha equazione:
