Introduciamo subito la definizione di coefficiente (o indice) di correazione.
Definizione
Assegnate le serie di dati e , si definisce coefficiente di correlazione campionario, o indice di correlazione di Pearson, il seguente valore numerico
dove indica la covarianza di e e e indicano, rispettivamente, la deviazione standard campionaria di e .
Il coefficiente di correlazione è un indice sempre compreso tra -1 ed 1 ed in particolare:
-
se , le serie di dati e si dicono direttamente correlate, oppure correlate positivamente e quanto più il valore si avvicina ad 1 tanto più forte è la correlazione positiva;
-
se , le serie di dati e si dicono non correlate;
-
se , le serie di dati e si dicono inversamente correlate, oppure correlate negativamente e quanto più il valore si avvicina ad -1 tanto più forte è la correlazione negativa.
Si può dimostrare che il coefficiente di correlazione è uguale a 1 o a -1 se e solo se i punti sono tutti perfettamente allineati sulla stessa retta.
Il coefficiente di correlazione campionario è un indice statistico adimensionale, pertanto è da privilegiarsi rispetto alla covarianza campionaria quando si vuole capire se esiste un legame lineare tra due serie di dati, indipenedentemente dalle unità di misura scelte.
Esempio
Si sono studiati lo sviluppo del femore e dell’omero di un feto tramite immagini ecografiche. Sono stati trascritti i dati relativi alla lunghezza delle due ossa, rilevati ogni quattro settimane, a partire dalla dodicesima settimana di gestazione sino alla quarantesima. I dati sono riportati in tabella
Calcolare l’indice di correlazione campionaria del carattere , “lunghezza dell'omero”, e , “lunghezza del femore”, di un feto.
Per calolare il coefficientre di correlazione tra e è necessario calcolare la covarianza di e e le deviazioni standard e .
La covarianza risulta essere:
mentre le medie sono
per cui utilizzando la definizione di scarto quadratico medio
e facendo i semplici calcoli si ottiene
Pertanto, utilizzando la (1), è possibile calcolare il coefficiente di correlazione campionario tra e
Il valore determinato evidenzia immediatamente che le grandezze, come c’era da aspettarsi, sono fortemente correlate tra loro in senso positivo.