Riportiamo alcune definizioni prima di riepilogare le principali formule della stastistica descrittiva.
Popolazione statistica: l’insieme degli elementi che sono oggetto di una indagine statistica, ovvero l’insieme delle unità, dette unità statistiche o individui di una popolazione, sulle quali viene effettuata la rilevazione di una certa caratteristica.
Carattere o variabile: una proprietà che si possa osservare o studiare in ogni individuo. Se i caratteri misurati si possono esprimere in termini numerici vengono detti quantitativi, altrimenti qualitativi. Se il carattere è quantitativo la caratteristica si chiama variabile statistica o aleatoria, se il carattere è qualitativo la caratteristica si chiama mutabile statistica.
Campione statistico: definita una popolazione statistica, per campione di grandezza n si intende un insieme finito di n individui della popolazione. Affinchè un campione possa ritenersi rappresentativo per l'intera popolazione, è necessario supporre che il campione sia casuale (random), ossia che ogni individuo della popolazione abbia la stessa probabilità di essere scelto per far parte del campione.
Rilevazione campionaria: una rilevazione fatta su un campione statistico che sia utile per desumere informazioni relative all'intera popolazione.
Riportiamo ora una serie di formule e definizioni riferite ad operazioni che si possono effettuare su una serie di dati, ossia un campione, del tipo .
Frequenza assoluta: il numero di osservazioni registrate per ogni elemento del campione.
Frequenza relativa:
La frequenza relativa è compresa nell’intervallo [0, 1].
Frequenza percentuale:
Media campionaria o aritmetica:
Scarti dalla media: le differenze tra i valori e la loro media campionaria .
Alcune proprietà della media
La somma degli scarti è nulla
La media minimizza la somma dei quadrati degli scarti infatti qualunque sia il numero si ha:
Siano ed rispettivamente il minimo ed il massimo dei valori della serie , si ha
Moda: l’elemento (o gli elementi) a cui corrisponde la massima frequenza assoluta.
Mediana: il valore centrale della serie, cioè il valore che occupa il posto nella serie se è dispari o la media dei valori che occupano i posti ed se è pari.
Media geometrica: il numero positivo
Media armonica: il numero positivo
Media quadratica: il numero
Range o campo di variazione: la differenza tra il massimo e il minimo dei valori della serie:
Scarto semplice medio: il numero non negativo
dove è la media degli elementi del campione e le quantità rappresenta gli scarti.
Scarto quadratico medio (o deviazione standard campionaria): il numero non negativo
Varianza campionaria: il quadrato dello scarto quadratico medio
in letteratura si trovano definizioni alternative, ad esempio le seguenti due
Quartili: quei valori che ripartiscono la popolazione in quattro parti di uguale numerosità. Nota: il secondo quartile coincide con la mediana, e divide la popolazione in due parti di uguale numerosità, delle quali il primo ed il terzo quartile sono le mediane.
Scarto interquartile (): la differenza tra il terzo e il primo quartile, ovvero l'ampiezza della fascia di valori che contiene la metà “centrale” dei valori osservati:
Statistica bivariata.
Quando si osservano due caratteri diversi, e , riferiti ad una medesima popolazione, dei quali conosciamo i valori numerici e , si può fare riferimento ad indici statistici che possono descrivere come i due insiemi di dati variano tra loro.
Covarianza campionaria:
dove e sono le medie campionarie delle due serie di dati.
Coefficiente di correlazione (o indice di correlazione di Pearson): il valore numerico
dove indica la covarianza di e e e indicano, rispettivamente, la deviazione standard campionaria di e .
Il coefficiente di correlazione è un indice sempre compreso tra -1 ed 1. Inoltre valgono le seguenti proprietà
-
se , le serie di dati e si dicono direttamente correlate
-
se , le serie di dati e si dicono non correlate
-
se , le serie di dati e si dicono inversamente correlate
-
se e solo se i punti sono tutti perfettamente allineati sulla stessa retta
Funzione di densità: una distribuzione statistica in cui rappresenta la variabile statistica e la frequenza relativa, passando dal discreto al continuo, si può scrivere come ; l’area racchiusa tra la curva cartesiana , l’asse delle ascisse , le ordinate innalzate dai punti di ascissa e rappresenta la frazione di unità statistiche nella quale il carattere assume valori compresi tra e ; facendo tendere l’intervallo finito all’infinitesimo (differenziale), la definisce la “densità di frequenza” in della variabile aleatoria viene perciò detta funzione di densità. La frequenza relativa dei valori della variabile statistica o aleatoria entro l’intervallo finito misura la probabilità che la assuma un valore interno all’intervallo e si calcola con l’integrale definito