Riportiamo alcune definizioni prima di riepilogare le principali formule della stastistica descrittiva.
Popolazione statistica: l’insieme degli elementi che sono oggetto di una indagine statistica, ovvero l’insieme delle unità, dette unità statistiche o individui di una popolazione, sulle quali viene effettuata la rilevazione di una certa caratteristica.
Carattere o variabile: una proprietà che si possa osservare o studiare in ogni individuo. Se i caratteri misurati si possono esprimere in termini numerici vengono detti quantitativi, altrimenti qualitativi. Se il carattere è quantitativo la caratteristica si chiama variabile statistica o aleatoria, se il carattere è qualitativo la caratteristica si chiama mutabile statistica.
Campione statistico: definita una popolazione statistica, per campione di grandezza n si intende un insieme finito di n individui della popolazione. Affinchè un campione possa ritenersi rappresentativo per l'intera popolazione, è necessario supporre che il campione sia casuale (random), ossia che ogni individuo della popolazione abbia la stessa probabilità di essere scelto per far parte del campione.
Rilevazione campionaria: una rilevazione fatta su un campione statistico che sia utile per desumere informazioni relative all'intera popolazione.
Riportiamo ora una serie di formule e definizioni riferite ad operazioni che si possono effettuare su una serie di dati, ossia un campione, del tipo .
Frequenza assoluta: il numero di osservazioni registrate per ogni elemento del campione.
Frequenza relativa:

La frequenza relativa è compresa nell’intervallo [0, 1].
Frequenza percentuale:

Media campionaria o aritmetica:

Scarti dalla media: le differenze tra i valori
e la loro media campionaria
.
Alcune proprietà della media
La somma degli scarti è nulla

La media minimizza la somma dei quadrati degli scarti infatti qualunque sia il numero si ha:

Siano ed
rispettivamente il minimo ed il massimo dei valori della serie
, si ha

Moda: l’elemento (o gli elementi) a cui corrisponde la massima frequenza assoluta.
Mediana: il valore centrale della serie, cioè il valore che occupa il posto nella serie se
è dispari o la media dei valori che occupano i posti
ed
se
è pari.
Media geometrica: il numero positivo

Media armonica: il numero positivo

Media quadratica: il numero

Range o campo di variazione: la differenza tra il massimo e il minimo dei valori della serie:

Scarto semplice medio: il numero non negativo

dove è la media degli elementi del campione e le quantità
rappresenta gli scarti.
Scarto quadratico medio (o deviazione standard campionaria): il numero non negativo

Varianza campionaria: il quadrato dello scarto quadratico medio

in letteratura si trovano definizioni alternative, ad esempio le seguenti due


Quartili: quei valori che ripartiscono la popolazione in quattro parti di uguale numerosità. Nota: il secondo quartile coincide con la mediana, e divide la popolazione in due parti di uguale numerosità, delle quali il primo ed il terzo quartile sono le mediane.
Scarto interquartile (): la differenza tra il terzo e il primo quartile, ovvero l'ampiezza della fascia di valori che contiene la metà “centrale” dei valori osservati:

Statistica bivariata.
Quando si osservano due caratteri diversi, e
, riferiti ad una medesima popolazione, dei quali conosciamo i valori numerici
e
, si può fare riferimento ad indici statistici che possono descrivere come i due insiemi di dati variano tra loro.
Covarianza campionaria:

dove e
sono le medie campionarie delle due serie di dati.
Coefficiente di correlazione (o indice di correlazione di Pearson): il valore numerico

dove indica la covarianza di
e
e
e
indicano, rispettivamente, la deviazione standard campionaria di
e
.
Il coefficiente di correlazione è un indice sempre compreso tra -1 ed 1. Inoltre valgono le seguenti proprietà
-
se
, le serie di dati
e
si dicono direttamente correlate
-
se
, le serie di dati
e
si dicono non correlate
-
se
, le serie di dati
e
si dicono inversamente correlate
-
se e solo se i punti sono tutti perfettamente allineati sulla stessa retta
Funzione di densità: una distribuzione statistica in cui
rappresenta la variabile statistica e
la frequenza relativa, passando dal discreto al continuo, si può scrivere come
; l’area
racchiusa tra la curva cartesiana
, l’asse delle ascisse
, le ordinate innalzate dai punti di ascissa
e
rappresenta la frazione di unità statistiche nella quale il carattere assume valori compresi tra
e
; facendo tendere l’intervallo finito
all’infinitesimo
(differenziale), la
definisce la “densità di frequenza” in
della variabile aleatoria
viene perciò detta funzione di densità. La frequenza relativa dei valori della variabile statistica o aleatoria entro l’intervallo finito
misura la probabilità che la
assuma un valore interno all’intervallo e si calcola con l’integrale definito
