Per popolazione si intende l’insieme degli elementi che sono oggetto di una indagine statistica, ovvero l’insieme delle unità, dette unità statistiche o individui di una popolazione, sulle quali viene effettuata la rilevazione di una certa caratteristica. Esempi di indagine statistica sono: il censimento della popolazione italiana, lo studio dei macchinari prodotti da un’azienda per i controlli di qualità, le misurazioni di altezza e peso in una popolazione di individui, etc.
Una proprietà che si possa osservare o studiare in ogni individuo è detta carattere o attributo oppure variabile. Se i caratteri misurati si possono esprimere in termini numerici (come l'altezza e il peso), vengono detti quantitativi, altrimenti qualitativi (come il colore degli occhi o dei capelli).
Definita una popolazione statistica, per campione di grandezza n si intende un insieme finito di individui della popolazione. Affinchè un campione possa ritenersi rappresentativo per l'intera popolazione, è necessario supporre che il campione sia casuale (o random), ossia che ogni individuo della popolazione abbia la stessa probabilità di essere scelto per far parte del campione.
Una rilevazione si dice campionaria quando è utile per desumere dal campione informazioni relative all'intera popolazione. In generale quando si parla di grandezze in indagini statistiche si sottintende riferirsi a grandezze campionarie. Per semplicità di esposizione alle volte si omette tale attributo.
I risultati di una ricerca sperimentale (o di una indagine statistica) devono essere presentati in maniera chiara e concisa e in modo da dare rapidamente un'idea delle loro caratteristiche globali. In effetti, quando si raccolgono dati su di una popolazione o su di un campione, i risultati ottenuti si presentano come un insieme di dati grezzi, cioè dati che non sono stati organizzati, sintetizzati o elaborati opportunamente. A meno che il numero delle osservazioni non sia piccolo, è improbabile che i dati grezzi forniscano qualche informazione finché non siano stati elaborati in qualche modo.
Di seguito verranno descritte alcune tecniche per organizzare e sintetizzare i dati in modo da poter evidenziare le loro caratteristiche principali e individuare le informazioni da essi forniti.
Partiamo da un esempio tramite il quale introdurremo una serie di strumenti teorici. Consideriamo i risultati di un’indagine a campione che registra il numero di figli di coppie che abitano un quartiere di una città. Tali risultati sono inizialmente riportati nella seguente tabella
Per analizzare i dati quantitativi così raccolti è necessario suddividerli in classi e determinare per ciascuno di essa la frequenza assoluta, cioè il numero di osservazioni appartenenti ad ogni classe.
È facile osservare che le frequenze assolute sono numeri interi compresi tra zero e il numero totale di individui della popolazione e che la somma delle frequenze assolute dei valori di uno stesso carattere equivale al numero totale di individui del campione.
Definzione
Si definisce frequenza relativa il rapporto tra la frequenza assoluta e il numero totale delle osservazioni effettuate
È facile osservare che le frequenze relative sono sempre numeri compresi tra 0 e 1 e che la somma delle frequenze relative è uguale a 1.
Definzione
Si definisce frequenza percentuale la frequenza relativa moltiplicata per cento.
I dati in tabella 1 organizzati in classi possono essere posizionati in una tabella che evidenzi il valore delle frequenze assolute, relative e percentuali: tabella di distribuzione delle frequenze.
Esempio 1
In una scuola vengono raccolti i dati qualitativi relativi al colore degli occhi di bambini.
I dati organizzati in classi possonno essere organizzati nella seguente tabella di distribuzione delle frequenze.
Come ulteriore nota, osserviamo che i dati oggetto della prima indagine sono numerici, mentre quelli dell’Esempio 1 sono non numerici. In generale, le variabili che sono oggetto di rilevazioni statistiche si classificano come nel seguente schema: