Si parla di statistiche bivariate quando su ogni unità statistica, appartenente ad una determinata popolazione, si vogliono studiare contemporanenamente due caratteri e .
Può trattarsi di due caratteri qualitativi o di due caratteri quantitativi, oppure di un carattere qualitativo e di un carattere quantitativo.
Si considerino i due caratteri e . La distribuzione delle frequenze dei loro valori e può essere rappresentata attraverso una tabella a doppia entrata in cui ad ogni coppia si associa la sua frequenza assoluta detta frequenza congiunta di e , come in tabella
Dalla tabella a doppia entrata si possono ricavare le distribuzioni marginali dei due caratteri, ossia le distribuzioni che si sarebbero osservate qualora si fosse rivelato ciascun carattere singolarmente. In particolare, la distribuzione marginale di si ottiene considerando la prima e l’ultima colonna della tabella 1.
La distribuzione marginale di si ottiene, invece, considerando la prima e l’ultima riga della tabella 1
Le somme degli elementi di ciascuna riga della matrice in tabella 1 si chiamano frequenze marginali di
con .
Le somme degli elementi di ciascuna colonna della matrice in tabella 1 si chiamano frequenze marginali di
con .
Esempio 1
Su 20 studenti si sono rilevati i voti riportati nello scrutinio finale in storia e matematica. Assegnata la tabella 2 a doppia entrata, si determini la distribuzione marginale dei voti in storia e la distribuzione marginale dei voti in matematica.
La distribuzione marginale dei voti in storia si ottiene considerando la prima e l’ultima colonna della tabella 2
La distribuzione marginale dei voti in matematica si ottiene considerando la prima e l’ultima riga della tabella 2
Esempio 2
In una popolazione di 20 individui si rilevano i due caratteri “statura” e “peso”, ottenendo la seguente tabella
Determinare le frequenze marginali , , del carattere “statura” e , , , del carattere “peso”.
Utilizzando la (1) è possibile calcolare le frequenze marginali del carattere “statura”
Utilizzando la (2) è possibile calcolare le frequenze marginali del carattere “peso”
Poichè ogni coppia di punti rappresenta un punto in un piano cartesiano, il “grafico” della distribuzione è costituito da un insieme di punti detto diagramma a punti. Tale rappresentazione non è adeguata nel caso in cui vi siano più coppie uguali, perché nel piano corrisponderebbero tutte allo stesso punto.
L’inconveniente viene superato passando da due a tre dimensioni con l’introduzione di una terza coordinata, la frequenza, e considerando i punti dello spazio
Ad esempio, si consideri la tabella a doppia entrata relativa al gradimento (Sì/No) di un prodotto a seconda del sesso del consumatore (M/F).
Il grafico è presentato in figura. Ciascun parallelepipedo ha altezza pari alla frequnza corrispondente.
A volte si preferisce dare una rappresentazione piana indicando in corrispondenza del punto rappresentativo un’area proporzionale alla frequenza corrispondente, come in figura