Matrice dei dati

Lo strumento fondamentale di organizzazione delle informazioni per l’analisi statistica è rappresentato dalla matrice dei dati o casi per variabili (C x V), ovvero il quadro degli cv elementi disposti su C righe (C = numero dei casi) e V colonne (V = numero delle Variabili).

Tali elementi sono i dati (che indichiamo qui con “x”), unità informative codificate relative a ciascuna variabile, per ciascun caso. In pratica, la matrice è una tabella in cui vengono riportate tutte le informazioni raccolte per tutti i casi studiati. Tali informazioni sono organizzate disponendo i casi in riga e le variabili in colonna.

ID V1 V2 VV
C1 x1,1 x1,2 x1,v
C2 x2,1 x2,2 x2,v
C xc,1 xc,2 xc,v

Per poter effettuare sulla matrice le necessarie operazioni algebriche richieste dall’analisi statistica, la matrice non deve presentare celle vuote. Di conseguenza:

Se in una indagine è necessario lavorare con tipi diversi di unità di analisi, si dovrà costruire (almeno) una matrice per ciascun tipo di unità di analisi.

Mentre un tempo l'inserimento dei dati nella matrice avveniva a mano, utilizzando grandi fogli quadrettati, oggi si utilizza un qualunque foglio di calcolo (come Excel o Access), o anche il foglio di lavoro incluso nei più comuni packages per l’analisi statistica dei dati.