Segui il canale Telegram
Max 3 mess. al giorno (cos'è?)
Ultimi post del blog
Video e tutorial
Pagine aggiornate
Formazione
Ricerca sociale con R (il libro)
Studio della distribuzione semplice, o monovariata, o univariata, di una variabile.
Per descrivere l'andamento delle variabili categoriali, o fattori si utilizzano le distribuzioni di frequenza.
Una distribuzione di frequenze presenta in forma di tabella il numero di casi corrispondente a ciascuna modalità di una variabile categoriale (fattore). Per le variabili cardinali di solito le distribuzioni di frequenza non vengono utilizzate, anche se tecnicamente è possibile produrle.
In R il comando principale che ci consente di ottenere tali tabelle è Table (vedi l'esempio).
Con i pacchetti del Tidyverse, possiamo creare tabelle riassuntive con la funzione count()
.
Per ottenere delle distribuzioni percentuali, si può utilizzare il comando prop.table
, ma con il comando ctab
del pacchetto catspec — dedicato alle variabili categoriali — si possono ottenere delle tabelle gradevoli con una procedura relativamente semplice (ved l'esempio).
Esistono inoltre diversi pacchetti pensati per creare reports e tabelle di frequenze più complete.
RCommander facilita molto la costruzione delle distribuzioni di frequenza assolute e percentuali, utilizzando da una parte Table e xtabs e dall'altra alcune funzioni sue proprie.
Per le variabili numeriche o cardinali è possibile utilizzare il comando summary.
Per le variabili categoriali questo comando produce la distribuzione di frequenza.
Il comando summary contiene le principali misure descrittive: Misure di tendenza centrale (media, mediana), di variabilità e di asimmetria.
Il comando describe
del pacchetto psych
può essere applicato ad un intero dataframe, e produce le statistiche descrittive di quelle cardinali (Vedi alla voce statistiche descrittive (ACP)).
Con i pacchetti del Tidyverse, possiamo creare tabelle con statistiche descrittive con la funzione summarise()
.
In questa prima fase dell'analisi descrittiva dei dati, la procedura più comoda e veloce per ottenere i grafici è usare il comando plot.
Le procedure con RCommander sono semplici, ma hanno un numero di opzioni limitato:
- Misure di tendenza centrale - Mediana - Media aritmetica
Una funzione per la media geometrica è disponibile qui.
La media armonica e la media geometrica sono disponibili nel pacchetto Psych.
- Misure di dispersione o di variabilità: Range, Differenza interquartile, devianza, varianza, deviazione standard