Indice
Variabili e vettori in R
In R, la Matrice dei dati corrisponde al Dataframe, mentre le Variabili della matrice si chiamano (in quanto sono) Vettori.
Tipi di variabili e vettori
I vettori carattere che corrispondono alle variabili categoriali (nominali e ordinali si chiamamo fattori, mentre alle Variabili cardinali (o quantitative) corrispondono i vettori numerici.
| Tipo di variabile | Vettore |
|---|---|
| Cardinali | Vettori numerici |
| Nominali | Fattori |
| Ordinali | Fattori ordinati |
| Variabili di testo | Vettori carattere |
Attenzione: Quando si costruiscono o si importano variabili le cui modalità sono costituite da testo (caratteri), queste, dalla versione 4, non vengono più automaticamente riconosciute da R come fattori.
Le variabili le cui modalità sono costituite da numeri vengono invece automaticamente riconosciute come vettori numerici, e trattate dunque come variabili cardinali. Per utilizzarle come variabili categoriali, esse dovranno essere trasformate in fattori (vedi Fattori).
Etichette di variabili e modalità
vedi anche:
Etichette delle variabili
Le colonne di un dataframe hanno un nome, che può essere richiamato con il comando colnames (o anche con names):
colnames(ChickWeight) [1] "weight" "Time" "Chick" "Diet"
Possiamo rinominare le colonne di un dataset in questo modo:
# lavoriamo su un copia di ChickWeight mydata<-ChickWeight # traduciamo le etichette del dataframe colnames(mydata)<- c("Peso", "Eta", "Pollo", "Dieta")
Vedi: Rinominare le variabili
Etichette delle modalità
Le variabili categoriali devono avere etichette anche di modalità. In R, le etichette corrispondono ai livelli dei fattori.
Attribuire e modificare le etichette
Vedi: Fattori: i livelli
Cambiare l'ordine delle etichette
A volte può essere necessario modificare l'ordine delle modalità, senza trasformare le variabili nominali in ordinali. Esempio
require(MASS)
table(survey$Clap)
Left Neither Right
39 50 147
Riordiniamo i livelli in: Left, Right, Neither:
survey$Clap <- factor(mysurvey$Clap,levels(mysurvey$Clap) [c(1,3,2)])
I nomi delle variabili
I nomi delle variabili possono contenere una qualsiasi sequenza di lettere e numeri ma:
- non possono cominciare con un numero.
- non devono contenere spazi: in fase di conversione da altri formati di files, gli spazi verranno convertiti in punti (
.). Ad esempio:Anno di nascitadiventeràAnno.di.nascita. - non devono contenere i trattini, come in
Anno-di-nascita.
Di solito, si evitano anche gli underscore, come in Anno_di_nascita, anche se non sono vietati.
In sintesi: per le espressioni lunghe, adottare il sistema detto CamelCase (AnnoDiNascita) o i punti (Anno.di.nascita).
Alcune parole, poi, sono riservate, ovvero non possono essere usate. Si tratta delle seguenti: FALSE, TRUE, Inf, NA, NaN, NULL, F, T, D, break, else, for, function, if, in, next, repeat, while.
Per approfondire
- S. M. Iacus e G. Massarotto, Laboratorio di statistica con R, MacGraw–Hill
- "R Vectors", slides di Davide Rambaldi
