Indice
Variabili e vettori in R
In R, la Matrice dei dati corrisponde al Dataframe, mentre le Variabili della matrice si chiamano (in quanto sono) Vettori.
Tipi di variabili e vettori
I vettori carattere che corrispondono alle variabili categoriali (nominali e ordinali si chiamamo fattori, mentre alle Variabili cardinali (o quantitative) corrispondono i vettori numerici.
Tipo di variabile | Vettore |
---|---|
Cardinali | Vettori numerici |
Nominali | Fattori |
Ordinali | Fattori ordinati |
Variabili di testo | Vettori carattere |
Attenzione: Quando si costruiscono o si importano variabili le cui modalità sono costituite da testo (caratteri), queste, dalla versione 4, non vengono più automaticamente riconosciute da R come fattori.
Le variabili le cui modalità sono costituite da numeri vengono invece automaticamente riconosciute come vettori numerici, e trattate dunque come variabili cardinali. Per utilizzarle come variabili categoriali, esse dovranno essere trasformate in fattori (vedi Fattori).
Etichette di variabili e modalità
vedi anche:
Etichette delle variabili
Le colonne di un dataframe hanno un nome, che può essere richiamato con il comando colnames
(o anche con names
):
colnames(ChickWeight) [1] "weight" "Time" "Chick" "Diet"
Possiamo rinominare le colonne di un dataset in questo modo:
# lavoriamo su un copia di ChickWeight mydata<-ChickWeight # traduciamo le etichette del dataframe colnames(mydata)<- c("Peso", "Eta", "Pollo", "Dieta")
Vedi: Rinominare le variabili
Etichette delle modalità
Le variabili categoriali devono avere etichette anche di modalità. In R, le etichette corrispondono ai livelli dei fattori.
Attribuire e modificare le etichette
Vedi: Fattori: i livelli
Cambiare l'ordine delle etichette
A volte può essere necessario modificare l'ordine delle modalità, senza trasformare le variabili nominali in ordinali. Esempio
require(MASS) table(survey$Clap) Left Neither Right 39 50 147
Riordiniamo i livelli in: Left, Right, Neither:
survey$Clap <- factor(mysurvey$Clap,levels(mysurvey$Clap) [c(1,3,2)])
I nomi delle variabili
I nomi delle variabili possono contenere una qualsiasi sequenza di lettere e numeri ma:
- non possono cominciare con un numero.
- non devono contenere spazi: in fase di conversione da altri formati di files, gli spazi verranno convertiti in punti (
.
). Ad esempio:Anno di nascita
diventeràAnno.di.nascita
. - non devono contenere i trattini, come in
Anno-di-nascita
.
Di solito, si evitano anche gli underscore, come in Anno_di_nascita
, anche se non sono vietati.
In sintesi: per le espressioni lunghe, adottare il sistema detto CamelCase (AnnoDiNascita
) o i punti (Anno.di.nascita
).
Alcune parole, poi, sono riservate, ovvero non possono essere usate. Si tratta delle seguenti: FALSE
, TRUE
, Inf
, NA
, NaN
, NULL
, F
, T
, D
, break
, else
, for
, function
, if
, in
, next
, repeat
, while
.
Per approfondire
- S. M. Iacus e G. Massarotto, Laboratorio di statistica con R, MacGraw–Hill
- "R Vectors", slides di Davide Rambaldi