Indicare e scegliere le variabili
Uno dei vantaggi dei pacchetti del tidyverse per la gestione e la trasformazione dei dati è la semplicità con la quale è possibile indicare le variabili, per nome, anziché con gli indici (ad. es. data[,i]) o la forma data$var.
Vedi anche:
La grammatica del tidyverse
All'interno delle funzioni dei pacchetti del tidyverse, le variabili possono infatti essere indicate con gli indici (vedi Indicizzazione) o anche semplicemente con il loro nome.
Tutte le funzioni prevedono che il dataset (esclusivamente dataframe e tibble) venga indicato come primo argomento. Ad esempio:
select(ChickWeight, Chick, weight)
Il nome delle variabili può essere indicato senza virgolette, se non contiene spazi:
select(dataset, variabile1, "variabile 2")
Per usare gli indici:
ChickWeight %>% select(c(3,1))
o anche
ChickWeight %>% select(3,1)
Helpers
Esistono delle funzioni, nel pacchetto tidyselect, che aiutano nel selezionare più variabili, in base a criteri o pattern.
everything()
: tutte le variabililast_col()
: l’ultima variabile
In base ad un pattern:
starts_with()
: le variabili il cui nome inizia con una stringa (es: “var”)ends_with()
: le variabili il cui nome finisce con una stringa.contains()
: le variabili che contengono nel nome una stringamatches()
: le variabili il cui nome corrisponde ad una espressione regolarenum_range()
: le variabili il cui nome corrisponde a un range di numeri (es. x01, x02, x03).
Con un vettore carattere:
all_of()
: tutte le variabili del vettore carattereany_of()
: comeall_of()
, ma non restituisce un messaggio di errore se una delle variabili indicate non esiste.
Con una funzione
where()
: applica una funzione a tutte le variabili e seleziona quelle per le quali la funzione restituisceTRUE
.