Uno dei vantaggi dei pacchetti del tidyverse per la gestione e la trasformazione dei dati è la semplicità con la quale è possibile indicare le variabili, per nome, anziché con gli indici (ad. es. data[,i]) o la forma data$var.
Vedi anche:
All'interno delle funzioni dei pacchetti del tidyverse, le variabili possono infatti essere indicate con gli indici (vedi Indicizzazione) o anche semplicemente con il loro nome.
Tutte le funzioni prevedono che il dataset (esclusivamente dataframe e tibble) venga indicato come primo argomento. Ad esempio:
select(ChickWeight, Chick, weight)
Il nome delle variabili può essere indicato senza virgolette, se non contiene spazi:
select(dataset, variabile1, "variabile 2")
Per usare gli indici:
ChickWeight %>% select(c(3,1))
o anche
ChickWeight %>% select(3,1)
Esistono delle funzioni, nel pacchetto tidyselect, che aiutano nel selezionare più variabili, in base a criteri o pattern.
everything(): tutte le variabililast_col(): l’ultima variabileIn base ad un pattern:
starts_with(): le variabili il cui nome inizia con una stringa (es: “var”)ends_with(): le variabili il cui nome finisce con una stringa.contains(): le variabili che contengono nel nome una stringamatches(): le variabili il cui nome corrisponde ad una espressione regolarenum_range(): le variabili il cui nome corrisponde a un range di numeri (es. x01, x02, x03).Con un vettore carattere:
all_of(): tutte le variabili del vettore carattereany_of(): come all_of(), ma non restituisce un messaggio di errore se una delle variabili indicate non esiste.Con una funzione
where(): applica una funzione a tutte le variabili e seleziona quelle per le quali la funzione restituisce TRUE.