Imparare R con RCommander

Nel 2018 R ha compiuto 25 anni, ed è diventato uno dei linguaggi più utilizzati per l’analisi dei dati, probabilmente il più richiesto sul mercato del lavoro della data science, insieme a SAS e Python. Si tratta di una competenza importante per collocarsi su un mercato del lavoro dinamico ed in evoluzione, in un linguaggio che ha sempre maggiore diffusione in ambito accademico.
Non stupisce quindi che siano sempre di più coloro che vogliono avvicinarsi a questo linguaggio open source, la cui difficoltà è in ampia parte leggendaria.
Imparare l’analisi dei dati con R
Nell’apprendimento di R, le difficoltà maggiori si incontrano all’inizio; una volta superate queste, è un linguaggio semplice e allo stesso tempo flessibile, anche per le tecniche di analisi più avanzate.
Fai le cose difficili quando sono facili (Lao Tzu)
Questa sua caratteristica è già di per sé una buona ragione per usare R sin dai primi approcci con l’analisi dei dati: essendo un linguaggio pensato per la statistica, semplice avvicinarsi alle basi di entrambi, in parallelo e con la necessaria gradualità.
# vettore come insieme, oggetto
V1 <- c(1, 0, 9, 2, 5, 3, 10)
# classi degli oggetti class(V1) # calcolo della media
# funzioni di base; lunghezza del vettore; sum(V1) / length(V1)
# funzione della media aritmetica mean(V1) # prossima puntata: i dati mancanti ...
Questo metodo, pure adottato nel testo, può però essere alquanto scoraggiante, specialmente se non si ha intenzione di diventare un programmatore o un utente esperto, o si ha fretta di ottenere un risultato.
Learning by doing con RCommander
Nel 2012, ho deciso di adottare, per i laboratori didattici di R, l’interfaccia grafica di RCommander, memore di quando avevo dovuto svolgere un’analisi delle corrispondenze multiple … senza aver mai usato R prima.
Se ascolto dimentico, se vedo ricordo, se faccio capisco (attribuita a Confucio)
When it comes to teaching computing, stats prof @minebocek @DukeU says let students eat cake first -- you can tell them about all the ingredients later https://t.co/yyRHEqf4GY pic.twitter.com/q6Pz4Cu3fj
— dukeresearch (@dukeresearch) October 19, 2018
RCommander offre in realtà una interfaccia “mista”: da una parte i familiari menu a discesa, e dall’altra una finestra per il file di script (il codice), in cui vengono registrate tutte le attività svolte da menu. In questo modo, è possibile approcciare le procedure e le funzioni di R senza dover prima imparare a scrivere il codice, ma familiarizzando progressivamente con il linguaggio. Il lettore è infatti accompagnato nell’osservare e studiare le funzioni utilizzate per svolgere l’analisi dei dati, secondo la logica del learning by doing: l’obiettivo è l’analisi, ma, riflettendo sulle procedure e sui risultati, si inizia a conoscere la struttura del linguaggio.
Si tratta di un approccio didattico che funziona per la semplice ragione che quasi tutti si avvicinano ad un software per usarlo, e non per studiarlo. Del resto, R viene utilizzato da ricercatori e professionisti in settori altri rispetto alla programmazione e allo sviluppo: economisti, sociologi, psicologi, e scienziati in tutti i campi delle scienze naturali. Nessuno, insomma, che sia o voglia diventare programmatore.
Il rischio principale nell’uso di una interfaccia a menu è quello di restare “dipendenti” dall’interfaccia stessa, e dunque limitarsi nelle possibilità di un uso avanzato di R. La necessità di imparare a leggere e modificare il codice subentra però abbastanza presto. È vero infatti che RCommander offre svariati componenti aggiuntivi per molte procedure di analisi, ma alcuni hanno funzionalità limitate. Sin da subito, ad esempio, saranno evidenti al lettore i limiti dei grafici prodotti, rispetto alle possibilità che offre l’ambiente grafico di R.
Per utilizzare R ad un livello più avanzato, bisogna conoscere le caratteristiche degli oggetti (le strutture di dati, quantomeno) e imparare a leggere e scrivere il codice, per arrivare a lavorare in quella a cui nel testo mi riferisco come “modalità dati + codice”, che è la modalità “normale” di lavoro, più efficiente e riproducibile.
Non sono un grande programmatore. Sono solo un buon programmatore con grandi abitudini. (Kent Beck)
Per introdurre il lettore a questa modalità di lavoro, nei capitoli dal secondo al quarto, RCommander verrà usato per produrre tre script riproducibili: uno per l’importazione e la trasformazione dei dati; uno per l’analisi descrittiva; il terzo per l’analisi bivariata e il controllo delle ipotesi. Parallelamente, le funzioni utilizzate vengono illustrate con semplici esercizi di scrittura del codice. Il lettore potrà dunque scegliere se lavorare esclusivamente con RCommander, o passare direttamente o gradualmente al linguaggio di R.
Adattato da “Ricerca sociale con R” (“Introduzione”, pp. 7-9)
Ricerca sociale con R: Indice e Introduzione
Unisciti alla conversazione