Introduzione
Questa è la bozza in progress di un libro che presenta i principali strumenti disponibili in R per l’analisi dei testi.
La gran parte dei testi, manuali e tutorial, attualmente in commercio o liberamente disponibili online usano esempi in lingua inglese. Si vedano in particolare: Feinerer, Hornik, e Meyer (s.d.); Silge e Robinson (2017); Welbers, Van Atteveldt, e Benoit (2017); Silge e Robinson (2016); Robinson e Silge (2023).
In questo testo verranno proposte risorse aperte anche per l’analisi dei testi in lingua italiana.
I pacchetti principali ai quali si farà riferimento nel testo sono Quanteda (Benoit et al. 2023) e Tidytext (Robinson e Silge 2023), per completezza e facilità, e anche perché solitamente nella ricerca sociale l’analisi testuale e il text mining sono di uso più comune, rispetto all’analisi linguistica e lessicale. Questi due pacchetti sono entrambi compatibili con i pacchetti e le funzioni del tidyverse (Wickham 2023), anche in termini di “grammatica”, e vanno verso una sempre maggiore integrazione.
Il pacchetto koRpus (Michalke 2021), d’altra parte, è particolarmente utile per l’analisi in lingua italiana, in quanto consente di accedere facilmente a TreeTagger (Helmut Schmid 1994; Schmid 1999) per la lemmatizzazione e il tagging grammaticale. I risultati ottenuti possono infatti essere importati direttamente in tidytext o Quanteda, e utilizzati per costruire dizionari personalizzati.
Si consiglia di fare riferimento ai seguenti testi, per quanto riguarda gli aspetti teorici e metodologici della statistica testuale e linguistica computazionale (in aggiornamento): Bolasco (1999); Bolasco (2013); Della Ratta - Rinaldi (2009); Giuliano e La Rocca (2010); Lenci, Montemagni, e Pirrelli (2016); Krippendorff (2004).
Per una introduzione al trattamento dei vettori carattere, si veda Wickham e Grolemund (2016), capitolo 14 (pacchetto stringr).
Per l’uso delle espressioni regolari, si veda Beri (2007).
Conoscenze pregresse
- conoscenza base del linguaggio di R; in particolare gli oggetti di classe dataframe, liste, e vettori carattere;
- conoscenza base di RStudio;
- conoscenza base della grammatica del tidyverse
Risorse
I testi e i dati degli esempi sono disponibili a questo link (cartella Proton Drive, in aggiornamento).
Progetto RStudio e struttura delle cartelle
Creare un nuovo progetto
In RStudio, cliccando sulla freccia (o triangolino) accanto alla scritta “Project” si aprirà un menu a discesa, da cui è possibile scegliere “New Project …”.
Figura 1: Nuovo progetto 1
Si aprirà a questo punto una finestra di dialogo che pone diverse alternative. Se abbiamo già creato una cartella dedicata al progetto, scegliamo “Existing Directory”, altrimenti scegliamo “New Directory”.
Figura 2: Nuovo progetto 2
Seguiamo poi le istruzioni a schermo.
Cartella di lavoro e sottocartelle
Gli script inclusi presumono l’utilizzo di un progetto di RStudio, e della seguente struttura delle cartelle, all’interno della directory di lavoro:
cartella del progetto, nome a scelta:
- sottocartella dati: per i dati degli esempi;
- sottocartella scripts: per gli scripts da caricare;
- sottocartella res: per i risultati.