Introduzione

Questa è la bozza in progress di un libro che presenta i principali strumenti disponibili in R per l’analisi dei testi.

La gran parte dei testi, manuali e tutorial, attualmente in commercio o liberamente disponibili online usano esempi in lingua inglese. Si vedano in particolare: Feinerer, Hornik, e Meyer (s.d.); Silge e Robinson (2017); Welbers, Van Atteveldt, e Benoit (2017); Silge e Robinson (2016); Robinson e Silge (2023).

In questo testo verranno proposte risorse aperte anche per l’analisi dei testi in lingua italiana.

I pacchetti principali ai quali si farà riferimento nel testo sono Quanteda (Benoit et al. 2023) e Tidytext (Robinson e Silge 2023), per completezza e facilità, e anche perché solitamente nella ricerca sociale l’analisi testuale e il text mining sono di uso più comune, rispetto all’analisi linguistica e lessicale. Questi due pacchetti sono entrambi compatibili con i pacchetti e le funzioni del tidyverse (Wickham 2023), anche in termini di “grammatica”, e vanno verso una sempre maggiore integrazione.

Il pacchetto koRpus (Michalke 2021), d’altra parte, è particolarmente utile per l’analisi in lingua italiana, in quanto consente di accedere facilmente a TreeTagger (Helmut Schmid 1994; Schmid 1999) per la lemmatizzazione e il tagging grammaticale. I risultati ottenuti possono infatti essere importati direttamente in tidytext o Quanteda, e utilizzati per costruire dizionari personalizzati.

Si consiglia di fare riferimento ai seguenti testi, per quanto riguarda gli aspetti teorici e metodologici della statistica testuale e linguistica computazionale (in aggiornamento): Bolasco (1999); Bolasco (2013); Della Ratta - Rinaldi (2009); Giuliano e La Rocca (2010); Lenci, Montemagni, e Pirrelli (2016); Krippendorff (2004).

Per una introduzione al trattamento dei vettori carattere, si veda Wickham e Grolemund (2016), capitolo 14 (pacchetto stringr).

Per l’uso delle espressioni regolari, si veda Beri (2007).

Conoscenze pregresse

  • conoscenza base del linguaggio di R; in particolare gli oggetti di classe dataframe, liste, e vettori carattere;
  • conoscenza base di RStudio;
  • conoscenza base della grammatica del tidyverse

Risorse

I testi e i dati degli esempi sono disponibili a questo link (cartella Proton Drive, in aggiornamento).

Progetto RStudio e struttura delle cartelle

Creare un nuovo progetto

In RStudio, cliccando sulla freccia (o triangolino) accanto alla scritta “Project” si aprirà un menu a discesa, da cui è possibile scegliere “New Project …”.

Nuovo progetto 1

Figura 1: Nuovo progetto 1

Si aprirà a questo punto una finestra di dialogo che pone diverse alternative. Se abbiamo già creato una cartella dedicata al progetto, scegliamo “Existing Directory”, altrimenti scegliamo “New Directory”.

Nuovo progetto 2

Figura 2: Nuovo progetto 2

Seguiamo poi le istruzioni a schermo.

Cartella di lavoro e sottocartelle

Gli script inclusi presumono l’utilizzo di un progetto di RStudio, e della seguente struttura delle cartelle, all’interno della directory di lavoro:

  • cartella del progetto, nome a scelta:

    • sottocartella dati: per i dati degli esempi;
    • sottocartella scripts: per gli scripts da caricare;
    • sottocartella res: per i risultati.