Skip to content

Statistica testuale e interpretazione

    Reloaded dal 2010

    La statistica testuale – approccio all’analisi del contenuto che costituisce per molti versi l’erede naturale della classica semantica quantitativa, sviluppata fra gli anni Quaranta e gli anni Cinquanta negli Usa – viene utilizzata per analizzare il linguaggio e/o il contenuto di testi e documenti testuali con gli strumenti della statistica.

    Figura 1. Wordcloud

    Esempi molto semplici di analisi quantitativa di un testo sono le wordclouds (nuvole di parole, o nuvole di frequenza), divenute familiari nel Web grazie ad applicazioni online come Wordle.net, e Wordclouds.com che calcolano le frequenze delle parole presenti in un testo inserito dall’utente, e le rappresentano mediante grafici molto accattivanti .

    Anche se la statistica testuale viene spesso contrapposta all’interpretazione (intesa come ermeneutica), misure ed indici che forniscono una descrizione sintetica dei contenuti di un numero anche molto ampio di testi possono costituire un supporto affidabile per l’interpretazione.

    Leggere è sempre interpretare (Henry Miller)

    Fra i diversi software dedicati a questo tipo di analisi, segnaliamo in particolare gli italiani TalTac e T-Lab. R offre diversi pacchetti dedicati, fra i quali i più noti sono tm e i recenti Quanteda e tidytext (quest’ultimo dedicato al text-mining). Lo stesso Atlas.ti prevede, così come altri software per l’analisi qualitativa computer assistita, alcune misure statistiche connesse alle frequenze delle parole contenute nei documenti del progetto.

    Si tratta di software complessi da utilizzare, come complesse sono le tecniche statistiche e la lettura dei risultati prodotti. Prima di decidere se e in quali circostanze utilizzarli, per affiancare o sostituire l’analisi interpretativa, è opportuno quindi tenere conto di alcuni aspetti.

    Testo e contesto

    Tutte queste tecniche si basano sulla scomposizione dei testi in unità elementari di significato (le forme grafiche, cioè le parole e le espressioni composte quali ad es. “analisi_testuale”), e quindi come se il significato fosse veicolato da tali unità, e non anche dalle relazioni che si instaurano fra gli elementi che compongono il testo, ed in particolare fra il testo ed il contesto.

    Ad esempio, è difficile articolare il senso di una wordcloud in quanto le relazioni delle parole fra di loro e con il loro contesto non sono rappresentate.

    La statistica testuale consente oramai di andare molto oltre il semplice conteggio delle frequenze, e anche di recuperare, almeno in parte, il rapporto fra la parola e il testo nel quale è inserita, così come anche le relazioni delle parole fra di loro, con l’analisi di associazioni (Fig. 2), co-occorrenze, analisi tematiche, e molto altro (rimando a questo testo di Francesca Della Ratta, dal quale è peraltro tratta la wordcloud in Fig. 1).

    Grafico delle associazioni fra il termine “Method” e gli altri termini contenuti negli abstracts degli articoli sulla Grounded Theory: i termini più vicini mostrano le associazioni più forti

    Non si sommano le mele con le pere

    Poiché misure e indici hanno un valore solo ed esclusivamente rispetto alle parole contenute nei testi, queste tecniche andrebbero applicate ad un corpus non solo ampio ma anche omogeneo: ampio (almeno 15.000 occorrenze) affinché gli indici statistici siano basati su un numero consistente di occorrenze; omogeneo, perché i risultati siano interpretabili sul piano sostantivo.

    I testi inclusi nell’analisi dovranno cioè essere omogenei sia sul piano formale sia su quello dei temi trattati, in modo da garantire (a priori) che i termini in analisi possano essere attribuiti ad un certo campo semantico. I testi dovrebbero insomma parlare di uno stesso argomento, e/o appartenere ad uno stesso contesto, e/o essere stati prodotti da uno stesso autore.

    Se può essere facilmente comprensibile il senso dell’analisi statistica delle opere di un singolo autore (ad esempio l’opera di Shakespeare), più problematica può essere la lettura dei risultati dell’analisi di un corpus composto da tanti articoli di giornale, o da diversi messaggi pubblicitari. Non potrebbe essere che autori diversi, o testate diverse, risultino non comparabili dal punto di vista del linguaggio utilizzato?

    Più in generale, si pone anche il problema della definizione dei criteri che definiscono l’omogeneità dei testi: stesso autore, stesso argomento, stessa parola chiave, risposte diverse alle stesse domande, ecc.

    Bisogna infine ricordare che la statistica non garantisce in quanto tale l’“oggettività” dei risultati. Quanto sin qui detto, infatti, dovrebbe lasciar intuire che i fattori “soggettivi” e contestuali (le decisioni del ricercatore cioè, così come il contesto della stessa produzione dei testi) svolgono pur sempre un ruolo determinante. Bolasco suggerisce infatti di utilizzare l’espressione analisi semi-automatica dei testi.

    È infatti il ricercatore scegliere i testi da analizzare, a valutarne l’omogeneità, e ad operare su di essi i molti necessari  interventi da effettuare prima dell’analisi.

    La stessa lettura dei risultati di solito non è scontata ed auto-evidente (né del resto potrebbe mai essere auto-evidente qualcosa di prodotto attraverso procedure tanto complesse). A partire quindi dagli stessi testi, anche con la statistica testuale, ricercatori diversi potrebbero giungere a risultati e conclusioni diversi.

    Resta dunque preferibile (in base anche al semplice buon senso) integrare laddove opportuno e possibile i diversi strumenti, e soprattutto evitare di utilizzarli a sproposito, come non di rado accade.

    Riferimenti bibliografici

    Berelson, B., & Lazarsfeld, P. F. (1948). The analysis of communication content. Universitetets studentkontor.

    Bolasco, S. (2013). L’analisi automatica dei testi: Fare ricerca con il text mining. Carocci.

    Della Ratta – Rinaldi, F. (2009). L’analisi testuale computerizzata. In L. Cannavò & L. Frudà (A c. Di), Ricerca sociale: Tecniche speciali di rilevazione, trattamento e analisi (pagg. 133– 152). Carocci.

    Silge, J., & Robinson, D. (2017). Text Mining with R: A Tidy Approach. O’Reilly Media.

    Precedente

    Food network e territori

    Successivo

    Covid19. Quali dati per monitorare il tracciamento?

    Unisciti alla conversazione

    Lascia un commento

    Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

    Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.