Ricerca Sociale con R

Una wiki per l'analisi dei dati con R

Strumenti Utente

Strumenti Sito


Il Laboratorio di Analisi dei Dati con R, dell'Università di Teramo su piattaforma Meet, inizia il 9 aprile 2021 - Iscrizione - email
r:analisi_bivariata:anova

Analisi della varianza (ANOVA) con R

L'analisi della varianza (ANOVA) è una tecnica utilizzata per confrontare le medie e le varianze di due o più gruppi, e per valutare se tali differenze siano statisticamente significative. L'Anova si utilizza quindi quando la variabile o le variabili indipendenti sono di tipo categoriale, e la variabile dipendente è cardinale.

R prevede diverse funzioni per condurre diversi tipi di ANOVA. Per una introduzione a queste tecniche, si rimanda alla relativa voce di Wikipedia.

Test degli assunti

Ai fini della scelta delle tecniche da utilizzare, è importante ricordare gli assunti dell'Anova:

  • normalità: la distribuzione della variabile deve avere un andamento normale nei gruppi (è possibile effettuare il test di Shapiro-Wik);
  • omoschedasticità: le varianze dei gruppi devono essere uguali (è possibile effettuare il test F delle varianze);
  • sfericità (solo per l'Anova entro casi): le covarianze dei gruppi sono omogenee.

Vedi anche, su Wikipedia, Analisi della varianza.

Inoltre, quando si procede ad una Anova fattoriale, vale anche il requisito:

  • I gruppi devono avere la stessa numerosità (circa).

Per soddisfare questo requisito, è sufficiente selezionare in maniera casuale un sotto–campione, oppure ricorrere alla Ponderazione dei casi.

Anova non parametrica

Quando uno o entrambi di questi requisiti non sono rispettati, si devono utilizzare tecniche non parametriche di analisi della varianza 1).

Ci sono pacchetti dedicati alle diverse tecniche di analisi della varianza non parametrica. Vedi in particolare il pacchetto WRS2

L'Anova in R

  • One-way Anova, o Anova a una via: una variabile indipendente (se le modalità sono due, si usa anche il t-test);
  • Two-way Anova, o Anova a due vie: due variabili indipendenti, con o senza analisi degli effetti di interazione;
  • Factorial Anova, o Anova fattoriale: quando si vogliano studiare gli effetti di interazione fra due o più variabili indipendenti;
  • Anova multivariata (MANOVA): quando le variabili dipendenti sono più di una.

Distinguiamo inoltre fra:

  • Anova tra casi: quando i casi sono indipendenti fra di loro;
  • Anova entro casi o Repeated Measures: quando i casi non sono indipendenti fra di loro (ad esempio quando si esegue un test prima-dopo, e dunque i gruppi sono composti dagli stessi casi).

In generale, è possibile utilizzare la funzione lm() o la funzione aov(), che consente anche l'analisi a due o più vie.

Interpretazione della tabella Anova

È possibile ottenere una tabella dell'analisi della varianza (o della devianza) con la funzione anova(), applicata ad un modello di analisi lineare (lm e glm, ad esempio):

anova(lm.res)

Poniamo ad esempio che ''y'' sia una variabile numerica, e''A'' una variabile categoriale. Otterremmo una tabella così composta:

Analysis of Variance Table

Response: mydata$y
             Df  Sum Sq Mean Sq F value Pr(>F)
mydata$A      1    0.23  0.2335  0.1144 0.7353
Residuals   627 1279.93  2.0414  

Dove:

  • mydata$A = variabile esplicativa
  • Df = gradi di libertà
  • Sum Sq = devianza (mydata$A = entro gruppi, o spiegata, o sistematica; Residuals = residua, o non spiegata, o stocastica)
  • Mean Sq = varianza (Sum Sq / Df)
  • F value e Pr(>F) = test F: varianza spiegata / varianza residua, e significatività statistica

Ai fini dell'interpretazione, si deve ricordare che l'ipotesi nulla è che le varianze siano uguali fra di loro, e che dunque la variabile indipendente non produca effetti su quella dipendente. La probabilità che sia vera l'ipotesi nulla è indicata dal valore Pr (altrove, p). Nel caso in esempio, la relazione non è significativa ed anzi le due variabili sono quasi perfettamente indipendenti, in quanto Pr = 0.7353: c'è il 73,5% di probabilità che sia vera l'ipotesi nulla.

Costruzione del modello e formula

Tests Post-hoc (parametrici)

Con RCommander

Con RCommander è possibile svolgere da menu:

  • i tests per i controlli degli assunti;
  • l'Anova a due vie, con i tests post–hoc (confronto di medie a coppie);
  • l'Anova a più vie , senza tests post–hoc;

Non è invece possibile (da menu):

  • utilizzare dati ponderati;
  • specificare il modello fattoriale.

Per approfondire

r/analisi_bivariata/anova.txt · Ultima modifica: 25/09/2021 11:27 da admin