Indice

Analisi della varianza (ANOVA) con R

L'analisi della varianza (ANOVA) è una tecnica utilizzata per confrontare le medie e le varianze di due o più gruppi, e per valutare se tali differenze siano statisticamente significative. L'Anova si utilizza quindi quando la variabile o le variabili indipendenti sono di tipo categoriale, e la variabile dipendente è cardinale.

R prevede diverse funzioni per condurre diversi tipi di ANOVA. Per una introduzione a queste tecniche, si rimanda alla relativa voce di Wikipedia.

Test degli assunti

Ai fini della scelta delle tecniche da utilizzare, è importante ricordare gli assunti dell'Anova:

Vedi anche, su Wikipedia, Analisi della varianza.

Inoltre, quando si procede ad una Anova fattoriale, vale anche il requisito:

Per soddisfare questo requisito, è sufficiente selezionare in maniera casuale un sotto–campione, oppure ricorrere alla Ponderazione dei casi.

Anova non parametrica

Quando uno o entrambi di questi requisiti non sono rispettati, si devono utilizzare tecniche non parametriche di analisi della varianza1).

Ci sono pacchetti dedicati alle diverse tecniche di analisi della varianza non parametrica. Vedi in particolare il pacchetto WRS2

L'Anova in R

Distinguiamo inoltre fra:

In generale, è possibile utilizzare la funzione lm() o la funzione aov(), che consente anche l'analisi a due o più vie.

Interpretazione della tabella Anova

È possibile ottenere una tabella dell'analisi della varianza (o della devianza) con la funzione anova(), applicata ad un modello di analisi lineare (lm e glm, ad esempio):

anova(lm.res)

Poniamo ad esempio che ''y'' sia una variabile numerica, e''A'' una variabile categoriale. Otterremmo una tabella così composta:

Analysis of Variance Table

Response: mydata$y
             Df  Sum Sq Mean Sq F value Pr(>F)
mydata$A      1    0.23  0.2335  0.1144 0.7353
Residuals   627 1279.93  2.0414  

Dove:

Ai fini dell'interpretazione, si deve ricordare che l'ipotesi nulla è che le varianze siano uguali fra di loro, e che dunque la variabile indipendente non produca effetti su quella dipendente. La probabilità che sia vera l'ipotesi nulla è indicata dal valore Pr (altrove, p). Nel caso in esempio, la relazione non è significativa ed anzi le due variabili sono quasi perfettamente indipendenti, in quanto Pr = 0.7353: c'è il 73,5% di probabilità che sia vera l'ipotesi nulla.

Costruzione del modello e formula

Vedi:

Tests Post-hoc (parametrici)

Con RCommander

Con RCommander è possibile svolgere da menu:

Non è invece possibile (da menu):

Per approfondire

Le procedure per eseguire l'Analisi della varianza in R sono disponibili su Wikipedia all'indirizzo: Analisi della varianza

Sul blog Statistica con R, sono inoltre disponibili i seguenti posts di approfondimento (in Anova):