L'analisi della varianza (ANOVA) è una tecnica utilizzata per confrontare le medie e le varianze di due o più gruppi, e per valutare se tali differenze siano statisticamente significative. L'Anova si utilizza quindi quando la variabile o le variabili indipendenti sono di tipo categoriale, e la variabile dipendente è cardinale.
R prevede diverse funzioni per condurre diversi tipi di ANOVA. Per una introduzione a queste tecniche, si rimanda alla relativa voce di Wikipedia.
Ai fini della scelta delle tecniche da utilizzare, è importante ricordare gli assunti dell'Anova:
Vedi anche, su Wikipedia, Analisi della varianza.
Inoltre, quando si procede ad una Anova fattoriale, vale anche il requisito:
Per soddisfare questo requisito, è sufficiente selezionare in maniera casuale un sotto–campione, oppure ricorrere alla Ponderazione dei casi.
Quando uno o entrambi di questi requisiti non sono rispettati, si devono utilizzare tecniche non parametriche di analisi della varianza1).
Ci sono pacchetti dedicati alle diverse tecniche di analisi della varianza non parametrica. Vedi in particolare il pacchetto WRS2
Distinguiamo inoltre fra:
In generale, è possibile utilizzare la funzione lm() o la funzione aov(), che consente anche l'analisi a due o più vie.
È possibile ottenere una tabella dell'analisi della varianza (o della devianza) con la funzione anova(), applicata ad un modello di analisi lineare (lm e glm, ad esempio):
anova(lm.res)
Poniamo ad esempio che ''y'' sia una variabile numerica, e''A'' una variabile categoriale. Otterremmo una tabella così composta:
Analysis of Variance Table
Response: mydata$y
Df Sum Sq Mean Sq F value Pr(>F)
mydata$A 1 0.23 0.2335 0.1144 0.7353
Residuals 627 1279.93 2.0414
Dove:
mydata$A = variabile esplicativaDf = gradi di libertàSum Sq = devianza (mydata$A = entro gruppi, o spiegata, o sistematica; Residuals = residua, o non spiegata, o stocastica)Mean Sq = varianza (Sum Sq / Df)F value e Pr(>F) = test F: varianza spiegata / varianza residua, e significatività statisticaAi fini dell'interpretazione, si deve ricordare che l'ipotesi nulla è che le varianze siano uguali fra di loro, e che dunque la variabile indipendente non produca effetti su quella dipendente. La probabilità che sia vera l'ipotesi nulla è indicata dal valore Pr (altrove, p). Nel caso in esempio, la relazione non è significativa ed anzi le due variabili sono quasi perfettamente indipendenti, in quanto Pr = 0.7353: c'è il 73,5% di probabilità che sia vera l'ipotesi nulla.
Con RCommander è possibile svolgere da menu:
Non è invece possibile (da menu):
Le procedure per eseguire l'Analisi della varianza in R sono disponibili su Wikipedia all'indirizzo: Analisi della varianza
Sul blog Statistica con R, sono inoltre disponibili i seguenti posts di approfondimento (in Anova):