Ricerca Sociale con R

Una wiki per l'analisi dei dati con R

Strumenti Utente

Strumenti Sito


r:modelli:regressione_lineare_bivariata

Differenze

Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.

Link a questa pagina di confronto

Entrambe le parti precedenti la revisioneRevisione precedente
Prossima revisione
Revisione precedente
r:modelli:regressione_lineare_bivariata [28/10/2025 10:25] – [I valori attesi] Agnese Vardanegar:modelli:regressione_lineare_bivariata [28/10/2025 16:57] (versione attuale) – [I residui] Agnese Vardanega
Linea 185: Linea 185:
 </code> </code>
  
-Poiché infatti la **normalità dei residui** è uno degli [[#assunti_del_modello|assunti del modello]], i valori della loro distribuzione ci vengono proposti per primi. In questo caso, i risultati indicano che i residui sono solo leggermente asimmetrici, come si nota dalla differenza interquartile e dal valore della mediana (la media dei residui è pari a 0).  +Poiché infatti la **normalità dei residui** è uno degli [[#assunti_del_modello|assunti del modello]], i valori della loro distribuzione ci vengono proposti per primi. In questo caso, i risultati indicano che i residui sono solo leggermente asimmetrici per quanto riguarda il primo e il terzo quartile, ma con una coda lunga sui valori alti. Tale asimmetria, come vedremo, è dovuta agli //outliers//
 + 
 +Per controllare la normalità dei residui possiamo usare un test di normalità, ad esempio applicando la funzione ''[[r:test_statistici:shapiro-test|shapiro.test()]]'' al risultato della funzione ''residuals()'': 
 + 
 +<code rsplus> 
 +shapiro.test(residuals(res)) 
 +</code> 
 + 
 +<code> 
 +##  
 +##  Shapiro-Wilk normality test 
 +##  
 +## data:  residuals(res) 
 +## W = 0.94509, p-value = 0.02152 
 +</code> 
 + 
 +Dobbiamo rigettare l'ipotesi di normalità nella distribuzione dei residui.
  
 L'**errore standard dei residui** è una misura della dispersione dei residui attorno alla retta di regressione. Si calcola con $\sqrt{\text{residui}^2/df}$ L'**errore standard dei residui** è una misura della dispersione dei residui attorno alla retta di regressione. Si calcola con $\sqrt{\text{residui}^2/df}$
Linea 204: Linea 220:
 ##  Residual standard error: 15.38 on 48 degrees of freedom ##  Residual standard error: 15.38 on 48 degrees of freedom
 </code> </code>
 +
 +
  
 ==== I parametri (coefficienti) ==== ==== I parametri (coefficienti) ====
Linea 288: Linea 306:
   * **Q-Q plot**: mostra la normalità di una distribuzione (in questo caso, dei residui): anche qui si evidenziano degli outliers sui valori alti (vedi: [[r:grafici:qqplot|Grafici quantili-quantili]]).   * **Q-Q plot**: mostra la normalità di una distribuzione (in questo caso, dei residui): anche qui si evidenziano degli outliers sui valori alti (vedi: [[r:grafici:qqplot|Grafici quantili-quantili]]).
   * **Scale-Location**: mostra la distribuzione dei residui standardizzati in funzione dei valori previsti dal modello. Serve in particolare a verificare l’assunzione di omoschedasticità (varianza costante degli errori): se la linea rossa è approssimativamente orizzontale, suggerisce che la varianza dei residui è costante.   * **Scale-Location**: mostra la distribuzione dei residui standardizzati in funzione dei valori previsti dal modello. Serve in particolare a verificare l’assunzione di omoschedasticità (varianza costante degli errori): se la linea rossa è approssimativamente orizzontale, suggerisce che la varianza dei residui è costante.
-  * **Leverage**: Questo grafico aiuta a identificare le osservazioni che hanno un’influenza (//leverage//) maggiore sui risultati del modello, cioè punti che hanno un impatto sproporzionato sulla stima dei coefficienti del modello (ad esempio, ma non solo, gli //outlier//). In questo caso, la linea rossa può aiutare a vedere se i punti più influenti tendono ad avere residui più grandi o più piccoli, per identificarli.+  * **Leverage**: Questo grafico aiuta a identificare le osservazioni che hanno un’influenza (//leverage//) maggiore sui risultati del modello, cioè punti che hanno un impatto sproporzionato sulla stima dei coefficienti del modello (gli //outlier//). In questo caso, la linea rossa può aiutare a vedere se i punti più influenti tendono ad avere residui più grandi o più piccoli, per identificarli.
  
 Per produrre uno solo di questi grafici, ad esempio il Q-Q plot: Per produrre uno solo di questi grafici, ad esempio il Q-Q plot:
Linea 302: Linea 320:
 Le funzioni ''fitted()'' e ''predict()'' restituiscono dunque i valori attesi in base al modello: Le funzioni ''fitted()'' e ''predict()'' restituiscono dunque i valori attesi in base al modello:
  
-$$\hat {\text{speed}} = -17,58+3,9 \text{dist}$$ +$$\hat {\text{dist}} = -17,58+3,9 \text{speed}$$ 
  
 <code rsplus> <code rsplus>
Linea 351: Linea 369:
 Vedi [[:r:modelli:analisi_devianza_modelli_regressione#caso_della_regressione_lineare_semplice|Modelli lineari e scomposizione della devianza]] Vedi [[:r:modelli:analisi_devianza_modelli_regressione#caso_della_regressione_lineare_semplice|Modelli lineari e scomposizione della devianza]]
  
 +==== Gli outliers ====
  
 +Vedi [[regressione_semplice_outliers]]
 ==== Coefficienti di regressione, determinazione e correlazione ==== ==== Coefficienti di regressione, determinazione e correlazione ====
  

Domande? Scrivimi

Messenger Telegram Email
r/modelli/regressione_lineare_bivariata.1761647137.txt.gz · Ultima modifica: 28/10/2025 10:25 da Agnese Vardanega