🌳 Aggiornato .

Forse non tutti sanno che … anche l’Istat, come molti altri provider di statistiche pubbliche (Eurostat , World Bank ecc.), diffonde i suoi dati (http://dati.istat.it/ ) in formato aperto, in modalità machine-to-machine. Questo significa, in pratica, che, sfruttando il protocollo adottato da questi istituti (SDMX), è possibile importare i dati direttamente con R grazie al pacchetto rsdmx .

Questa modalità di accesso ai dati Istat è poco noto e poco documentato: per questa ragione, potrà essere utile consultare la guida messa a disposizione dall’associazione OnData.

Trovate invece il tutorial per scegliere, filtrare e scaricare i dati con R e rsdmx, nella pagina della wiki Importare i dati con protocollo SDMX .

Su GitHub, ho inoltre pubblicato una funzione per recuperare le informazioni sui flussi di dati ed organizzarle in due dataframe: uno per i campi e uno per le etichette (cod_sdmx()).

Ad esempio, una volta individuato l’identificativo del dataset che interessa, ad esempioquello del tasso di occupazione (cfr. su Istat ), scriveremo:

# funzione cod_sdmx
res <- cod_sdmx(rid = "DCCV_TAXOCCU1")
res

Ed otteremo una lista composta da due dataframe tibble:

$campi
# A tibble: 7 x 3
  component conceptRef    codelist        
  <chr>     <chr>         <chr>           
1 Dimension FREQ          CL_FREQ         
2 Dimension CITTADINANZA  CL_CITTADINANZA 
3 Dimension CLASSE_ETA    CL_ETA1         
4 Dimension ITTER107      CL_ITTER107     
5 Dimension SESSO         CL_SEXISTAT1    
6 Dimension TIPO_DATO     CL_TIPO_DATO_FOL
7 Dimension TITOLO_STUDIO CL_TITOLO_STUDIO

$codici
# A tibble: 11,758 x 4
   concept      id    label.it                  label.en                
   <chr>        <chr> <chr>                     <chr>                   
 1 FREQ         A     annuale                   annual                  
 2 FREQ         B     business (non supportato) business (not supported)
 3 FREQ         D     giornaliero               daily                   
 4 FREQ         E     event (non supportato)    event (not supported)   
 5 FREQ         H     semestrale                half-yearly             
 6 FREQ         M     mensile                   monthly                 
 7 FREQ         Q     trimestrale               quarterly               
 8 FREQ         W     settimanale               weekly                  
 9 CITTADINANZA ITL   italiano-a                italian                 
10 CITTADINANZA FRG   straniero-a               foreign                 
# ... with 11,748 more rows

La funzione è dedicata ai soli dati Istat (ma è facilmente modificabile), e richiede l’installazione del pacchetto rsdmx e dplyr. Il dataframe delle variabili (campi, il primo), è accessibile digitando res$campi, quello dei codici digitando res$codici.