Forse non tutti sanno che … anche l’Istat, come molti altri provider di statistiche pubbliche (Eurostat , World Bank ecc.), diffonde i suoi dati (http://dati.istat.it/ ) in formato aperto, in modalità machine-to-machine. Questo significa, in pratica, che, sfruttando il protocollo adottato da questi istituti (SDMX), è possibile importare i dati direttamente con R grazie al pacchetto rsdmx .
Questa modalità di accesso ai dati Istat è poco noto e poco documentato: per questa ragione, potrà essere utile consultare la guida messa a disposizione dall’associazione OnData.
Trovate invece il tutorial per scegliere, filtrare e scaricare i dati con R e rsdmx, nella pagina della wiki Importare i dati con protocollo SDMX .
Su GitHub, ho inoltre pubblicato una funzione
per recuperare le informazioni sui flussi di dati ed organizzarle in due dataframe: uno per i campi e uno per le etichette (cod_sdmx()).
Ad esempio, una volta individuato l’identificativo del dataset che interessa, ad esempioquello del tasso di occupazione (cfr. su Istat ), scriveremo:
# funzione cod_sdmx
res <- cod_sdmx(rid = "DCCV_TAXOCCU1")
res
Ed otteremo una lista composta da due dataframe tibble:
$campi
# A tibble: 7 x 3
component conceptRef codelist
<chr> <chr> <chr>
1 Dimension FREQ CL_FREQ
2 Dimension CITTADINANZA CL_CITTADINANZA
3 Dimension CLASSE_ETA CL_ETA1
4 Dimension ITTER107 CL_ITTER107
5 Dimension SESSO CL_SEXISTAT1
6 Dimension TIPO_DATO CL_TIPO_DATO_FOL
7 Dimension TITOLO_STUDIO CL_TITOLO_STUDIO
$codici
# A tibble: 11,758 x 4
concept id label.it label.en
<chr> <chr> <chr> <chr>
1 FREQ A annuale annual
2 FREQ B business (non supportato) business (not supported)
3 FREQ D giornaliero daily
4 FREQ E event (non supportato) event (not supported)
5 FREQ H semestrale half-yearly
6 FREQ M mensile monthly
7 FREQ Q trimestrale quarterly
8 FREQ W settimanale weekly
9 CITTADINANZA ITL italiano-a italian
10 CITTADINANZA FRG straniero-a foreign
# ... with 11,748 more rows
La funzione è dedicata ai soli dati Istat (ma è facilmente modificabile), e richiede l’installazione del pacchetto rsdmx e dplyr. Il dataframe delle variabili (campi, il primo), è accessibile digitando res$campi, quello dei codici digitando res$codici.