Dati Istat e statistiche pubbliche con R
Come accedere ai dati dell’Istat – ma anche di altri provider di statistiche pubbliche – direttamente da R. E una funzione per recuperare le informazioni su campi e etichette dei flussi.
Forse non tutti sanno che … anche l’Istat, come molti altri provider di statistiche pubbliche (Eurostat, World Bank ecc.), diffonde i suoi dati (http://dati.istat.it/) in formato aperto, in modalità machine-to-machine. Questo significa, in pratica, che, sfruttando il protocollo adottato da questi istituti (SDMX), è possibile importare i dati direttamente con R grazie al pacchetto rsdmx.
Questa modalità di accesso ai dati Istat è poco noto e poco documentato: per questa ragione, potrà essere utile consultare la guida messa a disposizione dall’associazione OnData.
Trovate invece il tutorial per scegliere, filtrare e scaricare i dati con R e rsdmx, nella pagina della wiki Importare i dati con protocollo SDMX.
Su GitHub, ho inoltre pubblicato una funzione per recuperare le informazioni su campi e etichette dei flussi ed organizzarle in un dataframe.
Ad esempio, una volta individuato l’identificativo del dataset che interessa, in questo caso quello del tasso di occupazione (http://dati.istat.it/Index.aspx?DataSetCode=DCCV_TAXOCCU1), scriveremo:
# funzione cod_sdmx
res <- cod_sdmx(rid = "DCCV_TAXOCCU1")
Ed otteremo una lista composta da due dataframe tibble:
res
$campi
# A tibble: 7 x 3
component conceptRef codelist
<chr> <chr> <chr>
1 Dimension FREQ CL_FREQ
2 Dimension CITTADINANZA CL_CITTADINANZA
3 Dimension CLASSE_ETA CL_ETA1
4 Dimension ITTER107 CL_ITTER107
5 Dimension SESSO CL_SEXISTAT1
6 Dimension TIPO_DATO CL_TIPO_DATO_FOL
7 Dimension TITOLO_STUDIO CL_TITOLO_STUDIO
$codici
# A tibble: 11,758 x 4
concept id label.it label.en
<chr> <chr> <chr> <chr>
1 FREQ A annuale annual
2 FREQ B business (non supportato) business (not supported)
3 FREQ D giornaliero daily
4 FREQ E event (non supportato) event (not supported)
5 FREQ H semestrale half-yearly
6 FREQ M mensile monthly
7 FREQ Q trimestrale quarterly
8 FREQ W settimanale weekly
9 CITTADINANZA ITL italiano-a italian
10 CITTADINANZA FRG straniero-a foreign
# ... with 11,748 more rows
La funzione è dedicata ai soli dati Istat (ma è facilmente modificabile), e richiede l’installazione del pacchetto rsdmx e dplyr. Il dataframe delle variabili (campi, il primo), è accessibile digitando res$campi
, quello dei codici digitando res$codici
.
Unisciti alla conversazione