Vai al contenuto

Dati Istat e statistiche pubbliche con R

Scritto da:

Agnese Vardanega

    Come accedere ai dati dell’Istat – ma anche di altri provider di statistiche pubbliche – direttamente da R. E una funzione per recuperare le informazioni su campi e etichette dei flussi.

    logo IstatForse non tutti sanno che … anche l’Istat, come molti altri provider di statistiche pubbliche (Eurostat, World Bank ecc.), diffonde i suoi dati (http://dati.istat.it/) in formato aperto, in modalità machine-to-machine. Questo significa, in pratica, che, sfruttando il protocollo adottato da questi istituti (SDMX), è possibile importare i dati direttamente con R grazie al pacchetto rsdmx.

    Questa modalità di accesso ai dati Istat è poco noto e poco documentato: per questa ragione, potrà essere utile consultare la guida messa a disposizione dall’associazione OnData.

    rstudioTrovate invece il tutorial per scegliere, filtrare e scaricare i dati con R e rsdmx, nella pagina della wiki Importare i dati con protocollo SDMX.

    Su GitHub, ho inoltre pubblicato una funzione per recuperare le informazioni su campi e etichette dei flussi ed organizzarle in un dataframe.

    Ad esempio, una volta individuato l’identificativo del dataset che interessa, in questo caso quello del tasso di occupazione (http://dati.istat.it/Index.aspx?DataSetCode=DCCV_TAXOCCU1), scriveremo:

    # funzione cod_sdmx
    res <- cod_sdmx(rid = "DCCV_TAXOCCU1")

    Ed otteremo una lista composta da due dataframe tibble:

    res
    $campi
    # A tibble: 7 x 3
      component conceptRef    codelist        
      <chr>     <chr>         <chr>           
    1 Dimension FREQ          CL_FREQ         
    2 Dimension CITTADINANZA  CL_CITTADINANZA 
    3 Dimension CLASSE_ETA    CL_ETA1         
    4 Dimension ITTER107      CL_ITTER107     
    5 Dimension SESSO         CL_SEXISTAT1    
    6 Dimension TIPO_DATO     CL_TIPO_DATO_FOL
    7 Dimension TITOLO_STUDIO CL_TITOLO_STUDIO
    
    $codici
    # A tibble: 11,758 x 4
       concept      id    label.it                  label.en                
       <chr>        <chr> <chr>                     <chr>                   
     1 FREQ         A     annuale                   annual                  
     2 FREQ         B     business (non supportato) business (not supported)
     3 FREQ         D     giornaliero               daily                   
     4 FREQ         E     event (non supportato)    event (not supported)   
     5 FREQ         H     semestrale                half-yearly             
     6 FREQ         M     mensile                   monthly                 
     7 FREQ         Q     trimestrale               quarterly               
     8 FREQ         W     settimanale               weekly                  
     9 CITTADINANZA ITL   italiano-a                italian                 
    10 CITTADINANZA FRG   straniero-a               foreign                 
    # ... with 11,748 more rows

    La funzione è dedicata ai soli dati Istat (ma è facilmente modificabile), e richiede l’installazione del pacchetto rsdmx e dplyr. Il dataframe delle variabili (campi, il primo), è accessibile digitando res$campi, quello dei codici digitando res$codici.

    Precedente

    Analizzare i messaggi di Twitter con R

    Successivo

    Giovani e democrazia: pratiche ed esperienze

    Unisciti alla conversazione

    Lascia un commento

    Il tuo indirizzo email non sarà pubblicato.

    Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.