Ricerca Sociale con R

Una wiki per l'analisi dei dati con R

Strumenti Utente

Strumenti Sito


Il Laboratorio di Analisi dei Dati con R, dell'Università di Teramo su piattaforma Meet, inizia il 9 aprile 2021 - Iscrizione - email

Barra laterale

Segui il canale Telegram

Max 3 mess. al giorno (cos'è?)

Contenuti

Ultimi post del blog

Video e tutorial

Pagine aggiornate


Formazione

Mini webinar

Incontri individuali online


Ricerca sociale con R (il libro)


Contatti



Download R
r:gestione_dei_dati:importare_tabelle_da_pdf

Importare tabelle da PDF

Per importare dati da un file pdf, usiamo il pacchetto tabulizer1), che usa la libreria open source tabula :

install.packages("tabulizer")
library(tabulizer)

## Estrarre i dati

### Estrarre direttamente la tabella

mydata <- extract_tables(file.choose()) 

Si aprirà la finestra di dialogo, che consentirà di scegliere il file PDF. Naturalmente, è possibile indicare semplicemente il nome del file:

mydata <- extract_tables("myfile.pdf") 

Possono essere estratte tabelle da più pagine. Il risultato sarà una lista di tabelle (formato carattere).

### Scegliere la pagina

Per indicare la pagina del file in cui è presente la tabella, usare l'argomento pages:

mydata <- extract_tables(file.choose(), pages = 3) 

In questo caso, verrà estratta la tabella a pagina 3.

### Selezionare interattivamente la tabella

Se nella pagina sono incluse diverse tabelle o aree di testo e tabelle, possiamo usare la funzione extract_areas():

mydata <- extract_areas(file.choose()) 

Si aprirà una interfaccia html (Shiny) che permetterà di selezionare la tabella o area di testo da importare.

## Trasformare i dati in dataframe o altro oggetto

Infine, trasformeremo i dati importati nel tipo di oggetto adatto, ad esempio un dataframe:

mydf <- as.data.frame(mydata)

1) Thomas J. Leeper (2018). tabulizer: Bindings for Tabula PDF Table Extractor Library.
r/gestione_dei_dati/importare_tabelle_da_pdf.txt · Ultima modifica: 23/09/2021 14:17 da admin