http://www.comune.bagnacavallo.ra.it/Comune/Atti-Amministrativi/Bilancio/2013/Bilancio-anno-2013
Purtroppo la pagina sopra menzionata è un tipico esempio di dato 'chiuso', i dati interessanti sono imprigionati in file PDF , quando non addirittura in PDF frutto di scanner...
Fortunatamente il bilancio analitico è un PDF strtturato e non una scansione, dunque sono riuscito a 'liberare' i dati contenuti in esso per dimostrare come un set di dati aperto (http://datahub.io/it/dataset/bil-prev-2013-bagna) aiuti a spiegare, meglio che in 100 conferenze, come vengono spesi i soldi della comunità.
Ecco il risultato in rappresentazione grafica , in sostanza si tratta di una serie di visualizzazioni che mostrano come è suddiviso l'ammontare totale della spesa (circa 21 milioni di Euro) sotto vari punti di vista (per titolo, per funzione, per servizio, per intervento, per dettaglio):
http://public.tableausoftware.com/views/Bilancio2013Bagnacavallo-Uscite/TabellaDettaglio
Personalmente , la cosa che ho trovato più saliente è l'ammontare della spesa per il servizio smaltimento rifiuti, non penso che,anche con buona volontà, leggendo le 80 pagine del bilancio in PDF mi sarei accorto che più del 10% (!!!!) della spesa annuale del Comune serve a questo.
molto interessante! Se volessi chiederti qualche dritta su come fare lo stesso trattamento ad altri bilanci pubblici?
RispondiEliminaCiao Alessandra. Hai fatto qualche esperimento con le mie istruzioni? Mi interessa rimanere informato sull'argomento in quanto non essendoci uno standard di pubblicazione dei bilanci pubblici ogni caso è prezioso per avere un quadro d'insieme.
EliminaMi aggiungo ad Alessandra. Io davanti al PDF del comune di Imola (che oltretutto ultimamente ha fatto partnership con Google e, internamente, usa google docs) ho gettato la spugna.
RispondiEliminaSe copio il testo, le colonne si mischiano irrimediabilmente. Se uso dei tools online, mi prendono le celle a caso. Insomma, l'unica soluzione sarebbe stato copiare a mano cella per cella... tu non avrai fatto così, vero? :-)
link comune Imola: http://vivere.comune.imola.bo.it/governo/trasparenza/bilanci.htm
Purtroppo non tutti i PDF sono uguali... Riporto i passi che ho compiuto come ho riportato in https://groups.google.com/forum/#!forum/spaghettiopendata (gruppo che vi consiglio di seguire se siete interessati a questi argomenti) :
RispondiElimina1. Per scrapperizzare il PDF alla fine ho usato un software non libero ma che ha letto perfettamente il bilancio del comune di Bagnacavallo : http://www.bluelabelsoft.de/index.htm. Avevo provato anche Zamzar ma senza risultati apprezzabili (mi incasinava le colonne) pure Tabula non ha funzionato bene.
2.Per 'sistemare' il foglio xls risultante ho scritto uno script in VBA per Excel 2007 che mette insieme le pagine e riempie le colonne della fact table. (lasciandomi però un bel po' di lavoro manuale xchè il programmino l'ho fatto un po' in fretta e non è perfetto)
3. La versione free di Tableau Software
Grazie mille Franco, approfitto subito dei consigli. Ho sempre in mente lo speech di Kevin Hauswirth di San Francisco (http://storify.com/MillyMarchioni/kevin-hauswirth-social-media-e-cittadini-bologna-2), quando gli hanno chiesto cosa succederebbe in caso di cambio di amministrazione. Ha risposto che una volta aperti tutti i dati e fornita l'opportunità di utilizzarli è difficile tornare indietro. Ciao, Massimo.
RispondiEliminaciao anche io sono molto interessato a questo lavoro (ottimo anche quello sull Aslona ...).
RispondiEliminati chiedo anche io qualche dritta (intanto che cerco di reperire almeno il pdf non scannerizzato ... al momento sul sito del comune c'è solo quello scannerizzato e nemmeno il dettaglio ... :(( )
mi puoi dare qualche dritta?
ps: ultimamente per alcuni file pdf mi ha funzionato molto bene scraperwiki (ha anche l'opzione di mettere in unica tabella più pagine). speriamo funzioni anche per i bilanci ...
grazie
Andrea
Ciao , per lo scraping ora come ora ti consiglio di usare Tabula!
Elimina