Da qualche mese a questa parte AGID ha messo a disposizione il catalogo che intende censire tutte le basi di dati delle pubbliche amministrazioni italiane.
Un simile censimento è il primo passo necessario per valorizzare il patrimonio informativo pubblico, visto che i dati in esso contenuti sono un asset strategico fondamentale per lo sviluppo del paese. Da esso si potrebbe partire per fare un lavoro di unificazione e omogeneizzazione di basi di dati e applicazioni (attualmente molto diversi anche se usati per gli stesso processi....) nonchè a una definizione delle ontologie necessarie a descrivere la conoscenza della PA.
Tutto questo si tradurrebbe in enormi vantaggi per cittadini e imprese che potrebbero così usufruire di servizi gestiti e offerti in modo uniforme e interoperabile in tutto il paese.
Durante il recente raduno #SOD15 abbiamo cominciato ad analizzare tale catalogo per capirne il contenuto e cercare di definirne una ontologia. Ci siamo però resi conto che la base di dati era molto più sporca del previsto e quindi poco usabile. Per questo ho cercato di continuare il lavoro di pulizia e mettere insieme qualche visualizzazione che aiutasse a chiarire i contenuti del catalogo.
Sono partito dal dump SQL fornito da AGID ricreando il database Postgres di partenza e ho creato una fact-table esportabile in formato csv (questo perchè,come constatato durante l'hackathon,il csv presente sul sito di AGID ha grossi problemi di qualità dei dati).
Il risultato è un csv che ho sottoposto a pulizia attraverso Google Refine cercando di uniformare le varie colonne. Ho notato che un parziale lavoro di pulizia era già stato compiuto da AGID poichè esistono colonne con suffisso "_new" più 'pulite' e su tali ho lavorato. Qui condivido i file dei vari step e anche il progetto Refine nel caso qualcuno volesse continuare nel lavoro di pulizia ancora necessario : https://drive.google.com/folderview?id=0B285aRfZDUKiflpkRmI3ZWs0WmxlekE5NU9wVFBKWEtCSGJwSUxFTkhyaUwtbS1TMF8xYm8&usp=sharing
Infine ho creato una visualizzazione interattiva per capire la distribuzione del numero di basi di dati in base a un po' di parametri che mi sembrano interessanti e anche in modo georiferito sul territorio nazionale.
Nella visualizzazione di dettaglio ho cercato di mostrare l'elenco delle singole basi di dati per area geografica. La visualizzazione mi ha permesso di constatare, per esempio, che purtroppo ad oggi l' Unione dei Comuni della Bassa Romagna risulta inadempiente nella comunicazione delle proprie basi di dati, come circa il 30% delle amministrazioni pubbliche (http://www.agid.gov.it/agenda-digitale/open-data/basi-dati-pa/amministrazioni-inadempienti).
Un simile censimento è il primo passo necessario per valorizzare il patrimonio informativo pubblico, visto che i dati in esso contenuti sono un asset strategico fondamentale per lo sviluppo del paese. Da esso si potrebbe partire per fare un lavoro di unificazione e omogeneizzazione di basi di dati e applicazioni (attualmente molto diversi anche se usati per gli stesso processi....) nonchè a una definizione delle ontologie necessarie a descrivere la conoscenza della PA.
Tutto questo si tradurrebbe in enormi vantaggi per cittadini e imprese che potrebbero così usufruire di servizi gestiti e offerti in modo uniforme e interoperabile in tutto il paese.
Durante il recente raduno #SOD15 abbiamo cominciato ad analizzare tale catalogo per capirne il contenuto e cercare di definirne una ontologia. Ci siamo però resi conto che la base di dati era molto più sporca del previsto e quindi poco usabile. Per questo ho cercato di continuare il lavoro di pulizia e mettere insieme qualche visualizzazione che aiutasse a chiarire i contenuti del catalogo.
Sono partito dal dump SQL fornito da AGID ricreando il database Postgres di partenza e ho creato una fact-table esportabile in formato csv (questo perchè,come constatato durante l'hackathon,il csv presente sul sito di AGID ha grossi problemi di qualità dei dati).
Il risultato è un csv che ho sottoposto a pulizia attraverso Google Refine cercando di uniformare le varie colonne. Ho notato che un parziale lavoro di pulizia era già stato compiuto da AGID poichè esistono colonne con suffisso "_new" più 'pulite' e su tali ho lavorato. Qui condivido i file dei vari step e anche il progetto Refine nel caso qualcuno volesse continuare nel lavoro di pulizia ancora necessario : https://drive.google.com/folderview?id=0B285aRfZDUKiflpkRmI3ZWs0WmxlekE5NU9wVFBKWEtCSGJwSUxFTkhyaUwtbS1TMF8xYm8&usp=sharing
Infine ho creato una visualizzazione interattiva per capire la distribuzione del numero di basi di dati in base a un po' di parametri che mi sembrano interessanti e anche in modo georiferito sul territorio nazionale.
Nella visualizzazione di dettaglio ho cercato di mostrare l'elenco delle singole basi di dati per area geografica. La visualizzazione mi ha permesso di constatare, per esempio, che purtroppo ad oggi l' Unione dei Comuni della Bassa Romagna risulta inadempiente nella comunicazione delle proprie basi di dati, come circa il 30% delle amministrazioni pubbliche (http://www.agid.gov.it/agenda-digitale/open-data/basi-dati-pa/amministrazioni-inadempienti).