martedì 1 aprile 2014

Impegno,civismo,nerditudine: #SOD14



Per raccontare tutto quanto è accaduto a Bologna al raduno di Spaghetti Open Data , che ha visto
quest'anno un aumento considerevole dei partecipanti e temi , servirebbero paginate di commenti e comunque non riuscirei ad esprimere tutta la ricchezza dei contenuti emersi.
Cercherò allora di raccontare l'esperienza #SOD14 con una 'soggettiva' di frammenti di quanto ho vissuto in prima persona nei 2 in cui sono potuto essere presente.

Premiazione del contest Ra4Open
Durante il fitto programma della plenaria di Venerdì mattina, si sono premiati i vincitori del concorso indetto dal Comune di Ravenna per il riuso dei dati pubblicati sul neonato portale open data.
Photo by Matteo Fortini
Il concorso ha avuto un numero di partecipanti a mio avviso superiore alle aspettative, in poco meno di un mese sono stati infatti presentati 12 progetti. Questo è un segnale forte di interesse per il tema dei dati aperti, un interesse che ha coinvolto soprattutto ragazzi giovani ,quelli che hanno l'energia giusta per innovare veramente. Il concorso è stata anche l'occasione per migliorare la qualità dei dataset presenti sul portale, diversi concorrenti infatti hanno indivuduato e corretto errori presenti sui dati, si tratta di un lavoro preziosissimo che dovrebbe essere messo 'a sistema' con meccanismi di review e feedback utili a mantenere la base di dati sempre a buoni livelli qualitativi.
Da un punto di vista tecnico poi, avendo avuto la possibilità di fare parte della giuria, devo dire che le applicazioni premiate sono effettivamente di buona qualità, considerando anche il poco tempo per svilupparle. Ora sono da perfezionare per renderle ancora più usabili, avanti così!!

Il barcamp
Nel pomeriggio di Venerdì all'interno del barcamp che comprendeva 13 sessioni , che avrei voluto seguire tutte (il prossimo anno piazzerò videocamere ovunque :)) ), ho scelto di partecipare alla sessione su Openbilanci e a quella sull'integrità dei dati.

Openbilanci
Con Ettore Di Cesare di Openpolis abbiamo parlato del prossimo rilascio (questione di settimane) della piattaforma Openbilanci. Il progetto, portato avanti per qualche anno , ha raccolto i dati di bilancio degli ultimi 10 anni degli oltre 8000 Comuni italiani per per renderli disponibili in open data e fruibili attraverso visualizzazioni in un unico portale. Lo scopo è quello di creare un luogo in cui cittadini, imprese, giornalisti, amministratori possano trovare dati chiari e fruibili sulla finanza locale, portando tali dati alla conoscenza non solo degli addetti ai lavori. La fonte dei dati è http://finanzalocale.interno.it/ , sito sul quale è stato fatto un massiccio lavoro di scraping per estrarre le informazioni di tuttti i Comuni dall' HTML; un lavoro notevole è stato inoltre quello di 'normalizzare' i bilanci che hanno subito riclassificazioni nel corso degli anni per renderli tutti comparabili anno su anno.
Il progetto prevede in più di arricchire i dati di bilancio, affiancandovi anche altri dati reperipili da banche dati pubbliche (es. dati demografici, numero di auto immatricolate, dati sulle sulle fasce di reddito IRPEF, etc...) e in grado di offrire così maggiori informazioni di contesto. Inoltre è previsto che il portale possa accogliere feddback degli utenti e integrazioni per rendere la base di dati aperta alla partecipazione.
In ultimo la piattaforma potrà essere 'affittata' in versione hosted dai Comuni che volessero gestire i propri dati in modo autonomo.
Il progetto va incontro alla necessità, a mio parere non più procrastinabile, di 'riformare' la comunicazione tra la PA e i cittadini , per questo attendo con impazienza il rilascio della piattaforma e confido che le amministrazioni locali ne facciano l'uso più largo possibile.

Chi controlla l'integrità dei dati
Con il compagno spaghettaro Matteo Fortini ci siamo interrogati sui metodi e le tecniche per verificare la qualità dei dati (ecco le slide di Matteo). La sessione è nata in seguito a diversi thread che si sono susseguiti sulla mailing list di Spaghetti Open Data relativi ai problemi che si affrontano nel garantire dati 'buoni' in un panorama sempre più affollato di dati, fonti, elaborazioni. L'argomento è assai vasto e complesso ma assai importante per riuscire a capire dove sta l'errore in un certo dataset, se qualcuno ha manipolato i dati, se la base dati è corrotta etc... Esistono delle buone pratiche per verificare la qualità dei dati (qui per esempio quelle seguite da ISTAT) e anche tecniche di hashing per dare garanzie di integrità e non ripudio ma nella pratica chi lavora coi dati deve fare molto affidamento sulla sua esperienza e sulla sua conoscenza del dominio di applicazione. Non esistono metodi passo-passo generalizzabili che da una base di dati grezza portino ad un dataset pulito e 'corretto', oltre ai controlli formali  e di coerenza con i metadati (se ci sono), esistono infatti anche controlli domain-driven che riguardano lo specifico dataset (penso ad esempio alle regole di partita doppia per i bilanci).
Penso che il tema in questione non si possa ridurre in poche righe, una cosa è certa, per riuscire a verificare la qualità e l'integrita di un dato serve molta pratica, esperienza, conoscenza del dominio e un attitudine a guardare i dati con approccio puramente scientifico. Confido inoltre che oltre a tanti più dati ci saranno anche tante più persone interessate a usarli e valutarli in modo da creare una ampia popolazione di reviewers , una moltitudine di occhi in grado di garantire dati integri e buoni.

L'Hackathon
Photo by Matteo Fortini

Nella giornata di Sabato ha avuto luogo l'hachathon (ma non sono mancate neppure le goliardiche premiazioni "Master Chef" agli opendatari benemeriti :) ), il momento più atteso da molti, quando si può finalmente lavorare insieme per creare qualcosa. Le tracce di hackthon in programma erano 4, ma poi si sono moltiplicate spontaneamente :) e io ho partecipato alla traccia che si occupava di dati sulla sanità.

Il lavoro è partito da una base di dati ministeriale assai ampia di indicatori di efficacia delle cure di tutte le ASL italiane su base decennale. Come prima cosa abbiamo cercato di capire il significato delle diverse colonne dei dataset e il razionale, un documento PDF che spiegava in dettaglio ciascun indicatore di efficacia per patologia. Vista la grandezza della base di dati abbiamo quindi dovuto scegliere di concentrarci su una patologia in particolare in modo da potere riuscire ad avere un lavoro più possibile completo a fine giornata. Abbiamo scelto di focalizzare l'attenzione sul diabete e sull'indicatore fissato per valutare l'efficacia delle cure, il numero di amputazioni agli arti inferiori. Il gruppo ha lavorato dunque alla pulizia dei dataset coinvolti, all'aggiunta di dati di controllo, alla scelta della dimensione di aggregazione ottimale, all'analisi statistica di base per individuare medie e varianze. Alla fine tutto messo su una mappa ed ecco il risultato (ci stiamo ancora lavorando però!) : http://www.dataninja.it/diabete-amputazioni-evitabili-litalia-peggiora/

Takeaway
Cosa porto con me dopo questo secondo raduno? La conferma di avere incontrato persone con le quali condivido gran parte degli intenti , dell'impegno che stanno alla base della filosofia open data; persone di estrazione e cultura diversa la cui eterogeneità costituisce una ricchezza notevole sia perchè dall'incrocio di competenze si estrae maggiore conoscenza , sia perchè gli ambiti di competenza diversi permettono di creare una rete più aperta al cambiamento e all'ingresso di nuove persone.
In ultimo, mi porto via il diploma che appenderò con riconoscenza in bella vista ;) .

0 commenti:

Posta un commento