Rivista "IBC" XXI, 2013, 3
biblioteche e archivi / convegni e seminari, media, progetti e realizzazioni
Nel luglio 2013 si è svolto a Montréal il terzo summit annuale di "LODLAM - Linked open data in libraries archives and museums", una sorta di vasto gruppo internazionale di interesse che raccoglie un numero sempre crescente di appassionati di linked open data(LOD), imprese e istituzioni intorno al tema del web of data quale strumento per la messa in rete di informazioni sul patrimonio culturale (summit2013.lodlam.net). I "dati culturali" sono infatti tra i campi di sperimentazione più vitali nell'ambito della ricerca su queste tematiche. L'Istituto per i beni culturali della Regione Emilia-Romagna (IBC) era tra le istituzioni partecipanti insieme all'Archivio Centrale dello Stato e a regesta.exe.
Il 19 luglio 2013, alla porta di ingresso all'auditorium della Grande Bibliothèque nationale du Québec, era stato affisso un foglio di grandi dimensioni riportante quattro indicazioni di metodo - quasi un galateo - per le due giornate che di lì a poco avrebbero preso avvio: 1)Whenever it starts is the right time ("Qualunque sia l'orario di inizio è quello giusto"); 2)Whoever comes is the right people ("Chiunque venga è la persona giusta"); 3) Whatever happens is the only thing that could have ("Qualsiasi cosa accada è la sola che possa accadere"); 4) When it's over it's over ("Quando è finita è finita").
Whenever it starts is the right time
Fin dal primo momento è balzato agli occhi quanto l'organizzazione e la gestione dell'evento fossero studiatamente scarse e per nulla istituzionalizzate. La definizione del programma delle due giornate di dibattito e delle tematiche proposte per i gruppi di lavoro era affidata totalmente ai partecipanti, forse preparati a questa metodologia di lavoro dall'esperienza degli anni precedenti. All'inizio di ogni giornata, in un'ora di brainstorming organizzato, i temi di discussione erano proposti da singoli o gruppi di interesse alla platea dei partecipanti, e venivano collocati all'interno di una griglia predefinita di fasce orarie e spazi disponibili.
L'estemporaneità di buona parte delle proposte era ovviamente supportata da una lunga familiarità con i temi del summit da parte dei partecipanti e dalla costruzione di una comunità virtuale negli altri incontri annuali e nei mesi precedenti all'appuntamento canadese. Unico punto fermo del programma, nel tardo pomeriggio della prima giornata, la presentazione e competizione tra alcuni progetti di estrazione e pubblicazione di linked open data su archivi, biblioteche e musei.
Whoever comes is the right people
Caratteristica evidente dei circa 200 partecipanti all'incontro di quest'anno era l'appartenenza a esperienze e contesti professionali diversificati, sebbene con una certa prevalenza di ricercatori universitari (soprattutto con formazione tecnico-informatica o bibliotecaria), di provenienza nordamericana e nordeuropea (per la maggior parte anglofoni) e avvezzi a trattare banche dati di imponenti dimensioni con mezzi tecnologici e risorse umane e finanziarie considerevoli. Erano tuttavia presenti anche esperienze "di nicchia" con approcci a queste tematiche più spiccatamente settoriali o sperimentali, come il progetto "Reload", ammesso nel dicembre 2012 a partecipare alla competizione prevista durante l'edizione 2013 del "LODLAM Summit".
"Reload - Repository for linked open archival data" è un progetto di sperimentazione avviato all'inizio del 2012 dall'Archivio Centrale dello Stato, dall'IBC e da regesta.exe, con lo scopo di verificare la fattibilità di una rete di dati archivistici pubblicati in formato LOD e di approfondire le potenzialità che derivano dall'integrazione di dati conformi ai medesimi standard internazionali, ma provenienti da basi dati e contesti descrittivi diversi.1
A prescindere dall'espediente della challenge tra progetti, il confronto tra esperienze tanto distanti per impostazione e contesti di sperimentazione, è stato una buona occasione per verificare la correttezza del percorso intrapreso e delle scelte metodologiche attuate, nonché i punti di forza e debolezza dei primi risultati ottenuti.
Whatever happens is the only thing that could have
La terza indicazione di metodo si è fatta esperienza concreta nei workshop (una trentina in tutto) focalizzati sulle criticità tecniche e concettuali generalmente sollevate dalla sperimentazione sui LOD culturali o su una più dettagliata disamina di alcuni specifici progetti.
Il dibattito sul web of data sembra prestarsi facilmente ad approcci molto diversificati, contraddittori o complementari: se talvolta dà vita a esperienze di forte formalizzazione dei dati pubblicati, tramite l'elaborazione di ontologie complesse, saldamente ancorate alla specificità e scientificità delle banche dati fonti di quelle informazioni, talaltra sceglie di ignorare quasi totalmente la formalizzazione di ontologie e si focalizza sulle interazioni possibili tra i dati e sull'immediatezza della loro fruizione; talaltra ancora, esplora la possibilità di elaborare software per una produzione semplificata di LOD. Allo stadio attuale è la proposta di approcci tanto distanti (whatever happens) a rappresentare forse l'aspetto più interessante del dibattito sul web of data culturale.
A Montréal abbiamo assistito alla presentazione di "Pundit", il software open source vincitore della competizione, prodotto dall'italiana Net7, che a un utente senza particolari competenze tecnologiche consentirà di annotare semanticamente una qualunque pagina html, producendo le relative triple e realizzando, potenzialmente, nuovi strumenti di indicizzazione partecipata del web (www.thepund.it).
Tra i partecipanti era presente inoltre il progetto "LinkedJazz", che, ampliando il dataset proposto da DBpedia per la descrizione delle persone, ha prodotto uno specifico authority file dei maggiori artisti jazz arricchendo il dato rdf di partenza ed esplorando le potenzialità di un confronto tra LOD generici e LOD di settore (linkedjazz.org).2
Ha riscosso grande interesse anche "Mis Museos" (della softwarehouse spagnola Gnoss), un portale dedicato alla fruizione integrata di dati catalografici, biografie degli autori, descrizione degli stili e delle correnti artistiche, informazioni su orari di apertura e servizi di gallerie d'arte e musei nazionali spagnoli. Il progetto, basato su un approccio empirico ai LOD, prevede: la raccolta massiva di informazioni pubblicate in formato aperto (non necessariamente linked) da una selezione ampia e variabile di banche dati culturali, istituzionali e non; la rielaborazione di tali dati "grezzi" sulla base di un'ontologia proprietaria molto sintetica e leggera (priva di relazioni con norme catalografiche od ontologie specifiche di settore); la pubblicazione di un "museo virtuale" vistosamente orientato alla gradevolezza e semplicità della fruizione e destinato principalmente a un utente non esperto o occasionale (mismuseos.net/comunidad/museos).
Anche il progetto "Reload" ha suscitato molte richieste di informazioni e spunti di riflessione sull'aspetto forse più peculiare del progetto stesso: l'elaborazione di ontologie integrate per la pubblicazione di LOD e per l'interoperabilità tra sistemi informativi archivistici. Muovendo da un contesto descrittivo formalizzato sulla base di standard archivistici internazionali, il team del progetto ha realizzato tre ontologie specifiche per soggetti produttori, complessi archivistici e soggetti conservatori, tra loro connesse.3
Tale sperimentazione costituisce una tappa del percorso di ricerca sulle tecnologie del web semantico e dei linked open data avviato dall'IBC fin dal 2010 con l'elaborazione dell'ontologia per i soggetti produttori sviluppata con regesta.exe ("EAC-CPF Ontology"), e si situa nell'ambito delle attività svolte dalla Regione Emilia-Romagna per incentivare la pubblicazione in formati aperti dei dati pubblici prodotti e detenuti dall'amministrazione regionale (non ultima l'approvazione delle "Linee guida relative al riutilizzo e messa a disposizione in open data dei dati pubblici dell'amministrazione regionale").4
Nel corso del 2012 è stata progettata e testata un'ontologia per la descrizione dei complessi archivistici ("OAD - Ontology for Archival Description") che, dall'analisi dei dati e dei metadati presenti in uno strumento di descrizione informatizzato, ha enucleato le entità e le proprietà necessarie a coprire l'intero portato informativo di tali risorse e le ha correlate a un'apposita ontologia in formato SKOS (Simple Knowledge Organisation System) dello standard ISAD(G) (International Standard for Archival Description General), utilizzato come modello concettuale di riferimento.
Nel corso del 2013, inoltre, è stata realizzata "OCSA - Ontology of Cultural Organizations' Services and Access", un'ontologia nata per estendere l'utilizzo dell'ontologia "EAC-CPF" ai soggetti conservatori, che consente la descrizione dei servizi offerti ai loro utenti. È stata successivamente avviata la sperimentazione sull'estrazione in formato RDF delle descrizioni dei soggetti conservatori d'archivi storici raccolte ogni anno dall'IBC attraverso "CAStE-R - Censimento degli archivi storici di ente locale dell'Emilia-Romagna".
When it's over it's over
Allo scoccare dell'ora X del 20 luglio 2013, il "LODLAM Summit" canadese si è concluso con un giro di microfono tra i partecipanti, una carrellata di parole chiave sull'esperienza e un applauso finale autocelebrativo. Ciò che non si è chiuso affatto è il lavoro sui "nostri" LOD. Restano, infatti, ancora numerose azioni da compiere, sia dal punto di vista tecnico-scientifico (validazione dei dati estratti, riutilizzo ed estensione delle ontologie ad altri ambiti descrittivi, confronto con altre ontologie in corso di elaborazione), sia dal punto di vista istituzionale (licenze di utilizzo, liberatoria da parte degli altri soggetti coinvolti): l'obiettivo è trasformare quello che è stato un progetto di sperimentazione in un'attività sistematica di pubblicazione in formato aperto dei dati prodotti e/o raccolti dalle istituzioni coinvolte, sia nel progetto "Reload", sia nelle future fasi di lavoro che da esso prenderanno avvio.
Note
(1) Sul progetto "Reload" si vedano: F. Ricci, Prove tecniche di web semantico, "IBC", XX, 2012, 3, pp. 12-14; labs.regesta.com/progettoReload/.
(2) Il progetto "Pundit" è diretto da Cristina Patuelli (Pratt Institute School of Library Information Science, New York).
(3) Il team del progetto "Reload" è composto da: Agostino Attanasio e Chiara Veninata per l'Archivio Centrale dello Stato; Brunella Argelli, Mirella Plazzi e Francesca Ricci per l'IBC - Soprintendenza per i beni librari e documentari della Regione Emilia-Romagna; Ilaria Barbanti, Giovanni Bruno e Silvia Mazzini per regesta.exe.
(4) Regione Emilia-Romagna, Delibera della Giunta Regionale numero 2080 del 28 dicembre 2012.
Azioni sul documento