Rivista "IBC" XX, 2012, 3

biblioteche e archivi / convegni e seminari, linguaggi, media, progetti e realizzazioni

La sperimentazione sui linked open data nel sistema informativo regionale IBC Archivi sta dando i suoi primi risultati.
Prove tecniche di web semantico

Francesca Ricci
[IBC]

In occasione del corso estivo "Archivos y gestión de documentos ante la web semántica", organizzato dall'Università spagnola di Saragozza dal 16 al 18 luglio 2012, l'Istituto per i beni culturali della Regione Emilia-Romagna (IBC) è stato invitato a presentare gli esiti di una sperimentazione condotta sull'utilizzo dei linked open datain ambito archivistico. Questo articolo descrive le diverse fasi del progetto e i suoi primi esiti.


L'applicazione degli standard descrittivi e l'utilizzo del web come strumenti per rappresentare, veicolare, contestualizzare e integrare le descrizioni di risorse archivistiche, sono esperienze sempre più consolidate anche in Italia. Gli interventi di inventariazione e descrizione producono frequentemente guide e inventari elettronici, spesso consultabili on line e fruibili tramite ricerche testuali e navigazione nella struttura e, anche se più raramente, tramite l'accesso ai dati codificati in formati standard quali EAD o EAC-CPF.1

Alla diffusione e diversificazione delle modalità di valorizzazione sul web, si è infatti accompagnato lo sviluppo di standard di varia natura: standard internazionali specializzati per la codifica delle diverse risorse, standard per l'interoperabilità e la condivisione dei dati, e "metastandard" nazionali e internazionali finalizzati al dialogo tra sistemi informativi diversi. È sempre più diffuso, inoltre, l'utilizzo di link come mezzo per collegare le descrizioni archivistiche sul web a informazioni "altre", al fine di ampliare l'offerta informativa rivolta agli utenti che accedono agli strumenti di ricerca on line.

Anche l'esperienza di IBC Archivi, il sistema informativo partecipato degli Archivi storici in Emilia-Romagna, si è sviluppata attraverso l'applicazione degli standard internazionali e l'utilizzo dei diversi formati di codifica XML.2

Il graduale passaggio dal web 2.0 al web semantico, a cui stiamo assistendo, è orientato alla produzione di contenuti per il web in grado di supportare la condivisione, la valorizzazione e la gestione delle informazioni archivistiche e delle relazioni tra queste intercorse (o intercorribili). Linked open data (LOD), web semantico e Resource Description Framework (RDF) sono le componenti tecnologiche su cui si fonda questo cambiamento, ma non sono sufficienti a realizzarlo.3 È necessario che chi produce e pubblica dati sul web segua nuove strategie, utilizzando queste tecnologie non solo come strumento per la produzione condivisa di contenuti (con gli strumenti partecipativi del web 2.0) o come mezzo di rappresentazione delle entità e delle relazioni tra le varie "componenti" della descrizione (per esempio tramite le ontologie), ma soprattutto come metodo adeguato a qualificare semanticamente i dati e le loro relazioni, aprendone i contenuti informativi all'uso di una comunità più vasta e diversificata e realizzando una vera e propria rete semantica aperta.

È in questo contesto descrittivo e tecnologico che si è andata profilando la scelta di avviare una sperimentazione sulla pubblicazione di linked open data archivistici estratti dalle basi dati prodotte attraverso gli interventi di riordino e inventariazione realizzati dall'IBC sul territorio emiliano-romagnolo. A fronte dei diversi possibili campi di applicazione, si è scelto di focalizzare la prima sperimentazione sulle descrizioni dei soggetti produttori d'archivio, riconoscendo in essi le "entità" archivistiche più significative per una sperimentazione di linked open archival data.

Già il capitolo sesto di ISAAR(CPF), infatti, aveva individuato nella descrizione di tali soggetti (e con essi dei contesti di produzione della documentazione) non solo una chiave primaria di accesso alla documentazione archivistica, ma anche un tramite privilegiato per mettere in relazione le risorse archivistiche con tutte le risorse informative raccolte, prodotte, descritte o pubblicate dai medesimi soggetti o contesti. Inoltre, nella prima metà del 2010, in seguito alla pubblicazione della versione definitiva dello standard EAC-CPF, con la collaborazione di Regesta.exe era stata realizzata sulla piattaforma IBC-xDams una nuova scheda per la descrizione informatizzata dei soggetti produttori d'archivio puntualmente conforme allo standard ISAAR(CPF) e al nuovo formato.4

Obiettivo di EAC-CPF, così come dell'affine EAD dedicato alla codifica di strumenti di corredo archivistici, è infatti favorire l'interoperabilità tra sistemi informativi archivistici diversi, indipendentemente dai supporti hardware e software utilizzati. La prima sperimentazione avviata, pertanto, muovendo dalle schede descrittive prodotte sulla piattaforma IBC-xDams nel nuovo formato EAC-CPF (o migrate in esso dal precedente standard EAC), si è data come obiettivo la realizzazione di un'ontologia dello standard EAC-CPF e di un'ontologia della scheda descrittiva conforme allo standard, finalizzate alla pubblicazione in formato linked open data (LOD) di tali descrizioni.


Questa fase ha preso avvio con la realizzazione di un'ontologia per EAC-CPF espressa in Ontology Web Language (OWL), atta a fornire una nuova rappresentazione dello standard sotto forma di grafo, uno strumento alternativo di navigazione nella struttura dello standard, che ne mostrasse le relazioni e puntasse alle specifiche della tag library ufficiale e al diagram dello schema XML, per le specifiche tecniche di ciascun elemento. La struttura dello standard, abbastanza semplice e articolata in un numero limitato di elementi (90) e attributi (30), ha favorito il buon esito dell'elaborazione.5

Questo primo passo, benché molto utile come primo approccio al problema e come interessante strumento di studio e conoscenza dello standard, non è stato tuttavia sufficiente ad "aprire" al mondo dei LOD le schede dei record di autorità codificati. È stato pertanto necessario realizzare una seconda ontologia, orientata alla rappresentazione in formato RDF delle schede descrittive dei soggetti produttori pubblicate in IBC Archivi.

Come accennato, da molti anni l'IBC sperimenta e promuove l'utilizzo degli standard internazionali di descrizione archivistica e dei sistemi di codifica, per descrivere soggetti conservatori d'archivio, archivi storici e soggetti produttori presenti sul territorio regionale. Attualmente IBC Archivi pubblica le descrizioni di circa 400 soggetti conservatori d'archivio e 2.400 archivi storici, nonché circa 300 inventari informatizzati corredati di altrettante schede descrittive di soggetti produttori. Anche grazie alla diffusione di queste descrizioni sul territorio è parso possibile immaginare una rete in grado di mostrare, in modo dinamico e articolato, risorse afferenti gli archivi (e non solo) tra loro collegate (o collegabili).

Le schede dei soggetti produttori d'archivio, pertanto, hanno costituito il test bed del progetto e, in particolare, la prima sperimentazione è stata realizzata sui soggetti produttori delle "Carte Andrea Costa" (conservate presso l'Archivio storico del Comune di Imola) descritte in IBC Archivi.6 Tali record si sono prestati a essere scelti come caso di studio perché presentano una descrizione abbastanza analitica e numerose relazioni tra loro e con altri soggetti, nonché con diverse tipologie di risorse presenti in IBC Archivi e in altri sistemi informativi locali, nazionali e di ambiti contermini (bibliografici, museali, storiografici e culturali in genere).

Nella definizione di questa seconda ontologia,7 i metadati descrittivi più comuni (nomi, date, luoghi) sono stati duplicati utilizzando proprietà RDF di altri vocabolari già esistenti e diffusi, come Skos (Simple Knowledge Organization System),8 Foaf (Friend of a Friend),9 DC (Dublin Core),10 per favorire la naturale interoperabilità con risorse afferenti allo stesso dominio o a domini esterni; inoltre, per agevolare il collegamento con risorse non archivistiche, si è scelto di includere, per quanto possibile, porzioni di altri dataset internazionali, quali Bio (Bio-graphical ontology),11 Viaf (The Virtual International Authority File),12 Gn (Geo-Names),13 e DBpedia. Così facendo, per esempio, i dati descrittivi dei soggetti produttori sono stati messi in relazione ai dati pubblicati tramite l'ontologia Geo-Names.

I risultati di questo test bed e tutti i materiali prodotti nel corso della sperimentazione possono essere consultati nel "Semantic Environment for IBC Archivi Authority Records".14

L'esperienza condotta sulle due ontologie e la sperimentazione sui soggetti produttori delle "Carte Andrea Costa" hanno confermato la scelta dei record di autorità come "primi" dati archivistici da "aprire", in quanto intrinsecamente, e per la loro stessa natura, potenziali punti di connessione tra risorse. I risultati di quel primo test bed sono stati presentati durante l'"International Workshop on Semantic Digital Archives", tenutosi a Berlino il 29 settembre 2011 in occasione della quindicesima "International Conference on Theory and Practice of Digital Libraries (TPDL)".15

Al termine di questa fase, nel corso del 2012 è stato avviato un nuovo progetto con l'obiettivo di applicare le metodologie del semantic web e gli standard per i linked open data su altre entità tipiche della descrizione archivistica: complessi archivistici e soggetti conservatori. Questo progetto, "ReLoad - Repository for linked open archival data", realizzato dall'Archivio centrale dello Stato, dall'IBC e da Regesta.exe, si propone di verificare la fattibilità di una "rete di dati archivistici collegati" (tra cui i soggetti produttori stessi), di essere un punto di raccolta e accesso a risorse archivistiche distribuite, pubblicate in formato LOD, e di approfondire le potenzialità che derivano dall'integrazione di dati archivistici provenienti da basi dati e contesti descrittivi diversi.16

Attività preliminare per la realizzazione del progetto è stata la definizione di un'Ontology for Archival Description (OAD), un'ontologia per la descrizione dei complessi archivistici, espressa in Ontology Web Language (OWL). Muovendo da un'analisi dei dati e dei metadati tipicamente presenti in uno strumento di descrizione archivistica, sono state individuate le entità da trattare come "risorse" e cui assegnare un Uniform Resource Identifier (le classi dell'ontologia) e i dati da considerare come proprietà di una determinata risorsa.

Attraverso i meccanismi formali forniti dagli standard RDF e OWL, inoltre, è stato possibile correlare le classi e le proprietà individuate nell'OAD a un'apposita ontologia in formato Simple Knowledge Organisation System(SKOS) dello standard ISAD(G), utilizzato come modello concettuale di riferimento. Sono stati infine analizzati e rappresentati in formato SKOS diversi titolari utilizzati per la classificazione della documentazione descritta negli inventari, tra cui il titolario della Direzione generale dell'Agricoltura, il titolario in uso dal 1960 presso la Provincia di Piacenza e il titolario Astengo (utilizzato per la classificazione del carteggio amministrativo dei Comuni) comprensivo di alcune sue varianti.

I primi dati elaborati per il progetto "ReLoad" sono stati estratti da alcuni inventari analitici realizzati in tempi e modi differenti (sebbene con caratteristiche simili per struttura e composizione) dall'Archivio centrale dello Stato e dall'IBC. Non sono state ancora avviate l'analisi propedeutica e la realizzazione di un'ontologia specifica per la pubblicazione di linked open data relativi ai soggetti conservatori d'archivio.

Resta infatti ancora molto da fare, sia dal punto di vista tecnico-scientifico che dal punto di vista istituzionale (licenze di utilizzo, liberatoria da parte degli altri soggetti coinvolti, eccetera), tuttavia la diversa provenienza dei dati presi in considerazione ha offerto uno stimolante punto di partenza per il lavoro in corso, e i primi esiti del progetto consentiranno di valutare a pieno le potenzialità offerte dall'elaborazione di dati archivistici in formato RDF e di progettare i futuri interventi di descrizione, codifica, valorizzazione e fruizione delle descrizioni archivistiche con nuove prospettive.


Note

(1) L'Encoded Archival Description (EAD) e l'Encoded Archival Context - Corporate bodies, Persons, and Families (EAC-CPF) sono document type definitions (DTD) per la marcatura in formato eXtensible Markup Language (XML) di record d'autorità archivistici conformi a ISAD(G), l'International Standard for Archival Description (General), e a ISAAR(CPF), l'International Standard Archival Authority Record For Corporate Bodies, Persons and Families. Si vedano in proposito: www.loc.gov/ead/; eac.staatsbibliothek-berlin.de/ (questi link, come tutti quelli citati nell'articolo, sono stati consultati il 30 luglio 2012).

(2) L'EAG (Encoded archival guide) per la codifica delle descrizioni dei soggetti conservatori, l'EAD per i complessi documentari e l'EAC-CPF per la descrizione dei soggetti produttori. Per maggiori informazioni sul sistema informativo IBC Archivi si vedano: B. Argelli, Costruire un sistema regionale in Emilia-Romagna, "IBC", XVII, 2009, 3, pp. 54-55; B. Argelli, Una regione in rete: gli archivi storici dell'Emilia-Romagna e il progetto IBC, "Digitalia", III, 2008, 2, pp. 69-74; nonché le informazioni pubblicate in IBC Archivi: archivi.ibc.regione.emilia-romagna.it.

(3) Per maggiori informazioni su web semantico e linked open data (LOD) si possono consultare il sito ufficiale (linkeddata.org/) o la pagina a essi dedicata in Wikipedia (it.wikipedia.org/wiki/Dati_collegati).

(4) IBC-xDams è una piattaforma web based realizzata per l'IBC - Soprintendenza per i beni librari e documentari della Regione Emilia-Romagna da Regesta.exe (www.regesta.com) per la schedatura archivistica EAD ed EAC-CPF compliant. Nel maggio del 2008 l'IBC ha ospitato i lavori del EAC-CPF Working Group in occasione del convegno "Standard e formati di scambio per l'interoperabilità dei sistemi archivistici". Per iniziativa della Soprintendenza regionale per i beni librari e documentari e della Soprintendenza archivistica per l'Emilia-Romagna verrà pubblicata la traduzione in lingua italiana della tag library dello standard.

(5) L'ontologia è navigabile in: archivi.ibc.regione.emilia-romagna.it/ontology/EAC-CPF/genericEAC/RelationBrowserCIA.html.

(6) Si vedano in proposito: Carte e libri di Andrea Costa, a cura di P. Mita, Imola (Bologna), Biblioteca comunale di Imola - La Mandragora, 2010; nonché: archivi.ibc.regione.emilia-romagna.it/ead-str/IT-ER-IBC-AS00209-0004118.

(7) L'ontologia è visibile in: archivi.ibc.regione.emilia-romagna.it/ontology/EAC-CPF/eac-cpf.rdf.

(8) www.w3.org/2004/02/skos/core.

(9) xmlns.com/foaf/0.1/.

(10) purl.org/dc/elements/1.1/ e http://purl.org/dc/terms.

(11) purl.org/vocab/bio/0.1/.

(12) viaf.org/ontology/1.1/.

(13) http://www.geonames.org/ontology.

(14) archivi.ibc.regione.emilia-romagna.it/ontology/semanticEnvironment/index.html.

(15) sda2011.dke-research.de/.

(16) Il progetto "ReLoad" è stato presentato il 26 giugno 2012 presso l'Archivio centrale dello Stato; per consultare i materiali: www.regesta.com/wp-content/uploads/allegati/Reload_dossier.pdf.

Azioni sul documento

Elenco delle riviste

    Istituto per i beni artistici culturali e naturali della Regione Emilia-Romagna - Cod. fiscale 800 812 90 373

    Via Galliera 21, 40121 Bologna - tel. +39 051 527 66 00 - fax +39 051 232 599 - direzioneibc@postacert.regione.emilia-romagna.it

    Informativa utilizzo dei cookie

    Regione Emilia-Romagna (CF 800.625.903.79) - Viale Aldo Moro 52, 40127 Bologna - Centralino: 051.5271
    Ufficio Relazioni con il Pubblico: Numero Verde URP: 800 66.22.00, urp@regione.emilia-romagna.it, urp@postacert.regione.emilia-romagna.it