Rivista "IBC" XVII, 2009, 3
Dossier: Gli archivi fanno sistema
biblioteche e archivi, dossier /
L'accesso alle risorse archivistiche attraverso il web
Non vi è oggi a chi sfugga che la migrazione al digitale non è un processo neutro né indolore.1 L'orizzonte della rete, entro cui un progetto di digitalizzazione si inserisce, rimanda l'immagine di un cantiere fortemente dinamico, attraversato da continui e caotici flussi di novità, da successi improvvisi e da altrettanto repentini abbandoni, da una prodigiosa produzione di "rifiuti informatici"; ma complessivamente questi impulsi innovativi attraversano le discipline e le pratiche operative, le modificano profondamente e in modo duraturo, cambiano i profili e gli obiettivi professionali.
È opinione largamente diffusa che le innovazioni introdotte dalle tecnologie digitali rappresentino "il nodo cruciale delle profonde trasformazioni che investono il lavoro degli archivisti";2 esse appaiono "una ineliminabile costante [...] sempre presente sullo sfondo", una condizione di fatto, indiscutibile.3 Non è questa, naturalmente, la sede per iniziare a delineare un profilo dello scenario che si va componendo. Qui è possibile solo provare a rendere esplicite le principali evidenze dalle quali parte il progetto dell'IBC, anche sulla base delle sollecitazioni proposte dalla letteratura più recente sul tema: l'emersione di un nuovo pubblico; l'esplosione documentale sostenuta dalle enormi potenzialità di accumulazione, conservazione, manipolazione e trasmissione di dati offerte dalle nuove tecnologie; l'affermazione di strumenti e modalità di accesso alle informazioni non strutturate attraverso la rete.
L'accento cade, preferibilmente, sui meccanismi di comunicazione e di trasmissione delle informazioni. In buona sostanza, la realtà delle trasformazioni in atto richiede un profondo rinnovamento del rapporto dell'utente con le tecnologie, nella duplice veste di committente e di utente finale. La qualità dei risultati dipende sempre meno dall'efficienza di una specifica suite software, quanto piuttosto dalla qualità dei contenuti e dal modo di organizzarli, dall'autorevolezza della fonte informativa e dalla specifica soluzione applicativa. E, infine, dalla capacità di questa soluzione di integrarsi con gli altri prodotti e servizi destinati a supportare le diverse mansioni che quel soggetto (persona o istituzione che sia) deve svolgere per realizzare la propria attività. In fin dei conti, un software vale un altro (una piattaforma per realizzare un blog ha oggi un valore commerciale decisamente ridotto, se non nullo), mentre cresce il valore delle competenze di dominio in esso incorporate.
Le conseguenze che discendono da un tale approccio incidono su diversi piani progettuali. In considerazione della crescita costante delle spese destinate a progetti di digitalizzazione e di adozione di nuove tecnologie nel mondo degli archivi, l'investimento in tecnologia, per definizione "volatile", cambia natura: non è più una spesa eccezionale ma diventa una "spesa corrente", che richiede risorse aggiuntive non solo tecnologiche per la sua continua gestione e alimentazione. Queste condizioni inducono a superare una visione puramente strumentale dell'informatica: trattare gli oggetti "analogici" (archivi, biblioteche) in modo tradizionale con strumenti elettronici. Se con l'informatica non si risparmia (anche considerando i "costi umani" che questa transizione comporta), allora non serve investire risorse per fare cose che possono essere fatte altrettanto bene con minori spese in altro modo; la risposta alla sfida che la migrazione digitale propone sta tutta nella capacità di immaginare contenuti e strumenti nuovi per svolgere mestieri e pratiche antichi.
A partire da queste considerazioni sono state disegnate le linee guida generali della piattaforma tecnologica realizzata dall'IBC, che si presenta come un'infrastruttura che abilita una pluralità di servizi a supporto delle diverse funzioni che essa è chiamata a svolgere: strumento di lavoro per gli archivisti, canale di pubblicazione specializzato dei contenuti digitali, hub di accesso alle risorse decentrate. Non si tratta, programmaticamente, di un sistema unitario, ma piuttosto di una composizione di autonome sezioni applicative finalizzate a specifiche funzioni operative; una pluralità di "strati software" lungo i quali convivono scelte tecnologiche anche diverse, individuate in base agli obiettivi da perseguire.
L'infrastruttura tecnologica
Nella concreta pratica realizzativa non si è proceduto allo sviluppo di singoli moduli applicativi omogenei entro un quadro generale predeterminato. Ma ci si è mossi seguendo un "processo progettuale" strutturato in una successione di fasi sovrapposte, il cui calendario è dettato dai diversi tempi di maturazione delle esigenze e dei requisiti funzionali, dalle condizioni ideative, dalle disponibilità di risorse e di complessi informativi da includere. Questo metodo di lavoro, forse poco "ortodosso", si è mostrato particolarmente proficuo, in quanto ha consentito un confronto continuo e non formale tra approcci e competenze diversi per l'identificazione e la definizione delle specifiche progettuali. E ha determinato un andamento non lineare, segnato da scarti successivi, da frequenti "rilanci" dei diversi soggetti coinvolti nel progetto attuativo, da sollecitazioni altrettanto frequenti provenienti sia dall'interno del gruppo di lavoro che dall'esterno, dal monitoraggio costante delle soluzioni realizzate in contesti affini (di cui in questo dossier abbiamo una significativa rassegna), così come in ambiti tutt'affatto differenti.
La configurazione maturata al momento di scrivere queste note è sicuramente differente dal programma impostato all'inizio: una differenza non "drammatica" certo, piuttosto indotta da progressivi riadattamenti e riallineamenti. Proprio questa permeabilità metodologica rappresenta, così, il motore principale dello sviluppo funzionale, secondo un modello vicino alle recenti tecniche di mash-up, attraverso cui si alimentano di contenuti "disomogenei" i blog e i social networks.
Da un punto di vista tecnologico l'elemento unificante dell'intera infrastruttura realizzata è rappresentato da un comune repository XML, nel quale confluiscono basi dati di diversa struttura e di diversa provenienza. Innanzitutto, le informazioni provenienti dalle procedure di censimento degli archivi storici della regione (CAStE-R), stratificatesi negli anni in un sistema informatico complesso. In secondo luogo, gli inventari archivistici prodotti nel corso di un'attività più che ventennale con strumenti diversi: nella maggior parte con le varie versioni del software archivistico Sesamo, ma per porzioni minori con soluzioni diverse e anche con semplici strumenti di office automation.
Infine, è stato necessario predisporre modalità di alimentazione per i lavori in corso e per quelli che si sarebbero avviati in futuro, prevedendo che quella variabilità di soluzioni scelte a livello locale non dovesse essere soffocata dall'imposizione coatta degli strumenti da usare per partecipare al network, e che quella variabilità fosse essa stessa una ricchezza, in quanto meglio in grado di rappresentare e interpretare la diversità delle realtà territoriali, le specifiche condizioni operative, la varietà delle modalità e degli obiettivi degli interventi e delle conoscenze già sedimentate.
L'unificazione di questa molteplice base documentale è stata facilitata dalla sua "traduzione" in singole unità informative autonome, codificate in XML. La necessità di disporre di informazioni omogenee è garantita dalla predisposizione di specifici "profili applicativi", coerenti con gli standard di dominio (ISDIAH per i soggetti conservatori, ISAD(G) per la descrizione degli archivi e degli strumenti inventariali, ISAAR(CPF) per i soggetti produttori), ma sufficientemente analitici e flessibili per accogliere la varietà dei dati di partenza senza perdere informazioni. Per la codifica di questi dati sono stati usati modelli pubblici esistenti, anche se non ancora giunti a un completo grado di maturazione, come nel caso di EAC (Encoded Archival Context), di cui è attualmente disponibile il draft della versione 2009 (eac.staatsbibliothek-berlin.de). Anche per EAD (Encoded Archival Description), sicuramente l'XMLSchema di codifica più stabile e utilizzato in ambito archivistico, è stato necessario un processo di adattamento alla realtà archivistica italiana e di specificazione formale delle scelte di utilizzo, a causa delle maglie troppo larghe che lo contraddistinguono.4
Come si è detto in precedenza, su questo repository XML insistono una pluralità di strati software: il database XML nativo è gestito dal server Extraway, che svolge anche la funzione di motore di indicizzazione; xDams è la piattaforma applicativa che si occupa di gestire l'interfaccia utente, di costruire e validare i record XML e di offrire tutte le funzioni di gestione e accesso agli archivi; specifiche applicazioni di pubblicazione e consultazione, supportate da uno strato di colloquio composto da classi Java e Web Service, sono realizzate ricorrendo anche a tecnologie diverse come Lucene. L'intera soluzione è sviluppata in Java, utilizzabile sia in ambiente Windows che Linux, e si appoggia su un'infrastruttura software open source, composta da Apache http Server e JBoss Application Server.5
La condivisione dei dati
Is Google Making us Stupid?, si chiede sul numero di luglio-agosto 2008 di "The Atlantic" Nicholas Carr, notando come l'affermazione della rete come medium universale (a un tempo, radio, TV, orologio, giornale, telefono...) incide su tutto l'ambiente circostante e, riducendo lo spazio personale del "deep reading", anche sul modo di pensare: "It is our own intelligence that flattens into artificial intelligence".6 Può darsi che Carr dipinga uno scenario a tinte eccessivamente fosche, ma è indubbio che la migrazione digitale sta innanzitutto cambiando strumenti e finalità della mediazione culturale. "Le livre en tant qu'objet ne risque guère de disparaître dans un avenir prévisible", ci rassicura lo storico delle religioni Milad Doueihi: "Mais il est clair aussi qu'il n'est plus le premier ni le seul objet adapté à la production du savoir, à son échange et à sa transmission".7
Al di là delle parole d'ordine che dominano le analisi dell'attuale panorama dello sviluppo di Internet (blog e web 2.0, social network, web semantico) appare sempre più evidente che l'indicatore principale dei cambiamenti in corso, forse il carburante stesso di questo cambiamento, risieda su due dinamiche tecnologiche e produttive convergenti: da un lato crescono in misura esponenziale i contenuti fruibili sul web nelle modalità più diverse (broadcast, push, on demand, peer to peer) e sui più diversi devices; da un altro, si spostano sulla rete molte funzioni operative: il browser diventa uno strumento di lavoro che sostituisce la scrivania del proprio personal computer, la rete amplia le capacità di memorizzazione e di calcolo del nostro hard disk e del nostro processore. Si tratta di processi che muovono interessi rilevanti: si pensi all'industria dell'intrattenimento, dalla musica al cinema e alla televisione, e a quella connessa della pubblicità. Processi ormai irreversibili, in grado di incidere sui processi produttivi così come sulla vita di ogni giorno, come la virtualizzazione dell'intermediazione finanziaria e delle stesse pratiche bancarie sta determinando nelle nostre abitudini di utenti.
Ma in misura ancora più incisiva cambiano i modelli di organizzazione del lavoro, con l'accelerazione continua di contenuti disponibili in libero accesso, che con una certa enfasi è stato definito "the OA Tsunami".8 Nel 2007 il "New York Times" chiude la non felice esperienza di e-commerce della sua edizione on-line e decide di dare accesso gratuito ai propri contenuti, mentre anche in Italia si aprono gli archivi dei grandi quotidiani nazionali. La competizione sul mercato Internet sembra progressivamente concentrarsi intorno al paradigma radicale del "costo zero". "Free worked, and worked brilliantly", ha scritto di recente Chris Anderson.9 La capacità di raggiungere, attraverso la rete, un'utenza altrimenti preclusa e fortemente segmentata, "crea" occasioni di mercato delle risorse digitali: con il loro riutilizzo per la produzione di nuovi contenuti e prodotti; con l'erogazione di servizi "reali" a valore aggiunto; con la pubblicità, infine. È la ragione del successo commerciale dei grandi progetti di free software, da Linux a Google, la strada imboccata dall'industria della musica e dei videogame, il modello di funzionamento del mercato dell'informazione.
Per aprire le proprie risorse digitali a questo mercato non è però possibile limitarsi alla semplice pubblicazione dei contenuti: "Search and access over a set of resources, while important to any digital library, are not sufficient".10 La visibilità dei dati, interrogabili da agenti esterni attraverso protocolli standard di comunicazione come OAI-PMH, rappresenta uno dei requisiti di partenza del progetto dell'IBC. Con lo sviluppo dei lavori sono però venute maturando due ulteriori esigenze: in primo luogo, rendere la base informativa interamente accessibile ai motori di ricerca, che rappresentano oggi il primo e il principale canale di accesso alle informazioni su Internet (quasi il 90% del traffico del portale IBC Archivi origina da Google); quindi, consentire una completa riutilizzabilità dei dati e delle funzioni di ricerca e navigazione in altri ambienti: attraverso strumenti di integrazione dinamica con la base dati IBC, per mezzo di autonome applicazioni di pubblicazione di singoli inventari, accedendo ai singoli record XML. Mezzo e non fine, quindi: per assicurare non solo l'emersione dei dati gestiti verso aggregatori o portali; ma soprattutto la disponibilità delle singole risorse digitali per iniziative specifiche (editoriali, tematiche, territoriali). E sostenere per questa strada, in particolare, la presenza e la progettualità sul web di quella rete "reale" di conservatori dei patrimoni che alimentano il sistema IBC Archivi.
Note
(1) In questo testo viene usato il concetto di "migrazione" piuttosto che di passaggio al digitale, in quanto incorpora costitutivamente la consapevolezza delle profonde modificazioni che qualsiasi fenomeno migratorio induce, nei soggetti migranti, nei luoghi di partenza e in quelli di arrivo. Allo stesso tempo, si è preferito evitare l'espressione "rivoluzione digitale", che andrebbe invece opportunamente qualificata.
(2) P. Carucci, M. Guercio, Manuale di archivistica, Roma, Carocci, 2008, p. 11 (e pp. 194-198).
(3) L. Giuva, S. Vitali, I. Zanni Rosiello, Il potere degli archivi, Milano, Bruno Mondadori, 2007, pp. VII-VIII (anche p. 92, p. 153).
(4) Si può consultare l'ontologia che descrive l'application profile IBC nella sezione Documentazione del portale IBC Archivi: archivi.ibc.regione.emilia-romagna.it.
(5) Extraway è un marchio registrato di 3D Informatica (www.3di.it); xDams è un marchio registrato di Regesta.exe (www.regesta.com); Java EE è un linguaggio di programmazione sviluppato da Sun Microsystem (java.sun.com); Apache http Server e Lucene sono progetti di Apache Software Foundation (www.apache.org); JBoss Application Server è un progetto sostenuto dalla JBoss Community (www.jboss.org).
(6) Di Carr, oltre l'articolo citato (www.theatlantic.com/doc/200807/google), si vedano anche: The Big Switch. Rewiring the World, from Edison to Google, New York, W. W. Norton, 2008, il suo blog www.roughtype.com e le due voci presenti su Wikipedia (en.wikipedia.org/wiki/Nicholas_G._Carr e en.wikipedia.org/wiki/Is_Google_Making_Us_Stupid%3F), che presentano anche una rassegna del dibattito suscitato dall'articolo di "The Atlantic".
(7) M. Doueihi, La grande conversion numérique, Paris, Édition du Seuil, 2008, p. 230.
(8) P. Sauber, The OA Tsunami, "Open Access News", April 15, 2008 (www.earlham.edu/~peters/fos/2008/04/oa-tsunami.html).
(9) C. Anderson, Free, New York, Hyperion, 2009, p. 2.
(10) C. Lagoze, D. B. Krafft, S. Payette, S. Jesuroga, What Is a Digital Library Anymore, Anyway? Beyond Search and Access in the NSDL, "D-Lib Magazine", november 2005 (www.dlib.org/dlib/november05/lagoze/11lagoze.html).
Azioni sul documento