Collezioni digitali, biblioteche digitali e digitalizzazione dell'informazione dell'eredita' culturale

4 novembre, 2012 - 21:07

Questo saggio si basa sulla trascrizione dei punti fondamentali ampiamente estemporanei del discorso tenuto alla Web Wise 2002 Conference il 20 Marzo 2002 presso la Johns Hopkins University. E’ stato tagliato, ma conserva la caratteristica di un discorso informale piuttosto che di un saggio formale. Ho colto l’opportunità di ampliarlo o chiarire alcuni punti ed ho anche aggiunto poche note e indicazioni ad informazioni ulteriori su alcuni degli argomenti discussi. Sono stati anche inclusi stralci della sezione di domande e risposte che sono state prese come parte della trascrizione, sebbene io abbia avuto il vantaggio di essere in grado di riconsiderare alcune delle mie risposte, mentre coloro che mi hanno posto le domande non hanno avuto tale opportunità; le mie scuse a loro.

E’ un vero piacere essere qui e aprire questa conferenza.

Vorrei dirvi che ho trascorso gli ultimi tre giorni in un paio di incontri che trattavano la digitalizzazione dell’eredità culturale e le relative questioni. Il primo incontro è durato due giorni ed ha assunto una prospettiva internazionale sui programmi e le questioni connesse ai progetti di digitalizzazione su larga scala. E ieri la mia organizzazione, la Coalition for Networked Information, ha tenuto un workshop che esaminava alcune delle più specifiche questioni attinenti gli Stati Uniti, selezionando, dando la priorità, digitalizzando e rendendo disponibile il contenuto dell’eredità culturale [1].

Quindi, gli interrogativi su cui si focalizzerà questa conferenza e a cui desidero indirizzarmi oggi, sono stati tra i miei primi pensieri nei giorni scorsi, e penso che buona parte della discussione a cui ho avuto l’opportunità di partecipare presso quei due incontri è piuttosto rilevante. Ho scelto di utilizzare questo discorso come un modo per inquadrare alcune di queste questioni, che sono centrali per il nostro sviluppo delle collezioni digitali. Ed ho intenzione di attingere abbondantemente alcune idee che sono state in gioco in questi incontri nella mia presentazione questa mattina, quindi, mi sia consentito ringraziare in anticipo tutti i partecipanti, dal momento che sono stati influenzati nel forgiare il mio pensiero.

Una delle cose che mi ha molto colpito è la richiesta crescente e costante di sempre maggiore contenuto digitale. Lo senti da molte parti. Negli stati Uniti, in modo piuttosto interessante, un luogo in cui si è manifestata, in modi piuttosto ironici, nel dibattito sulla banda larga. Non so quanti di voi abbiano seguito gli intrecci della legislazione proposta Tauzin-Dingell (dipende da come la guardate) di deregolamentare o una sorta di ri-regolamentare la banda larga come una conseguenza dell’Atto delle Telecomunicazioni del 1996. Ma ci sono state alcune osservazioni molto, molto interessanti e accuse non accompagnate da prove che mi vengono in mente e lasciatemi condividerne alcune con voi.

Attualmente, c’è una parte sempre più ampia di saggezza convenzionale che sostiene che la banda larga non si sta muovendo abbastanza in fretta negli Stati Uniti e questa è una cosa negativa. E’ una cosa negativa perché la banda larga è intrinsecamente buona per i consumatori e per le piccole aziende per una grande quantità di ragioni, ma è anche negativa perché se avessimo uno spiegamento maggiore della banda larga, le persone dovrebbero comprare nuovi computers, software e servizi di rete e questo aiuterebbe ad allontanare dalla crisi attuale le nostre industrie di tecnologie dell’informazione e delle telecomunicazioni.

L’ho visto suggerito nell’editoriale del Wall Street Journal un paio di settimane fa che una delle ragioni per cui il lungo percorso delle società dei servizi —come la Global Crossing, Williams Communications e simili — non stanno andando bene attualmente e molti di loro stanno andando verso la bancarotta, è perché la domanda non si concretizza abbastanza rapidamente per pagare gli interessi che gravano sul debito e la ragione per cui la domanda non si materializza abbastanza rapidamente, consiste nel fatto che la banda larga per la casa — l’apertura e chiusura infuria sulle spalle delle reti dei trasportatori e gli elementi conduttori della domanda per la capacità della spina dorsale della rete — non gira abbastanza rapidamente. In altre parole, le società dei servizi del lungo percorso sono state le vittime delle politiche che hanno inibito lo spiegamento della banda larga residenziale e delle piccole imprese.

L’altra variazione molto interessante che abbiamo sentito è che il problema non sono propriamente le barriere allo spiegamento e la mancanza di disponibilità dei servizi per i consumatori della banda larga, che una delle ragioni per cui i consumatori non si stanno precipitando per prenotare i servizi della banda larga a grandi quantità e scommettendo sui fornitori di banda larga circa la disponibilità, è perché non ci sono sufficiente contenuto convincente e servizi. In altre parole, è un problema di richiesta, piuttosto che di disponibilità. C’è una certa evidenza a sostegno di ciò; anche dove la banda larga è disponibile e anche considerando fattori come la constatazione che una casa ha bisogno veramente di un computer prima che sia probabile che sia interessata alla connessione a banda larga, i tassi "di ripresa" sono modesti. Sebbene in onestà, nessuno sa quale sarebbe il ragionevole tasso di ripresa a questo punto dell’evoluzione e della caduta della tecnologia e ci sono altri fattori che fungono da deterrenti come il prezzo e la ben nota installazione ed altri problemi associati al servizio al cliente con le offerte della banda larga. Sia come sia, le persone nelle cosiddette industrie di contenuti, più note come industrie della musica (RIAA) e cinematografiche (MPAA) si sono scagliate su ciò e l’hanno utilizzato come giustificazione per i loro impegni in agenda. Hanno affermato che "Oh, sì, bene, la ragione è che non c’è contenuto convincente ed i servizi sono solo quelli che possiamo offrire e non lo faremo perché non disponiamo di diritti digitali di protezione sufficientemente buoni. Se imponessimo ciò che pensiamo, che c’è una protezione sufficiente, penseremmo felicemente almeno di mettere qui la nostra musica ed i nostri films, che noi attualmente distribuiamo su DVD e CD audio, e ogni cosa sarebbe a posto e le persone si affollerebbero intorno alla banda larga".

Ciò che essi intendono con buoni diritti digitali di protezione è qualcosa come l’Holings bill [2], una parte di legislazione così minacciosa e spaventosa che mi indurrebbe tutte le mattine a fare giustizia al danno che compirebbe. Ma questo ci porterebbe molto fuori tema.

Ho molto più di un piccolo dubbio con l’argomentazione dell’industria dei contenuti. Ma, ancora più di avere qualche dubbio su quella argomentazione, la trovo scoraggiante perché implica una visione del futuro digitale della banda larga che è così limitato, così profondamente basato in un’immagine di servizi della banda larga come una estensione diretta del consumo corrente di prodotti di intrattenimento. In qualche modo desidero credere che la banda larga stia per diventare un ambiente che ci porterà più di un canale per films e musiche riciclati, che possiamo attualmente prendere in negozio in modo piuttosto conveniente. E devo credere che tra le cose che stanno per rendere il nuovo ambiente della rete informativa della banda larga irresistibile ci sono materiali culturali, materiali per l’apprendimento, materiali vocali di interesse pubblico (Credo anche che la banda larga stia per diventare un mezzo creativo nuovo ed entusiasmante per la paternità e per i nuovi servizi interattivi come gli assai diffusi ‘multiplayers games’, che implicano la costruzione di mondi virtuali e di società virtuali, che hanno un grande potenziale come ambienti di apprendimento, così come per l’intrattenimento. Il mondo digitale della banda larga sarà molto più del solo prendere gli stessi vecchi film e la musica senza scendere dal divano. Ma questo, ancora una volta, è un’altra storia che ci porterà molto lontano).

Io penso che una delle cose che le persone non ricordano più abbastanza è che quando Internet e, poco dopo, il Web è realmente decollato come servizio al consumatore dalla metà alla fine degli anni ’90, che l’universo intero era già disseminato riccamente di contenuti gratuiti che erano stati forniti dalle università, dai musei, dalle istituzioni di eredità culturale, dalle agenzie governative. Contenuto di interesse pubblico, in opposizione al contenuto di intrattenimento commerciale. Là c’era una grande quantità di contenuto veramente interessante e alcune applicazioni provocatorie, sebbene esasperanti, applicazioni impegnative e, in effetti, se voi guardate in modo particolare ciò che stava accadendo nei primi giorni della migrazione del consumatore verso la Rete, prima del boom delle dot com e della corsa d’oro commerciale che rimodellò Internet, quel materiale non commerciale era molto attraente al pubblico generale nel momento in cui iniziò ad esplorare la Rete. In verità, un’ampia parte del materiale fornito dal settore non-profit rimane attraente e convincente oggi e rimane una ragione importante per la quale il pubblico si affida sempre più alla Rete come fonte di informazione.

Quindi, io credo che possiamo creare il caso per un’enfasi continua sull’idea che abbiamo bisogno di creare grandi quantità di contenuti convincenti per generare la domanda dei servizi di banda larga ed i settori dell’educazione, della ricerca e della eredità culturale hanno qui un ruolo molto importante da giocare. Troverete questo concetto amplificato nel recente U.S. National Research Council study, Broadbant: Bringing Home the Bits [3], per esempio. Devo dire che sono stato privilegiato di fare parte del comitato che ha scritto quel rapporto, che è stato pubblicato verso la fine dell’anno scorso, e devo anche dire che i miei commenti qui sulla banda larga ed i fornitori di contenuto sono le mie opinioni e non riflettono necessariamente i punti di vista di quel comitato.

Ho sentito questa idea circa il contenuto del settore non-profit come un elemento conduttore potenziale per la richiesta di banda larga espressa all’incontro internazionale a cui ho preso parte all’inizio di questa settimana. E’ una considerazione reale nelle strategie di digitalizzazione delle altre nazioni. E lasciatemi assicurarvi che le altre nazioni stanno compiendo degli investimenti assai sostenuti nella digitalizzazione del contenuto culturale. Per esempio, abbiamo sentito dai nostri colleghi in Gran Bretagna che stanno facendo investimenti molto, molto sostenuti al momento e interessanti, secondo me, stanno seguendo una strategia di investimento tripartita. Una parte è la connessione, che abbiamo fatto negli Stati Uniti, attraverso un intero apparato di programmi differenti, cose come la ‘library E-rate program’ ed il ‘NSF new connections program’ per ottenere una connessione ad alta ampiezza di banda per le nostre università di ricerca. La seconda cosa su cui stavano investendo è il contenuto stesso. Ritornerò su tale questione, perché è ciò su cui ho intenzione di spendere un tempo considerevole, ma lasciatemi solo notare adesso che non c’è alcun programma finanziato dal governo (in modo particolare dal governo federale) attualmente negli Stati Uniti su una scala simile a ciò che sta avvenendo in Gran Bretagna, focalizzato, effettivamente, sulla creazione del contenuto digitale, nonostante il buon lavoro che IMLS e, ad un grado minore, le agenzie come NEH e NSF stanno portando avanti qui. Certamente, negli Stati Uniti troviamo anche uno schema di finanziamento molto più distribuito nella creazione del contenuto dell’eredità culturale digitale, con fondazioni private e governi statali che offrono importanti contributi di finanziamento.

La terza area di investimento in Gran Bretagna, ed ho trovato questa realmente interessante, è nell’addestramento. Stanno investendo sulle persone. Addestrare i bibliotecari, andare oltre per formare le persone ad aiutare il pubblico ad imparare ad utilizzare, navigare e valutare il materiale. Così come l’addestramento alla creazione delle risorse digitali. Così, in Gran Bretagna essi hanno compreso realmente che questa non è un’attività in due parti, il modo in cui i tecnologi tendono spesso ad analizzare questo contenuto e la connessione. E penso che ci sia una lezione interessante là dove ci conviene pensare piuttosto male. IMLS ha anche investito nelle risorse umane attraverso le attività di creazione di comunità come gli incontri ‘Web-Wise’ e NSF ha avuto un obiettivo molto esplicito di costruzione di una comunità intorno alle sue iniziative di biblioteche digitali, tramite incontri e mezzi di finanziamento come ‘D-lib magazine’, ma l’investimento è stato maggiore nella costruzione di comunità che non nell’addestramento diretto — stiamo assumendo che se noi creiamo comunità, i partecipanti ad esse impareranno ed insegneranno naturalmente l’un l’altro.

Ma lasciatemi ritornare a focalizzarmi su questa questione del contenuto. Voglio notare, prima di tutto, che parliamo molto di biblioteche digitali. E’ stata certamente un’espressione importante nel nostro lessico fin da almeno la metà degli anni ’90. L’attenzione più forte che si è creata intorno alle biblioteche digitali è emersa dal lavoro che la National Science Foundation (insieme con lo spiegamento delle agenzie collaboratrici incluse DARPA, NASA, la National Library of Medicine ed altre) è stata finanziata negli Stati Uniti; ci sono anche programmi internazionali paralleli. Vale la pena notare che non c’è ancora un consenso chiaro circa ciò che costituisce esattamente una biblioteca digitale in questa comunità; per dare un senso a tali questioni, c’è un bell’articolo che Chris Borgman dell’UCLA ha scritto un paio di anni fa per l’Information Processing and Management [4]. Abbiamo anche parlato — in particolare all’interno delle comunità ampiamente rappresentate in questa conferenza — di collezioni digitali. Le collezioni digitali non sono un’idea che è ancora ben stabilita o interiorizzata all’interno della comunità della biblioteca digitale orientata alla ricerca che ho appena descritto.

Una delle cose che penso stia cominciando a diventare chiara è che le collezioni digitali e le biblioteche digitali non sono la stessa cosa. Questa è una osservazione cruciale. Abbiamo bisogno di capire la distinzione tra le due e le relazioni tra le collezioni digitali e le biblioteche digitali. Ciò aiuta a chiarire i nostri obiettivi nella creazione delle collezioni digitali ed aiuta anche nelle difficoltà circa la definizione delle biblioteche digitali. Infatti, abbiamo interrogativi molto complicati e sottili che penso richiedano un stretto esame minuzioso nel momento in cui tentiamo di capire le distinzioni tra le collezioni digitali e le biblioteche digitali ed, in particolare, capire il ruolo delle collezioni digitali ed alcune delle questioni intorno ad esse. Desidero esplorare alcune di tali questioni nella prossima parte del mio discorso.

Lasciatemi iniziare facendo solo qualche osservazione sulle collezioni digitali come collezioni.

Stiamo andando piuttosto bene nella digitalizzazione del materiale su larga scala. Abbiamo una ricchezza di esperienza ed un ampio numero di progetti di successo (per non citare alcuni fallimenti altamente educativi) su cui costruire. Con l’eccezione di materiali relativamente esoterici in formati specializzati o che hanno caratteristiche realmente insolite, questa non è più veramente una ricerca. O, per metterla in un altro modo, gli interrogativi di ricerca sono minori per come farlo e maggiori su come ottimizzare — come renderlo in modo più efficiente o efficace, come essere sicuri che avete scelto le strategie e le tecnologie più appropriate. Stiamo addestrando un ampio organico di persone qualificate a progettare, gestire ed eseguire progetti di digitalizzazione tramite veicoli come le Schools for Scanning. Migliori pratiche si stanno consolidando — considerate il lavoro che IMLS ha compiuto in questa area o la Digital Library Federation o l’imminente Guide to Good Practice [5]in preparazione da parte della National Coalition for a Networked Cultural Heritage (NINCH). I costi stanno diventando più prevedibili per questi progetti. Ci sono operazioni di produzione di massa commerciali e non che si stanno affermando per sostenere le organizzazioni che vogliono attuare una digitalizzazione su larga scala, uno non deve più farla in casa come parte di uno sforzo di una ricerca e di sviluppo.

Se osservate molti di questi progetti che stanno per essere illustrati in questo incontro come esempio, vedrete che ci sono moltissimi materiali digitalizzati. I nostri musei, le nostre biblioteche, i nostri archivi, le nostre società storiche stanno tutte portando avanti programmi di digitalizzazione. E abbiamo i lavori come JSTOR, Amico, e i progetti imminenti ArtStore e società accademiche che stanno digitalizzando vecchie copie delle loro riviste; qui, progetti di digitalizzazione su larga scala sono stati istituiti in ciò che si intende essere cornici economiche sostenibili.

Tutti questi sforzi stanno generando numerose ampie collezioni di materiale, databases, che sono aperti alla esplorazione ed alla presentazione in dozzine di direzioni differenti. Queste collezioni sono materiale grezzo. Il focus è sulla creazione di grandi quantità di contenuto digitale e sul fornire dei semplici strumenti di accesso, piuttosto che sistemi sofisticati per l’uso continuo o un apparato che fornisca interpretazione. Ora, ciò che è interessante per me è contrastare questo nella retorica dell’interesse pubblico che parla non solo dei materiali grezzi, ma anche di quelli per l’apprendimento, per la necessità di confezionare in contenuto grezzo dalle collezioni in vari modi come le esperienze di apprendimento o le manifestazioni curate o l’interpretazione e l’analisi. Abbiamo bisogno di studiare le linee di demarcazione tra i materiali dell’eredità culturale grezza, se volete, e l’interpretazione o l’insegnamento, o presentazioni di questi materiali. Questa è una linea di demarcazione di cui non penso abbiamo una comprensione assai reale. Raggiunge la storica missione delle differenze tra i musei, le biblioteche e gli archivi e la confusione crescente circa quelle distinzioni nel mondo digitale; comprende i ruoli storici e forse mutevoli degli accademici, degli insegnanti, dei curatori e dei bibliotecari. Suggerisce interrogativi su quali pubblici o comunità di utilizzatori stiamo istruendo ad utilizzare databases non interpretati di materiali grezzi di eredità culturale ed i metodi che stiamo insegnando loro sfruttare tali risorse. Dobbiamo porre degli interrogativi solo su come la "interpretazione neutrale" di una collezione di materiali grezzi possa essere fatto in realtà — certamente, per esempio, l’interpretazione avanza nel metadata descrittivo; come il mio amico e collega Michael Buckland ha affermato, i cambiamenti nella pratica nella costruzione ed assegnamento dei titoli degli argomenti nel secolo scorso è una finestra su molti cambiamenti sociali che hanno avuto luogo durante quel periodo.

Ma penso che possiamo identificare una serie di tendenze che ci possono condurre verso un mondo di collezioni digitali — databases di materiali di eredità culturale relativamente grezza, per esempio — e poi strati di interpretazione e presentazione costruiti su questi databases e facenti riferimento agli oggetti in essi. Probabilmente, vedremo le interpretazioni che tracciano, da molte collezioni digitali e collezioni digitali singole, materiali che contribuiscono a molte interpretazioni differenti. Sebbene io pensi che le biblioteche, gli archivi, i musei e le comunità di educazione superiore saranno tra i maggiori creatori di collezioni digitali, i creatori delle presentazioni e delle interpretazioni dei materiali da queste collezioni saranno molto più numerosi e differenti.

Le implicazioni di questa dicotomia tra materiali grezzi e interpretazione sembrano piuttosto ampie da definire. Lasciatemi esaminare solo qualcuna di esse.

Una implicazione è che i materiali di apprendimento, di interpretazione e presentazione mi sembrano tipicamente, o, almeno, spesso — avere una durata di vita più breve dei materiali di prima fonte su cui si configurano. Se osservate i processi di erudizione, essi includono una reinterpretazione continua del materiale originario stabilito (così come la valutazione continua di nuove fonti di materiale). Il materiale originale persiste e generazione dopo generazione di accademici e studenti lo prendono, sebbene tipicamente riscriviamo i testi ad ogni generazione o almeno giù di lì.

Ciò che ho appena affermato è una considerazione di carattere generale, certamente. La presentazione e l’interpretazione possono di per se stesse generare la transizione verso nuove materie prime e, almeno alcune di esse di un duraturo interesse per un certo pubblico di accademici e ricercatori e, forse, di altre persone — ma, generalmente, di un pubblico molto più piccolo e più specializzato di quello per il quale era stato progettato in origine. Pensate ad una storia dell’arte scritta nel 1900, saggi di Shakespeare del 1870, o libri elementari di scienza che affermano che "un giorno un uomo potrebbe camminare sulla luna". Mentre questi possono essere materiali di apprendimento validi quando collocati in un contesto — re-interpretati, se volete — come una parte di una nuova serie di materiali di apprendimento essendo preparati oggi, essi sono molto meno probabilmente considerati di valore direttamente come materiali di apprendimento per i loro meriti, per la maggior parte del pubblico di oggi.

Se noi siamo d’accordo sul fatto che l’interpretazione e la presentazione hanno vite relativamente brevi, in certi sensi, penso che questo sollevi degli interrogativi problematici sulla sostenibilità (una questione su cui tornerò molte volte in questo discorso). Qualsiasi progetto di digitalizzazione che conosco, qualsiasi finanziatore di progetti di digitalizzazione che conosco, è molto sensibile alla questione della sostenibilità, di tentare di evitare il dilemma di dove finanziamo la creazione dei materiali che non possiamo sostenere economicamente nel lungo periodo. Ma la natura e l’economia per sostenere le materiale originario, una volta digitalizzato, mi sembra completamente differente dal sostenere le presentazioni ed il confezionamento e la sua interpretazione. Per il materiale originario, spesso il principale costo di sviluppo è il preservare il contenuto digitale ed i sistemi di accesso operanti; per materiali interpretativi, noi fronteggiamo periodicamente tutti quei costi, più le spese di aggiornamento inetellettuale, se resteranno rilevanti e rispondenti al pubblico designato in origine. Possiamo avere bisogno di modelli economici molto differenti per queste due classi di materiali e potrebbe essere irrealistico aspettarsi che le biblioteche, gli archivi ed i musei si assumano i ruoli principali nel sostenere il materiale interpretativo (sebbene, presumibilmente, continueranno ad essere pesantemente coinvolti nell’assicurare la sua conservazione). Riconoscete che c’è una incoerenza qui: questo risultato è almeno in qualche modo in disaccordo con lo sviluppo delle aspettative pubbliche circa i benefici che probabilmente vedranno sottoscrivendo la digitalizzazione dei materiali di eredità culturale. Molti dei materiali di apprendimento e le esposizioni curate possono venire in seguito, costruendo sulle collezioni digitalizzate create nell’interesse pubblico, e le interpretazioni ed i materiali di apprendimento possono non essere gratuiti al pubblico, anche se le collezioni digitalizzate sottostanti sono disponibili "gratuitamente" (nel senso di essere pubblicamente sottoscritte).

Abbiamo anche bisogno di capire come la presentazione e l’interpretazione sta effettivamente creando la transizione verso nuovo materiale originario in un mondo di collezioni digitali. Qui sono implicate tecniche e decisioni di sviluppo della collezione. Sappiamo come la transizione si è verificata nel mondo della pubblicazione stampata, ma come si verifica in un mondo digitale pieno di nuove norme di paternità e nuovi ruoli per le istituzioni di eredità culturale è qualcosa di non totalmente chiaro.

Sappiamo che vogliamo che le nostre collezioni digitali siano riutilizzabili, sebbene io sospetto che ci sia uno scarso consenso su ciò che riutilizzo significhi realmente. Io penso che noi chiediamo che le collezioni di valore duraturo abbiano le caratteristiche della riutilizzabilità. Parte della riutilizzabilità o ri-proposizione chiaramente consiste nell’abilità di contribuire, nel tempo, ad una ampia schiera di interpretazioni o presentazioni dei materiali per molti pubblici e scopi differenti nel contesto che ho appena descritto. In sintesi, è l’abilità di avere coperto le collezioni in vari modi. Oggi, abbiamo un’esperienza molto limitata con la riutilizzabilità e la ri-proposizione. E proprio ora il nostro pensiero circa i sottoprogrammi di copertura è ancora ai suoi esordi: pensiamo a cataloghi unificanti, collezioni trasversali per trovare aiuto, nuovo insegnamento o lavoro analitico che faccia riferimento ad oggetti nelle collezioni digitali. Come discuterò in seguito, penso che stiamo iniziando a vedere di sfuggita un ri-utilizzo ed una ri-proposizione molto più sofisticati che hanno profonde implicazioni sia sul margine di profitto, sia sugli oggetti digitalizzati, sia sui metadata che, tuttavia, li accompagnano. Invece, i programmi di copertura possono essere un modo troppo limitato per descrivere l’intero spettro di riproposizione che vorremmo facilitare.

I nostri progetti di digitalizzazione creano databases di materiali e li rendono disponibili al pubblico, ma non vedo ancora molta informazione che si muove tra i databases. Questo è quel tipo di interesse — forse sorprendente — in un mondo in cui la memoria e la banda larga stanno diventando più convenienti e più abbondanti ogni anno. Parte del problema è stata la mancanza di standards per fare muovere le informazioni e qui le cose stanno cambiando, dato che stiamo iniziando ad avere le tecnologie schierate come frutto del protocollo degli archivi aperti di metadata (vedi www.openarchives.org). Ciò che il protocollo del protocollo del metadata, in realtà, è fondamentalmente un modo per i metadata e gli indicatori dei dati di migrare da un sistema all’altro. E’ un pezzo di piombatura, se volete, che è progettato per incoraggiare il riutilizzo di metadata attraverso il riutilizzo di metadati e la riproposizione di dati. E’ progettato per permettere il copiare, l’amalgamare ed il rifinire. Nel momento in cui i metadata — e gli oggetti stessi — diventano più ricombinanti noi possiamo cominciare ad ottenere una prospettiva più ampia sul riutilizzo e la riproposizione.

Infine, lasciatemi solo notare che in una parte del lavoro che sta avendo luogo nel tracciare l’architettura della conservazione digitale che si sta verificando come parte degli sforzi come il programma Library Congress per progettare una strategia nazionale di conservazione digitale, la distinzione tra le collezioni digitali e le interfacce che forniscono l’accesso (nel senso più ampio, qui pensate l’interpretazione come l’accesso qui) alle collezioni digitali, sembra che stia diventando molto importante. E la collezione digitale, piuttosto che la biblioteca digitale o l’interfaccia di accesso è il luogo di gestione della conservazione digitale. Sentirete molto di più su questa riflessione nei mesi a venire.

Quindi, quello è una serie iniziale di commenti che volevo fare sulle collezioni digitali.

Ora, un’altra cosa in cui penso ci si possa imbattere molto chiaramente quando pensiamo alle collezioni digitali in questa prospettiva, come parte di un ambiente stratificato molto complicato è la necessità di focalizzare realmente sull’infrastruttura. Stiamo ottenendo alcuni pezzi di infrastruttura al suo posto piuttosto rapidamente, come il frutto del protocollo degli archivi aperti di metadati che ho appena menzionato, ma è chiaro che stiamo per avere bisogno di altre componenti di infrastrutture che non sono oggi così mature o ampiamente sviluppate.

Io rimango, per esempio, sorpreso per il progresso relativamente lento nello spiegamento persistente dei sistemi di identificazione, che mi sembra essere una pietra angolare assoluta di collezioni digitali progettate che sono copribili, riutilizzabili e riproponibili. Vorrei anche notare che penso che in questo settore abbiamo sovra enfatizzato i problemi di progettazione e fallito nel focalizzare sufficientemente sui duri problemi intellettuali come la natura e l’identità degli oggetti che vogliamo identificare.

Penso che anche noi abbiamo bisogno di concettualizzare l’infrastruttura non solo nella scienza del computer o nel senso di ingegneria di rete, ma in un senso intellettuale più generale — infrastruttura correlata alla gestione, interpretazione ed utilizzo del nostro contenuto. Per esempio, mi sembra chiaro che, dato che costruiamo e lavoriamo con le collezioni e le biblioteche digitali, avremo bisogno di una infrastruttura che racchiuda le versioni digitali degli strumenti come i dizionari geografici, i dizionari, i vocabolari e la mappatura dei vocabolari. E questi strumenti e componenti infrastrutturali necessitano di diventare pietre di costruzione — servizi di rete per l’accesso dai sistemi di computer e dati strutturati per l’interpretazione da parte dei programmi di computer — che faciliteranno la loro incorporazione in una molteplicità di sistemi.

Lasciatemi ora tornare all’interrogativo delle biblioteche digitali in contrasto alle collezioni digitali. Come ho già indicato, mi trovo a pensare ora alle collezioni digitali come cose vicine al contenuto originale (forse con alcuni materiali interpretativi limitati — è difficile isolare completamente l’interpretazione dai materiali originali; l’interpretazione prende piede ovunque, per esempio nei metadata descrittivi che sono parte delle collezioni digitali come discusso prima e le biblioteche digitali, come sistemi che rendono le collezioni digitali attuali, li rendono validamente accessibili, che li rende utili per realizzare il lavoro e questo li collega alle comunità.

Sto iniziando a credere che le collezioni — almeno molte collezioni basate sui materiali di eredità culturale — non possiedono, in realtà, delle comunità naturali intorno ad esse. In effetti, una delle cose che abbiamo appreso ancora una volta tramite un aneddoto agli incontri di cui ho accennato prima e penso che questo sia sorto centinaia di volte in altri contesti, è che i materiali digitali trovano le loro comunità inattese di utilizzatori. Questo significa che quando voi collocate là i materiali, persone che non vi sareste mai aspettati trovano quei materiali da luoghi, qualche volta, molto strani e lontani che non vi sareste immaginati e, talvolta, li utilizzano in modo straordinariamente creativo ed imprevedibile. Quindi, forse, dovremmo evitare di sovra-enfatizzare le nozioni preconcette sulle comunità di utilizzatori quando creano collezioni digitali, almeno in parte, perché siamo così poco abili nell’identificare o prevedere queste comunità di riferimento.

Ma penso che le biblioteche digitali siano, in qualche modo, la chiave di costruzione nella creazione della comunità, facendola formare e sfruttandola. Invece, molto di ciò che abbiamo appreso sulle biblioteche digitali progettate con successo enfatizza la disciplina di un progetto centrato sull’utilizzatore. Le biblioteche digitali efficaci sono progettate sia per la funzione, sia per il pubblico, assai in contrasto con le collezioni digitali. E voglio sottolineare due aspetti delle biblioteche digitali che mi hanno fatto pensare molto in questi giorni.

La prima è che se pensiamo alle biblioteche digitali come una collezione di strumenti che rende il contenuto attuale, che vi aiuta a trovarlo, che vi permette di manipolarlo, di analizzarlo, annotarlo, commentarlo, allora le biblioteche digitali attraggono, creano e definiscono una comunità. Ma esse permettono anche ai membri di quella comunità di discutere tra loro. Questa conversazione si verifica in modi espliciti di cui siamo certamente ben consapevoli ed abbiamo sfruttato nel senso che le persone che stanno lavorando insieme su interessi comuni si trovano tra loro, iniziano a discutere tra loro, noi vediamo le biblioteche digitali sfruttate in sistemi come collaboratori in cui c’è un gruppo attivo di annotazione, analisi e creazione di eventi di nuova conoscenza.

Ma le biblioteche digitali possono anche permettere e facilitare la comunicazione implicita. Il mio esempio preferito della comunicazione implicita, che non è stato ancora molto sfruttato, sono i sistemi di chi raccomanda, in cui il sistema di biblioteca digitale, fondamentalmente, diventa un meccanismo per riflettere gli schemi di comportamento dei membri della comunità ad altri membri di quella comunità in un modo controllato ed utile. L’esempio comune di questo, certamente, è ciò che vediamo nei sistemi commerciali come Amazon.com: "qui ci sono cose che persone con interessi molto simili ai vostri che hanno preso in considerazione (acquistano) recentemente e noto che non avete ancora preso in considerazione (acquistato) questo, forse potreste essere interessati". Ciò che amazon.com fa, utilizzando schemi di acquisto come surrogato per la valutazione dell’utilizzatore, è un esempio piuttosto semplice, ma io credo che con un po’ di esplorazione focalizzata dell’osservazione, che le biblioteche digitali lascino discutere tra loro i membri della comunità non solo esplicitamente, ma attraverso le loro storie di azioni e comportamenti, ci porteranno a cose nuove molto interessanti che possiamo compiere. E ciò diviene sempre più interessante se possiamo fare ciò distribuito in un certo modo, se in un ambiente di organizzazioni collaboranti interessate all’avanzamento dell’insegnamento e apprendimento della scolarizzazione, piuttosto che al vantaggio competitivo commerciale, noi possiamo trovare la giusta struttura degli standards, delle tecnologie e delle pratiche sociali per consentire la condivisione controllata della storia e del comportamento tra le biblioteche digitali, piuttosto che solo all’interno delle singole biblioteche digitali [6].

L’altro aspetto affascinante delle biblioteche digitali su cui non abbiamo riflettuto molto e che io penso che necessiti di diventare un nuovo punto focale — e, se ho ragione, sta per avere alcune implicazioni molto significative per la costruzione delle collezioni digitali, così come delle biblioteche digitali — è che l’aggregazione dei materiali in una biblioteca digitale può essere maggiore della somma delle sue parti. Io penso che questa sia una possibilità molto interessante ed entusiasmante — sebbene sia un po’ difficile parlarne, perché le idee stanno ancora emergendo, sono imprecise, sono ancora molto approssimative e speculative come dimostrato, in realtà, nella pratica di implementazione. Ma, se questa possibilità funzionerà, ci porterà assai lontano dalla pratica tradizionale nel mondo fisico delle biblioteche e degli archivi. Forse, una intuizione sottostante consiste nel fatto che, nel momento in cui uno studioso legge, assorbe ed integra un insieme di materie originarie e di lavori scritti da altri studiosi, la collezione di conoscenza nella sua testa va oltre la semplice somma di ciò che ha letto. Le nostre biblioteche digitali possono assistere, amplificare e, in una certa misura, deificare questa attività e fare sì che i risultati vengano più prontamente comunicati, condivisi e ulteriormente portati avanti dall’intera comunità.

Ora, una delle cose che possiamo fare nel mondo digitale è che possiamo allontanarci dal concetto storico di edizioni immutabili, dove è appropriato. E non voglio suggerire che sia sempre appropriato. Come noi strutturiamo il dialogo intellettuale, come documentiamo le cose, come scegliamo di condurre il discorso accademico — queste genere di cose, chiaramente, hanno bisogno di includere canali in cui vi sia un po’ di disciplina di edizioni immutabili. Possiamo anche creare molte altre edizioni, rivederle ed aggiornarle molto più frequentemente in un ambiente digitale. C’è stata molta speculazione intorno a questa caratteristica del mondo digitale e le sue implicazioni sia per le biblioteche, sia per le pratiche di comunicazione e numerose persone — certamente tornando indietro agli scritti eleganti ed eloquenti scritti di grandi pensatori come Ithiel de Sola Poll, per esempio — hanno enfatizzato questo come forse una differenza determinante dell’ambiente digitale. Mentre credo che questa sia una differenza importante, certamente, non penso che sia quella determinante. Allo stesso tempo, queste unità di informazione possono essere sottoposte a più edizioni ed aggiornamenti, noi possiamo compiere attività di calcolo tra le collezioni di informazioni che le rendono più della somma delle loro parti, rifacendo i calcoli quando le collezioni crescono e cambiano e questo potrebbe rappresentare una differenza assai maggiore a lungo termine.

Vorrei notare che noi abbiamo uno stereotipo culturale potente, profondamente radicata dai nostri modelli del mondo fisico di pubblicazione, le biblioteche e la nostra costruzione e adorazione delle pratiche di autorità che tendono a considerare i lavori dell’intelletto come libri indipendenti, che si ergono da soli, come il prodotto di voci e menti individuali; mentre gli autori possono quotare o citare i lavori degli altri, al di fuori di certi atti di appropriazione nei contesti delle arti creative, piuttosto che delle arti accademiche e la pratica relativamente recente di costruire e curare i database della comunità di conoscenza scientifica, ciascun lavoro si erge da solo con orgoglio. Nelle nostre biblioteche, queste opere vengono collocate su scaffali in un ordine sistematico. Noi poniamo delle copertine su di esse che organizzano il materiale, lo rendono accessibile, gruppi simili a lavori attinenti insieme. Ma non creiamo disordine una volta che lo prendiamo dalla biblioteca. Piuttosto, noi onoriamo la conservazione dell’integrità di ogni opera individuale, proprio come onoriamo l’atto di paternità. Riconoscete che una parte di ciò è in discussione qui, se le biblioteche digitali stanno per diventare più della somma dei loro oggetti contenuti come costituenti individuali è la necessità di diventare più flessibile nel pensare l’integrità delle opere e della paternità, di calcolare come bilanciare il nostro bisogno di rispettare questa integrità mentre siamo anche in grado di integrare grandi numeri di tali lavori individuali.

Vi darò tre rapide idee — in realtà, solo istantanee provocanti — di ciò che questo potrebbe significare per il futuro delle biblioteche digitali. Una è il lavoro veramente meraviglioso che sta procedendo nel Perseus Project presso la Tufts University. Se non l’avete visto, dovete veramente farlo (vedete perseus.tufts.edu). Una delle cose che stanno facendo è che stano legando insieme con il calcolo risorse multiple. Così voi prendete cose come un dizionario biografico o un dizionario di nomi, lo legate alle mappe, lo legate alle citazioni dei nomi collocati o delle persone nelle opere letterarie. Ciò che accade avviene attraverso il calcolo, più il contributo dello sforzo intellettuale aggiuntivo dei disegnatori e curatori della biblioteca digitale, voi cominciate a fare crescere un corpus che è più della somma delle sue parti, che evolve nel tempo e diventa sempre più ricco. Aggiungendo una nuova opera e integrandola con il calcolo, può arricchire altre opere che sono parte della biblioteca digitale.

Strettamente correlata all’opera che sta procedendo presso Perseus, è il gruppo emergente più ampio delle tecnologie chiamate ‘data mining’. Il data mining è attualmente un’attività molto popolare ed importante nella comunità scientifica e nell’industria, in cui lo stanno applicando a tutti i tipi di dati demografici, dei consumatori e di mercato. Sta cominciando anche ad entrare in gioco in numerosi modi significativi in aree come le questioni relative alla comprensione della salute pubblica. Fondamentalmente, l’idea qui è che voi accumulate grandi quantità di dati e poi applicate le risorse di calcolo per cercare schemi e relazioni tra essi. Più dati potete accumulare, più risorse di calcolo potete applicare, più probabile sarà che potreste essere in grado di scoprire schemi e relazioni interessanti e nuovi. Questo è un modello molto potente. Non mi è del tutto chiaro come si estende in tutto il ricco spiegamento di eredità culturale dell’informazione. Ma la considero come la creazione di un collegamento come un data mining. C’è una inter-dipendenza ed una inter-relazione che non è completamente esplorata, così come molte altre cose in questa area.

Lasciatemi solo raccontare un interessante aneddoto sul data mining. Pensate all’astronomia. Ora, ciò che gli astronomi erano soliti fare era trascorrere le loro vite tentando di ottenere il momento del telescopio e cercare fenomeni interessanti, preoccupandosi sempre del brutto tempo che poteva interferire con gli intervalli di tempo di osservazione. Più di recente, abbiamo iniziato a collocare i telescopi in Rete così che almeno gli astronomi non devono ottenere finanziamenti per andare dove si trovano gli strumenti, ma ora devono preoccuparsi se la rete è attiva quando, alla fine, ottengono i loro intervalli di tempo programmati sugli strumenti.

Ma ciò che è accaduto ora è che gli astronomi stanno iniziando a compilare grandi quantità di dati osservativi in questa sorta di database di cielo virtuale [7]. E, all’improvviso, si sta delineando un nuovo tipo di ricerca astronomica, che non è relativa al cogliere nuove osservazioni, ma piuttosto sta applicando il data mining e lo schema di riconoscimento delle tecnologie contro questo database di cielo virtuale. Ora, ovviamente, se l’astronomia recede dall’osservazione e si orienta solo verso una modalità di estrazione di dati esistenti, questo non sarà salutare per la disciplina. Abbiamo bisogno di un equilibrio tra i due. Ma penso che questo sottolinei come le idee di estrazione dei dati stiano cambiando il modo in cui la scienza va fatta. Nella misura in cui le biblioteche digitali immagazzinano dati scientifici e forniscono strumenti per lavorare con quei dati, possiamo pensare l’ambiente del cielo virtuale come una biblioteca digitale, o almeno un grande componente d’esso.

Lasciatemi dare solo un altro sguardo di come l’intero può essere più grande della somma delle sue parti che mi intriga, ma mi rende anche meno a mio agio rispetto a due esempi che ho appena coperto. C’è un’affermazione affascinante che ho attribuito originariamente ad Alan Kay e sono stato corretto che viene veramente da Marvin Minsky apparentemente, un’affermazione che qualcuno nel futuro propone dicendo qualcosa come "Potete immaginare che c’era un tempo in cui i libri in una biblioteca non dialogavano tra loro?" [8]. Mentre io, in precedenza, l’ho sentita probabilmente quindici anni fa, questa citazione mi è tornata a perseguitare negli scorsi ultimi anni. E sta tornando ad ossessionarmi per due motivi. Uno, la visione positiva, se noi veramente abbiamo biblioteche digitali ora in cui i libri potrebbero, in qualche modo, paralare tra loro per rendere la biblioteca più grande della somma dei suoi libri individuali. Che cosa dicono?

Io penso che una delle cose che "dicono" è ciò che noi codifichiamo in loro con il mark up. Il mark up veramente buono e profondo che espone la struttura intellettuale e semantica, che espone il contenuto per la connessione, il data mining ed il calcolo, è parte del linguaggio di cui stanno per discutere. Io penso che gli sforzi e le idee differenti come Text Encoding Iniziative, una parte del lavoro con le ontologie, con XML e, in modo particolare, lo sviluppo di schemi XML per sostenere la comunicazione accademica e con lo sforzo del Semantic Web riflette l’importanza del mark up come un mezzo per strutturare l’informazione per il riutilizzo in un ambiente di calcolo. E penso che questo ci suggerisce elementi circa alcune delle nostre strategie per la digitalizzazione e la costruzione di collezioni digitali ed, in particolare, per la necessità di dialogare realmente con gli accademici, gli insegnanti con gli estrattori di dati, con i costruttori di biblioteche digitali, con gli esperti di computer e dell’informazione ed i linguisti del calcolo e molte altre discipline in un modo continuo circa ciò che sono le strutture appropriate di mark up e come implementarle nei nostri programmi di digitalizzazione. E, forse, in modo più importante, per riconoscere che il mark up appropriato sta diventando un’area in evoluzione. Sta evolvendo sia in termini di ciò che vogliamo mark up e come, sia in termini di quale mark up, effettivamente, ci possiamo permettere economicamente.

Questo ha un grande numero di ramificazioni. Per esempio, io penso che ci sia una immagine mentale che molti di noi possiedono, che la digitalizzazione sia qualcosa che esegui e che termini, nel senso che quando voi digitalizzate una fotografia, questo è un processo circoscritto ed unico e come risultato avete un archivio di immagine, oppure convertite un libro in un testo marked up. Ma, quando consideriamo gli oggetti con il mark up, sto iniziando a pensare che avremo bisogno di rivedere questo mark up periodicamente, nel momento in cui la nostra comprensione del mark up evolve e anche le nostre capacità di applicarlo economicamente evolvono. Ci saranno strati di mark up. Infatti, potremo avere bisogno di pensare le rappresentazioni delle cose come mark up contingenti o speculativi, mark up con livelli di fiducia e di origine.

Molti ricercatori stanno sviluppano programmi di computer che sono in grado di analizzare il linguaggio naturale, sia parlato, sia scritto. Essi sono in grado di fare cose come identificare i nomi propri e decidere se sono persone o luoghi, o organizzazioni. Sfortunatamente, non lo fanno sempre nella maniera corretta. A volte, lo fanno veramente nel modo sbagliato. D’altra parte, quando osservate alcuni risultati sperimentali, una grande parte di questi sistemi lo fanno correttamente molto più spesso di quanto lo fanno in modo sbagliato. Fino a dove arrivano gli esseri umani, fino a dove alcune analisi intellettuali possono essere condotte, che significa trovare e finanziare alcuni esseri umani per applicare o rivedere il mark up, è utile fare procedere questi sistemi contro i materiali digitalizzati e collocarli in codici preliminari o non valutati da sistemi di analisi automatizzati? Io penso che quando riflettiamo su queste prospettive delle biblioteche digitali, probabilmente, la risposta è sì. Ma noi abbiamo bisogno di pensare a ciò in un modo tale che può verificarsi in un modo in evoluzione. Quando appare il programma dell’anno successivo che è meglio di quello di quest’anno, vorresti replicarlo e togliere il vecchio mark up ed inserire quello nuovo. E ci sono numerosi programmi, che rappresentano approcci differenti al problema; noi abbiamo gruppi di ricerca multipli che sviluppano questi programmi e tutti lavorano saltuariamente e tutti falliscono occasionalmente. Forse, una buona strategia è osservare questi luoghi in cui molti di questi programmi sono d’accordo e immaginarsi quelli che sono, probabilmente, i casi facili e dovremmo accordare loro un po’ più di credibilità. E, certamente, simili programmi di computer possono generare metadata così come mark up, quindi abbiamo bisogno anche di considerare simili sviluppi nell’area del metadata.

Le persone, i luoghi e le organizzazioni sono solo all’inizio. Ci sono anche sforzi per prendere daei, citazioni di geni o proteine o specie nella letteratura scientifica, per classificare automaticamente le citazioni come uno di un numero di diversi tipi, persino per analizzare la struttura di articoli interi in alcuni generi di articoli scientifici molto rigidi. In più, nel futuro, vi è la promessa di altri strumenti di calcolo che estenderanno il nostro potere anche oltre: conversione dal discorso al testo, analisi dell’immagine e riconoscimento visivo e software di analisi visiva, per esempio.

Lisciatemi anche solo notare che la digitalizzazione di opere di consultazione di vari generi, come i dizionari o le enciclopedie di vario tipo, o la paternità di opere di nuova consultazione per il medium digitale rappresenta sia un’alta priorità, sia un frutto a bassa portata per il mark up estensivo. Un’alta priorità a causa del suo potenziale esplosivo come meccanismo di collegamento tra le altre opere (come dimostrato da Perseus, per esempio) ed un frutto facilmente coglibile, perché la semantica dell’informazione immagazzinata in questi tipi di lavori è spesso relativamente semplice, omogenea, ben comprensibile e altamente strutturata (quando contrastata dalla comunicazione più generale e accademica).

Quindi, questa è parte di una immagine attraente di libri che dialogano tra loro. Ora, io non posso resistere di condividere la forse versione meno attraente e che ci conduce in un regno commerciale o del consumatore.

Una delle cose di cui sono assai consapevole è che stiamo iniziando a vedere una serie di tecnologie che evolvono che, di fondo, forniscono alle persone biblioteche individuali portatili. Questo è qualcosa con cui le biblioteche, l’educazione superiore e la comunità di biblioteche digitali si sono trovati realmente alle prese. Ma io penso che sia qualcosa che è parte dell’ambiente dei sistemi di biblioteche digitali di cui stiamo cominciando a pensare meglio. Sta cominciando a diventare più ragionevole pensare alle persone che vanno in giro con un paio di migliaia di libri digitali sul loro portatile. C’è una quantità di prodotti di consumo in giro che permette di trasportare migliaia di canzoni da ascoltare, Questo non è un sostituto dei CD player portatili, sebbene abbia una forma più familiare; invece, noi stiamo dicendo di portare la vostra intera collezione di musica con voi. E, se avete una grande collezione di musica, no, non andrà bene quest’anno, ma sappiamo che quei dischi dovrebbero solo essere tenuti per diventare più grandi e più a buon mercato e io vi prometto che in un paio di anni andrà veramente bene. Stanno rendendo i dischi più ampi e più veloci di quanto stanno producendo nuova musica o scrivendo nuovi libri. Quindi, la tecnologia della biblioteca digitale personale portatile riguadagnerà rapidamente il tempo perduto, io penso, fino ai bisogni degli individui più avidi di guadagno.

Ora, cosa accade quando le persone iniziano ad accumulare questi tipi di ampie collezioni personali di materiali digitali e gli oggetti si confrontano tra loro? Io possono prontamente immaginare una situazione in cui voi aggiungete un nuovo libro nella vostra biblioteca digitale personale ed esso passa da un libro all’altro e fa l’inventario di ciò che d’altro avete in essa e consulta il catalogo integrato di altri libri dal suo editore e inizia a tempestarvi con pubblicità, oppure, se può comunicare con il mondo esterno (pensate ad alcuni scenari tipo di gestione di diritti digitali), esso riferisce al suo editore e dice "Oh, bene, dovresti spedire a questa persona annunci di nuovi libri e di offerte speciali basati su ciò che ho appena trovato nella sua biblioteca digitale personale".

Questa è parte dell’aspetto più disturbante — o, almeno, sconcertante - dei libri che discutono tra loro. Essi non solo parleranno tra loro, ma anche, potenzialmente, a programmi esterni, organizzazioni e persone. Questo sta per accadere. Accadrà in una varietà di modi differenti. Vi ho fornito solo la versione commerciale d’essa, che è disturbante, perché è potenzialmente fastidiosa ed invadente e solleva alcune questioni di privacy. Ma sta anche per accadere in modi più benigni e utili, in particolare, se noi possiamo scegliere i modi per dare all’utilizzatore il controllo effettivo sulla sua informazione personale. Pensate alla mia descrizione precedente dei sistemi di raccomandanti in un ambiente distribuito e riconoscete che una parte di quell’ambiente potrebbe essere una biblioteca digitale portatile personale di qualcuno. Acquistare un libro può diventare una sorta di invito ad una comunicazione continua tra le persone e le fonti di informazione e noi non abbiamo neanche iniziato a scalfire la superficie delle implicazioni di ciò. Solo un esempio veloce, pensate a ciò che questo potrebbe implicare in futuro circa le continue responsabilità degli autori, in modo particolare negli ambienti accademici.

Inoltre, avvicinandosi ai limiti della finzione speculativa, possiamo anche immaginare elementi estrattori che tentano di creare dei databases di conoscenza, estraendo l’evidenza di un corpus continuamente crescente di libri ed articoli; questo diventa più semplice se i dati in tali lavori vengono segnati in modi che facilitano l’estrazione senza dover combattere battaglie di analisi e comprensione del linguaggio naturale.

Ma c’è sufficiente speculazione sulle biblioteche digitali. Io presento queste possibilità perché desidero veramente porre l’attenzione sulla distinzione tra le biblioteche digitali come ambienti attivi di comunità e di impegno, analisi, interpretazione, calcolo e la parimenti importante, ma piuttosto separate attività di creazione delle collezioni digitali che possono nutrire e sostenere i sistemi di biblioteca digitale. La mia convinzione è sempre più che queste cose non sono le medesime. E’ più utile separarle, non fosse altro se non per fare luce su dozzine di interrogativi interessanti e spesso difficili che dovremmo esplorare. Queste non sono solo relative alla tecnologia, ma sulle pratiche, i ruoli e le responsabilità organizzativi, sulla sostenibilità, sulle strategie economiche, su un intero spettro di cose differenti.

Ora, lasciatemi solo continuare sui miei ultimi due punti, prima di aprire il dibattito.

So che molti di noi qui sono interessati specificamente all’informazione sull’eredità culturale. Ora che ho separato lo sforzo di costruire le collezioni digitali di questo materiale dal lavoro di costruzione delle biblioteche digitali come ambienti d’uso di comunità per l’informazione dell’eredità culturale, un interrogativo centrale è dove avviene l’interpretazione, l’annotazione ed il riutilizzo di questi materiali. Ho sostenuto che queste attività si riferiscono al contenuto delle collezioni digitali, ma rimangono ampiamente separate da esso. Questo è un territorio oltre le biblioteche digitali, almeno per come le abbiamo solitamente costruite fino ad ora, che comprende la comunicazione accademica, la pubblicazione, la creazione di materiale di apprendimento, la paternità di nuove opere, che si creano a partire dal materiale originario. Quanto di questo accade nelle biblioteche digitali e quanto oltre i "muri" della biblioteca digitale? Quali sono le relazioni qui? In che modo le biblioteche digitali sono in relazione con il lavoro di presentazione ed interpretazione discusso prima? E, in particolare, dovremmo riconoscere che uno dei punti di forza delle biblioteche digitali consiste nella loro capacità di costruire, sfruttare ed amplificare la comunità — pertanto, questo è, per certi versi, in disaccordo con le pratiche storiche della paternità ampiamente individuale ed individualistica che caratterizza molto l’interpretazione e la presentazione. Abbiamo bisogno di una comprensione molto più profonda di tali questioni.

Come caso in questione, con la disponibilità di un numero sostanziale di immagini digitali dai musei, stiamo vedendo le università utilizzare tali collezioni sia per l’insegnamento, sia per la ricerca. Ma non sembra che stiamo osservando il dialogo che mi sarei aspettato tra gli accademici nell’università che studiano questo materiale e lo insegnano e le persone nei musei che se ne prendono cura e lo mettono in mostra. (Riconosco che ci sono alcune divisioni culturali di vecchia data). Io non penso che abbiamo visto molto cambiamento nella forma e nelle pratiche della letteratura accademica che utilizza ed interpreta queste immagini, o i materiali educativi che costruisce si di essi. E’ solo troppo presto, o, forse, non ci sono ancora sufficienti (o corrette) immagini disponibili per creare il cambiamento fondamentale? Stiamo tuttora perdendo le biblioteche digitali che integrano le collezioni digitali in questa area? Una analisi della situazione qui potrebbe essere un utile studio del caso.

Attualmente, ci troviamo in un mondo in cui c’è una grande quantità di informazione creata in forma digitale. Quando pensiamo alla creazione di collezioni di eredità culturale digitale, tendiamo a focalizzarci pesantemente, in ampia parte a causa dei vincoli di copyright, su materiale che è vecchio — e, quindi, sul digitalizzare materiale che ha iniziato la sua vita come artefatto fisico. Opere creative più recenti sono spesso vietate all’accesso, a causa delle barriere del diritto d’autore, e se sono effettivamente disponibili, lo sono come parte di offerte commerciali autorizzate. Allo stesso tempo, tuttavia, io penso che noi necessitiamo di essere anche molto consapevoli che esistono databases che sono il materiale originario di un’ampia parte del nostro archivio culturale, politico, legale e sociale. Queste sono parti di archivi organizzativi attivi o di sistemi operativi in agenzie governative di vario tipo. L’informazione dell’eredità culturale è molto più dei meri lavori creativi; c’è molta storia in essa, in effetti. Molti di questi materiali non sono gravati dal diritto d’autore (Sebbene possano essere gravati da altre ragioni, come la privacy. La disponibilità massiccia di materiale digitale, se voi pensate subito proprio alle aree come gli archivi pubblici, ci ha condotto al punto in cui stiamo confrontando una nuova serie di interrogativi circa quanto siamo a nostro agio nel pubblico. C’è pubblico e c’è realmente pubblico. C’è una differenza tra le cose che sono pubbliche per controllo, se voi vi recate in tribunale e fate un po’ di ricerche, in contrapposizione ai documenti digitali che compaiono su Google quando passate il tempo inserendo i nomi delle persone nella sezione di ricerca).

Su questi materiali si può fare legittimamente affidamento come contenuto per le collezioni digitali di eredità culturale. Abbiamo bisogno di riconoscere che, infatti, c’è una continuità intellettuale tra i materiali culturali, i materiali storici, i materiali sociali del passato e quelli del presente. E abbiamo bisogno di iniziare a riflettere su come rendere questi più di una unità, nel momento in cui costruiamo le collezioni di eredità culturale. Il fatto che questi archivi sono ora nati come digitali, sta cambiando la natura dei nostri archivi intellettuali, che procedono. Questi materiali sono una parte importante delle nuove collezioni di eredità culturale, ma sono differenti perché sono nati come digitali e seguiranno strade molto diverse dai loro creatori alle nostre istituzioni di eredità culturale. Non abbiamo il tempo per esplorare questo argomento oggi, ma è importante non limitare il nostro pensiero alle collezioni digitali dell’eredità culturale solo ai materiali senza diritto d’autore che abbiamo digitalizzato.

Quindi, io spero che queste speculazioni — e, francamente, molti di questi commenti sono speculazioni — siano utili almeno nell’inquadrare interrogativi, nel fornire modi di pensare ad alcuni progetti che state portando avanti. La mia idea è che stiamo cominciando a vedere un po’ di maturità, attualmente, nella pratica dello sviluppo delle collezioni digitali. E’ molto impressionante per me come possiamo puntare non solo a standards ed esperienze utili, ma anche ad un ampio corpus di buona pratica. Ora abbiamo esperienza sufficiente, ora abbiamo modelli sufficienti che, se state creando un programma di digitalizzazione, possiamo indicarvi guide e programmi educativi che vi aiutano a pensare come costruire le collezioni digitali, come pianificare e fare un bilancio preventivo per un progetto di digitalizzazione, come selezionare standards e tecnologie appropriati e persino, fino ad un certo grado, come riflettere sulla sostenibilità.

In contrasto, le biblioteche digitali mi sembrano essere, per certi versi, enormemente più complesse, enormemente più aperte. Mentre c’è una ingente quantità di buon lavoro fatto, non penso che siamo da nessuna parte vicino all’essere in grado di indicare con fiducia la buona pratica su come costruire una biblioteca digitale (sebbene possiamo, probabilmente, almeno raccontarvi alcune cose, che sarebbe una buona idea non fare). Le biblioteche digitali sono così ricche come i nostri punti di vista su come possiamo utilizzare e ri-utilizzare l’informazione digitale. Esse sono ricche come le conversazioni che possiamo immaginare tra i libri. Sono così potenti come i collegamenti che possiamo immaginare di creare quando ammassiamo il materiale e nel mondo digitale diventa più ampio della somma delle sue parti. E, forse, è un bene che non siamo pronti per produrre pratiche guida migliori per le vere biblioteche digitali (in opposizione alle collezioni digitali che si mascherano sotto l’etichetta di biblioteche digitali), che ogni cosa è ancora molto aperta per tentare nuove cose ed esplorare nuove idee in questa area. Nelle biblioteche digitali noi vogliamo ancora tenere aperte le nostre possibilità, non limitare il nostro pensiero prematuramente. Io penso che riconoscendo questa distinzione tra le biblioteche digitali e le collezioni digitali e gli ampiamente differenti livelli di maturità sia molto prezioso. Tutta l’incertezza e tutta la promessa relative alle biblioteche digitali — e gli sguardi eccitanti del futuro che possiamo osservare sul sentiero sfavillante di oggi dei progetti di biblioteche digitali — ci aiuta anche a comprendere come continuare ad evolvere la nostra riflessione sulle collezioni digitali e la nostra pratica nella loro creazione e mantenimento.

Grazie.

Ho promesso, in realtà, di terminare in modo tempestivo e mi sono detto che abbiamo, effettivamente, il tempo per alcune domande, commenti o discussione, che saranno benvenuti.

Dr. Hastings: Clifford, parleresti un po’ degli aiuti alla scoperta e, specificamente, del lavoro che Brewster Kahle sta compiendo con la sua Wayback Machine.

Dr. Lynch: Gli aiuti alla scoperta e la Brewster Kahale’s Wayback Machine. Posso certamente parlare di entrambe queste cose, non sono sicuro di collegarle in modo specifico (Risata).

La Brewster Kahale’s Wayback Machine, per coloro tra voi che non l’hanno vista è un sistema che, essenzialmente, vi permette di navigare nei suoi archivi di pagine Web catturati dal Web nel tempo. Quindi, voi potete dire io sono interessato alla pagina Web presso questa URL, essa torna indietro e dice "Ne ho una del marzo 1998, un’altra dell’aprile 1999, ecc.". E voi potete prendere quella che volete. E’ uno strumento affascinante e meraviglioso per tentare di mettere mano su un po’ di materiale storico nel Web che ha catturato nell’Archivio Internet. Il nome viene dai cartoni animati Sherman e Peabody che facevano parte del Rocky and Bullwinkle show, che dimostra il gusto squisito di Brewster nella cultura (che condivido molto). Nel contesto del mio discorso, lo caratterizzerei come più di una collezione digitale che una biblioteca digitale, a questo punto.

Gli aiuti alla scoperta dove vanno bene? Non ho parlato molto degli aiuti alla scoperta. Gli aiuti alla scoperta sono certamente parte di collezioni organizzative. A volte li creiamo noi, perché sono il meglio che possiamo permetterci di fare. A volte, li facciamo perché, anche se siamo stati in grado di investire nella descrizione a livello dell’articolo, essi forniscono un tipo di mappa stradale al materiale, un livello più elevato di astrazione, che è utile. Io penso che questa sia un’area sulla quale abbiamo bisogno di riflettere molto più a fondo. Un’ampia parte della nostra pratica in questa area deriva, in realtà, dalla pratica storica che viene diretta alle piccole comunità di accademici assai esperti. E, mentre questi aiuti alla scoperta sono molto utili per gli accademici, quando osserviamo la molteplicità di pubblici ora impegnati, stiamo rendendo enormemente sempre più accessibile una grande quantità dei materiali, non sono sicuro quali siano le corrette strutture di metadata per facilitare la creazione di un ampio spettro di interfacce di presentazione e come gli aiuti alla scoperta siano utili in tale contesto. So che Howard Besser, seduto vicino a voi, ha dato uno sguardo a questo interrogativo da riproporre a diversi pubblici.

Io penso che questo sia, in effetti, parte di una questione molto più ampia circa la descrizione della collezione. Potete pensare ai finanziamenti di ricerca come uno degli elementi della descrizione della collezione. C’è grande interesse ora nel descrivere le collezioni, dal momento che abbiamo creato questa costellazione incredibile di collezioni, di insieme di informazione, accessibili attraverso la Rete. E le persone non riescono a trovare in quale insieme guardare. La mia sensazione è che ancora abbiamo tantissimo da imparare su questo, e che la descrizione della collezione è veramente un problema fondamentalmente difficile. Né gli approcci bibliografici tradizionali, né la serie di approcci di calcolo che sono stati tentati dai gruppi di ricerca della scienza informatica in luoghi come la Stanford University (Hector Garcia-Molina e colleghi vi hanno costruito un sistema chiamato GLOSS) e la University of Virginia (guardate il lavoro di Jim French e Allison Powell), per risolvere i quali io potrei caratterizzarlo come il problema "in quale datatabase dovrei cercare?", catturando in verità tutto ciò di cui ho bisogno dalla descrizione della collezione. Io penso che questa sia un’area che realmente meriti un po’ di indagine molto, molto seria.

Farei un’affermazione persino più ampia che è che penso che una delle cose che la ricchezza e la proliferazione dell’informazione nel mondo digitale ci sta spingendo a rivedere, in generale, sono i livelli e le gerarchie di astrazione. Noi quasi ci chiudiamo in una singola immagine del mondo, per esempio nella pratica bibliografica, nel corso dei decenni scorsi, e io ora ritengo che tali assunzioni debbano essere rivisti con gli sforzi come il lavoro IFLA FRBR, che tenta di riconoscere i livelli multipli di astrazione del lavoro di edizione e di manifestazione. Considero tale interrogativo nei dibattiti circa se uno dovrebbe raccogliere gli archivi a livello dell’articolo o a livello di collezioni di archivi, come parte del raccolto del metadata. Mi sembra che il problema a cui dobbiamo pensare è trasmettere alle persone un punto di vista più flessibile attraverso l’identità e la distinzione, per mettere in grado di affermare "Mi piacerebbe un’immagine di ciò che veramente è il risultato del gruppo ad un ampio livello, non mi infastidire con dettagli sulle edizioni, io voglio solo fare una ricerca sul paesaggio", o "Io sono molto interessato a distinzioni precise". Non abbiamo sistemi e non abbiamo, in realtà, pratiche descrittive che ci diano tanta flessibilità come sta iniziando a sembrare che le persone stiano tentando di navigare questi vasti oceani di informazione di cui hanno realmente bisogno.

Dr. Goodrum: Procedendo verso la descrizione del livello della collezione per pensare di inventare l’intelligenza negli oggetti, è veramente uno spostamento su come pensavamo nel secolo scorso su come organizzare l’informazione da trovare, sia che fosse nella biblioteca, sia negli archivi o nel museo. E suggerirei che sta per richiedere uno spostamento reale nel nostro modo di pensare di essere in grado di scegliere di lasciare andare, di permeare un oggetto, con intelligenza sufficiente che possa essere spedito per conto suo per scegliere di scoprire chi è e trovare il suo pubblico. E noi non siamo realmente preparati per questo.

Dr. Lynch: Bene, lasciatemi fare qui una distinzione che penso sia importante. Voi avete parlato di permeare oggetti con l’intelligenza, io sono molto cauto circa questa nozione di permeare oggetti con l’intelligenza per una serie di motivi. Uno è che penso che sia fondamentalmente difficile. Io penso che gli oggetti corrano il rischio di essere non preservabili. Certamente, più intelligenza mettete in un oggetto, più elevate la complessità di conservarlo. E io penso che i problemi di sicurezza in senso ampio possano essere non trattabili o, almeno, molto difficili. Il modo in cui sto pensando a queste cose in questi giorni è che voi non dovete mettere così tanta intelligenza negli oggetti, così come nell’ambiente. Quindi, gli oggetti sono intelligenti nel senso che rappresentano la conoscenza strutturata. L’inferenza relativa a ciò che accade nel sistema di biblioteca digitale, non con gli oggetti che la raggiungono (essendo un modo casuale o di proposito) ed il comunicare con altri oggetti. Forse, questo sta solo procedendo come un passo di transizione verso oggetti veramente intelligenti, ma io suppongo si sentirmi come oggetti attivamente intelligenti, che sono oltre la nostra capacità di progettarli con sicurezza e schierarli su una produzione di scala a questo punto. Potrei sbagliarmi.

Penso che il tempo sia terminato. Grazie.

NOTE

1. Al termine, un resoconto dell’incontro sarà disponibile presso il sito Web del CNI presso http://www.cni.org.

2. Declan McCullagh, "What the Hollings' Bill Would Do," presso http://www.wired.com/news/politics/0,1283,51275,00.html, visitato il 1 Maggio 2002.

3. Broadband: Bringing Home the Bits, presso http://books.nap.edu/html/broadband/na_statement.html, visitato il 1 Maggio 2002.

4. C.L. Borgman, 1999. "What are digital libraries? competing visions," Information Processing and Management, volume 35, numero 3 (Gennaio), pp. 227-243.

5. "Guide to Good Practice in the Digital Representation and Management of Cultural Heritage Materials," presso http://www.ninch.org/programs/practice/, visitato il 1 Maggio 2002.

6. Clifford A. Lynch, "Personalization and Recommender Systems in the Larger Context: New Directions and Research Questions, " Second DELOS Network of Excellence Workshop on Personalisation and Recommender Systems in Digital Libraries, Dublin, Ireland, 18-20 Giugno 2001; presso http://www.ercim.org/publication/ws-proceedings/DelNoe02/CliffordLynchAb..., visitato il 5 Maggio 2002.

7. Vedi, per esempio, "The Two Micron All Sky Survey at IPAC," presso http://www.ipac.caltech.edu/2mass/index.html, visitato il 1 Maggio 2002.

8. Vedi Raymond Kurzweil, 1990. The Age of Intelligent Machines. Cambridge, Mass.: MIT Press, p. 328.

*Su gentile concessione dell’Autore, Clifford Lynch, direttore della Coalition for Networked Information (CNI) e di Edward Valauskas, Editore di First Monday, su cui è stato pubblicato l’articolo per la prima volta (http://www.firstmonday.org/issues/issue7_5/lynch/index.html), Volume 7, Numero 5, Maggio 2002.
Traduzione a cura di Anna Fata.

> Lascia un commento