Obsolescenza: Formati di file e Software

Introduzione
I file, gli oggetti che di solito sono considerati l’obiettivo principale della conservazione digitale, rispondono a principi predefiniti, sia strutturali che organizzativi. Questi principi, di solito definiti dal termine formato di file, sono descritti in un documento chiamato specifica di formato. Una specifica di formato fornisce i dettagli necessari per costruire un file con un tipo di dati valido e per mettere a punto le applicazioni software capaci di decodificare file simili e di restituirne il contenuto. Queste specifiche possono avere una dimensione estremamente variabile, da molto meno di 100 pagine a molto più di 1000, a seconda della complessità del formato.

Anche se certe specifiche di formato sono per la maggior parte indipendenti da software specifici (ad esempio i codici ASCII e Unicode), molte sono legate a singoli o a gruppi di software. Il software e la specifica di formato corrispondente si evolvono, di solito, di pari passo e il destino di ognuno è spesso legato a quello dell'altro. È perciò opportuno affrontare il tema dell’obsolescenza dei software insieme a quello dell’obsolescenza dei formati di file.

Cosa contiene una specifica di formato?
Senza specifiche di formato, un file non è altro che una sequenza senza senso di zero e uno. La specifica di formato indica le suddivisioni, la codifica, le sequenze, l'organizzazione, la misura e le relazioni interne che identificano il formato in modo univoco e che lo rendono interpretabile e restituibile. Ad esempio, una specifica di formato deve indicare la posizione delle cesure significative all’interno della sequenza di bit e dire se un sottoinsieme di tale catena deve essere interpretato come un carattere ASCII, un valore numerico, un comando macchina, una scelta di colore o altro ancora.

 Esempio
Anche se non è necessario dare i dettagli di determinate specifiche di formato, una rapida analisi di un caso specifico può aiutare a capire perché i formati di file sono a rischio di obsolescenza. Prendiamo ad esempio il caso della specifica di formato TIFF 6.0 (Tagged Image File Format) che descrive il famoso formato di immagini raster. La pagina 13 di questo documento definisce l’unità-base di un file TIFF e la sua lunghezza massima, descrive poi, byte dopo byte, la struttura interna di un file TIFF valido. Un file che non rispetti alla lettera queste regole non viene riconosciuto o non viene restituito in modo esatto dal lettore TIFF.

Quali fattori contribuiscono all’obsolescenza dei formati di file?
Un formato di file può diventare obsoleto per più motivi:

>> le versioni più recenti di un software non supportano i file precedenti.
>> il formato stesso è soppiantato da un altro, o diventa più complesso.
>> il formato non viene adottato in modo diffuso, oppure non vengono creati software compatibili.
>> il formato fallisce, ristagna, oppure non è più compatibile con l’ambiente informatico attuale.
>> il software che supporta questo formato non riesce a sfondare sul mercato oppure viene acquistato da un concorrente, che lo ritira dal mercato.

Perché i formati di file rappresentano una sfida per la conservazione digitale?
Un certo numero di fattori contribuiscono a far sì che i formati digitali rappresentino una sfida per la conservazione. All’inizio dell'evoluzione informatica, poche persone erano consapevoli della minaccia rappresentata dall’obsolescenza dei formati di file per la conservazione digitale a lungo termine. Non è stato fatto nessuno sforzo sistematico per raccogliere la documentazione dei vari software o delle specifiche di formati di file. Senza un’opportuna documentazione, il compito di interpretare il contenuto di un vecchio file o perfino di definire quale sia il formato di un file diventa molto faticoso. Sono state creati migliaia di formati di file e di variazioni. È soltanto di recente che si è iniziato a catalogarli, a documentarli, a capirne le relazioni e le varianti. Iniziano a nascere tools per automatizzare il processo di identificazione e di caratterizzazione dei file a seconda del loro formato.

La maggior parte dei software vengono aggiornati regolarmente. Anche se la maggior parte dei software possono leggere file creati con la versione precedente o perfino con quella precedente ancora, la capacità di leggere versioni più vecchie è spesso eliminata. I file che non sono stati fatti migrare possono risultare illeggibili per la versione più recente del software, e le versioni più vecchie del software possono non essere più disponibili o possono non girare più su un computer recente o nella versione attuale del sistema operativo.

Inoltre, a causa della complessità e della natura dinamica di molti formati di file, può essere estremamente complesso sapere se un file convertito in un altro formato (o a una versione più recente dello stesso formato) abbia conservato tutte le sue caratteristiche e funzionalità.

Certi formati di file sono meno vulnerabili di altri all’obsolescenza?
Ogni software può diventare obsoleto: allo stesso modo ogni formato di file utilizzato da tale software è altrettanto vulnerabile. A prima vista, può sembrare che i file utilizzati da un software stabile (vale a dire soggetto a pochi cambiamenti) siano meno a rischio di obsolescenza, e questo è vero, per lo meno a breve termine. Ma un software che non si evolve diventa inevitabilmente obsoleto esso stesso, poiché non si adatta all’evoluzione generale dell’ambiente informatico (architettura delle CPU, sistemi di sviluppo, sistemi di codifica, protocolli di trasferimento dati) in cui deve funzionare. Gli utenti devono perciò fare attenzione ai formati di file che si evolvono rapidamente o che invece ristagnano, poiché, gli uni come gli altri, sono a rischio di obsolescenza.

Per poter decodificare un vecchio formato di file, è necessario poter accedere alle specifiche di questo formato. Di conseguenza il grado di controllo esercitato dall’autore di una specifica di formato sulla sua pubblicazione ha un impatto notevole sulla vulnerabilità all’obsolescenza di tale formato. Le specifiche vengono di solito classificate nelle tre categorie seguenti.

Specifiche proprietarie chiuse — Le specifiche proprietarie chiuse corrispondono ad alcuni dei più duraturi e famosi software presenti sul mercato. Tuttavia, questi tendono ad evolversi rapidamente ed a essere declinati in numerose versioni per i diversi ambienti informatici, con una retrocompatibilità limitata. Di fatto, la tentazione di non offrire sul mercato una buona retrocompatibilità è piuttosto forte, visto che la necessità di condividere i file costringe tutti gli utenti, compresi quelli che vorrebbero continuare ad utilizzare una versione più vecchia, ad adottare la versione più recente. I venditori commerciali devono proporre regolarmente nuove versioni dei loro software, con nuove funzionalità e nuove caratteristiche, in modo che gli utenti siano invogliati ad acquistarle e siano così una fonte costante di reddito per i produttori.

Sfortunatamente l’esperienza mostra che nemmeno le specifiche delle più vecchie versioni di formati di file ritirate dal mercato già da molto tempo sono mai state rilasciate. Inoltre, come è lecito aspettarsi, i formati di file proprietari e chiusi sono interpretati nel modo migliore dai software che li hanno prodotti. Di conseguenza questi formati sono i più vulnerabili all’obsolescenza, a causa di un doppio rischio: l’evoluzione rapida delle specifiche e l’essere vincolati ad un solo prodotto o a una sola ditta.

Inoltre, un software molto popolare, può diventare in breve tempo meno popolare o perfino essere dimenticato. Assistiamo a un forte consolidamento del settore del software commerciale e molti prodotti sono spariti a seconda delle fusioni e delle acquisizioni. Altri hanno perso la battaglia della concorrenza contro prodotti più efficienti o meglio pubblicizzati.

Specifiche proprietarie aperte — Certi formati proprietari presentano meno rischi perché la loro specifica viene pubblicata, permettendo così alle altre ditte (e alle organizzazioni non commerciali) di produrre software che li possano leggere. Tuttavia accade che certe ditte cambino idea a proposito della pubblicazione della loro specifica di formato. Ad esempio, la specifica di formato immagine DjVu è rimasto aperta per un po’ ma, in seguito, il suo proprietario ha deciso di modificarla e di chiuderla al pubblico.

I formati proprietari aperti possono rappresentare un compromesso tra le specifiche chiuse e gli standard internazionali, associando il potere commerciale ad un certo grado di apertura. Possiamo perfino ipotizzare un’altra soluzione intermedia, ad esempio quando un sottoinsieme di un formato proprietario viene adottato come standard. È il caso del PDF/A, una versione di archivio di PDF basata sulla specifica, proprietaria ma aperta, di Adobe. La differenza tra PDF/A e PDF è che il primo elimina gli elementi che possono complicare la decodifica e accelerare l’obsolescenza, ad esempio file audio e video, Javascript, font incorporati e spazi colorimetrici dipendenti dal materiale utilizzato.

La maggior parte delle specifiche di formato proprietarie ma aperte sono tuttavia vulnerabili ai capricci delle leggi di mercato. Possono essere abbandonate in modo arbitrario o per motivi commerciali.

 Esempio 
Adobe ha acquistato la specifica del formato TIFF nel 1994, al momento dell’acquisto della ditta Aldus. Da allora Adobe ha lavorato poco sulla specifica di TIFF che è rimasta alla versione 6.0 lanciata nel 1992. Sebbene “TIFF sia nato per essere estensibile ed evolvere in modo coerente in funzione delle nuove necessità” (si veda la pagina 5 della specifica di TIFF 6.0), la sua specifica non è stata aggiornata per l’ambiente informatico attuale, a parte qualche piccola modifica per risolvere nel caso specifico dei problemi con i software della stessa Adobe e la gestione delle estensioni dei tag header, la maggior parte dei quali non è molto supportata. Sebbene TIFF sia attualmente ben supportato e vitale (viable), questo formato verrà sicuramente eclissato da standard più moderni in via di sviluppo.

Specifiche non proprietarie aperte — Le specifiche pubbliche prodotte da enti internazionali di standardizzazione sono estremamente sicure dal punto di vista della loro accessibilità a lungo termine. Di solito partecipano alla stesura degli standard rappresentanti di numerosi e diversi enti: questo contribuisce a far sì che gli standard rispondano alle necessità di una molteplice varietà di utenti e non siano legati a singoli interessi economici. Il gran numero delle persone che partecipa alla stesura di questi standard favorisce inoltre una riconoscibilità generale al momento dell'uso. La retrocompatibilità con gli standard precedenti è di solito una priorità e non vengono fatte pressioni di natura commerciale per renderle obsolete in fretta.

D’altro canto non tutti i formati standard rappresentano la scelta migliore. Per ridurre il rischio di obsolescenza, uno standard deve essere massicciamente adottata sia dagli utenti che dai programmatori, e questo non sempre accade.

 Esempio
Il formato PNG (Portable Network Graphics) di immagini statiche a colori è uscito dopo che il formato GIF (Graphic Image Format) si era impantanato tra brevetti e royalties legati all’utilizzo dell’algoritmo di compressione LZW. Sebbene sia chiaramente più valido rispetto al formato GIF sotto quasi tutti gli aspetti tecnici e sia libero da vincoli commerciali, PNG non è riuscito a raggiungere una massa critica di utenti, a causa dell’immenso numero di immagini GIF in circolazione.
 

Scegliere il formato di file meno a rischio, per quanto possibile, d’obsolescenza
Ecco i fattori da prendere in esame per valutare il grado di persistenza di un formato di file:

>> utilizzo diffuso
>> premesse di retrocompatibilità
>> buon supporto di metadati (in un formato aperto come l’XML)
>> buona gamma di funzionalità, associata a bassa complessità
>> interface disponibili e con forme utilizzabili
>> dispositive integrati per la verifica di errori
>> ciclo di aggiornamento accettabile

Misure di conservazione: suggerimenti
Valutate lo stato dei formati di file dei vostri archivi digitali. Quali formati e quali versioni sono presenti, e in quale quantità? Fare questo inventario è un passo importante per la gestione dei rischi legati ai formati di file. Diminuite al massimo il numero dei formati utilizzati in modo da non moltiplicare gli sforzi e in modo da eliminare i formati più problematici. Si tratta di un processo di normalizzazione che dovrebbe riguardare in primo luogo i formati più a rischio, ad esempio quelli creati da software obsoleti o da versioni obsolete di software attuali.

Alcuni formati, in particolar modo quelli obsoleti, non possono essere convertiti in formati meno vulnerabili senza una qualche perdita di fedeltà. Se il software originale non è disponibile, può essere impossibile determinare il grado di perdita.

Stanno nascendo alcune risorse per valutare le possibilità di migrazione. Il database PRONOM può aiutare a determinare se, per un vecchio formato di file, esista una possibilità di migrazione grazie a una versione più recente o di un tool specializzato per la conversione. Tuttavia non dà ancora molti dettagli sull’invarianza [invariance]: non è cioè possibile conoscere quanto il file “migrato” sia simile all’originale per quanto riguarda l’apparenza e la funzionalità. Il Rapporto di Lawrence et al. “Risk Management of Digital Information: A File Format Investigation” affronta gli effetti della migrazione sull’integrità dei file e può servire a valutare un processo di migrazione. Il metodo INFORM ha per scopo di misurare la durata di conservazione dei formati digitali.

Soltanto mettendo attentamente a confronto quanto entra e quanto esce, è possibile valutare i rischi e le perdite. Questo metodo proattivo e informato di gestione dei rischi è probabilmente più sicuro che “aspettare e vedere cosa succede”. Quest’ultimo atteggiamento potrebbe causare perdite catastrofiche.

Se non è possibile fare la migrazione tramite software, se il software originale è disponibile ma non funziona più nei computer recenti, è possibile invece recuperare i vecchi file grazie ad un emulatore. Un emulatore funziona in un sistema recente ma riproduce un ambiente più vecchio in cui il vecchio software può girare. Questo permette per lo meno di leggere i file e di convertirli in un formato di scambio e, da questo, in un formato recente.

Consulta le risorse.