Stratégies de conservation d'objets numériques

De nombreuses stratégies de conservation d'objets numériques ont été proposées mais aucune ne convient à tous les types de données, établissements ou situations. Voici un bref aperçu des stratégies actuelles possibles.

Copie de la chaîne de bits — ou plus souvent « copie de sauvegarde ». Cela consiste à produire un double exact d'un objet numérique. Même si elle constitue une composante essentielle de toute stratégie de conservation d'objets numériques, une simple copie de sauvegarde n'est pas une technique de conservation à long terme puisqu'elle ne résout que le problème de la perte de données due à une panne d'un appareil ou d'un support, en raison d'un mauvais fonctionnement, d'une dégradation, d'une destruction malveillante ou d'un désastre naturel. Une copie de sauvegarde est souvent stockée en un lieu éloigné, afin que l'original et la copie ne soient pas vulnérables à un même sinistre. La copie de sauvegarde devrait être considérée comme une stratégie minimale de maintien des données, y compris pour les données les plus éphémères et les moins précieuses.

La fin des lecteurs de disquettesRégénération — Il s'agit de la copie de données numériques d'un support de stockage à long terme vers un autre support du même type, sans modification aucune de la chaîne de bits (p. ex. d'une ancienne bande audionumérique 4 mm qui se dégrade vers une bande audionumérique 4 mm neuve, ou d'un ancien disque compact réinscriptible vers un disque compact réinscriptible neuf). La « régénération modifiée » est la copie sur un autre support suffisamment semblable pour que la chaîne de bits n'ait à subir aucune modification concernant l'application et le système d'exploitation qui utilisent les données (par exemple d'une cartouche de bande de 1/4 po [6 mm] vers une bande 4 mm, ou d'un disque Zip de 100 Mo vers un disque Zip de 750 Mo). La régénération est une composante essentielle de tout programme de conservation d'objets numériques mais elle ne constitue pas en soi un programme complet de conservation. Elle peut répondre aux éventuels problèmes de dégradation et d'obsolescence du support de stockage.

Supports durables ou persistants (p. ex. disques compact à couche réfléchissante en or) — Ces supports peuvent réduire le besoin de régénération et, tout comme une manipulation soignée, le contrôle de la température et de l'humidité, et un entreposage approprié, ils peuvent diminuer les pertes consécutives à la détérioration du support. Par contre, un support durable n'a aucun effet sur toute autre cause possible de perte, dont la perte physique due à une catastrophe, l'obsolescence du support, l'obsolescence des algorithmes de codage ou de mise en forme. Un support durable pourrait même mettre le contenu en danger en donnant un faux sentiment de sécurité.

Le passé tombe dans l'oubli.Conservation technologique — Elle consiste à préserver l'environnement technique de fonctionnement du système, y compris le système d'exploitation, les logiciels d'application originaux, les lecteurs de support, etc. C'est ce que l'on appelle parfois la solution du « musée informatique ». La conservation technologique se veut davantage une stratégie de récupération en cas de désastre, à utiliser pour des objets numériques qui n'ont pas bénéficié d'une stratégie appropriée de conservation. Elle permet de faire face à l'obsolescence des supports, en supposant que ceux-ci ne se sont pas dégradés au point d'être illisibles. Elle permet d'agrandir la fenêtre d'accès pour des supports et des formats de fichier périmés mais elle mène ultimement à une impasse puisqu'aucune technologie obsolescente ne peut être maintenue indéfiniment en état de fonctionnement. Cette stratégie n'est pas non plus à la portée d'un établissement seul. Le maintien d'une technologie obsolescente en état d'utilisation exige un investissement considérable en équipement et en personnel.

Archéologie numérique — Elle comprend les techniques et méthodes de récupération du contenu de supports endommagés ou d'un environnement matériel et logiciel endommagé ou périmé. L'archéologie numérique constitue nécessairement une stratégie de récupération d'urgence et fait intervenir des techniques spécialisées de récupération de chaînes de bits à partir de supports devenus illisibles, en raison de dommages physiques ou d'une panne de matériel tels qu'un écrasement de tête de lecture ou le froissement d'une bande magnétique. L'archéologie numérique est généralement pratiquée par des entreprises à but lucratif qui se spécialisent dans la récupération de données et qui possèdent une variété de dispositifs de stockage (y compris de types obsolescents) ainsi que des installations spéciales telles que des pièces stériles pour le démantèlement de lecteurs de disques rigides. À condition d'y mettre le prix, on peut souvent récupérer des chaînes de bits lisibles à partir de supports (en particulier magnétiques) lourdement endommagés, mais si le contenu est trop ancien, il peut ne pas être possible d'en tirer une information utile et compréhensible.

Sauvegardes analogiques — Cette stratégie combine la conversion d'objets numériques en une forme analogique avec l'utilisation de supports analogiques durables, par exemple HD Rosetta ou la création de microfilms aux halogénures d'argent à partir d'images numériques. Une copie analogique d'un objet numérique peut sous certains aspects en conserver le contenu et le protéger de l'obsolescence, au prix toutefois de la perte d'avantages de la forme numérique tels que les possibilités de partage et le transfert sans perte. Les textes et les images fixes monochromatiques sont les mieux adaptés à ce genre de conversion. Étant donné le coût et les restrictions des sauvegardes analogiques, ainsi que leur pertinence limitée à certaines catégories de documents, cette technique n'est valable que pour des documents dont le contenu mérite le maximum de redondance et de protection contre les pertes.

Migration — Elle consiste à copier ou à convertir des données d'une technologie à une autre, matérielle ou logicielle, tout en conservant les caractéristiques essentielles de ces données. Cette définition simple, due à Peter Graham, traduit l'essence en même temps que l'ambiguïté de la migration. Pour certains, la migration est synonyme de régénération telle que la définissent les auteurs de Preserving Digital Information :

« Le concept de migration est plus large et plus riche que celui de ‘régénération’ en ce qui a trait aux options de conservation d'objets numériques. La migration est un ensemble de tâches organisées, conçues pour effectuer le transfert périodique d'objets numériques d'une configuration matérielle et logicielle à une autre, ou d'une génération de technologie informatique à une autre plus récente. La migration vise à préserver l'intégrité des objets numériques et de maintenir la capacité des clients à les extraire, les afficher et les utiliser malgré l'évolution technologique constante. [...] La migration comprend la régénération comme moyen de conservation d'objets numériques mais elle s'en distingue par le fait qu'il n'est pas toujours possible de faire une copie ou une réplique numérique exacte d'une base de données ou d'un autre objet d'information tout en faisant en sorte qu'elle soit compatible avec la nouvelle génération de moyens techniques. » [traduit de l'anglais]Les implications de la conversion de formats de fichier complexes n'ont pas fait l'objet de tests approfondis.

En théorie, la migration va au-delà de la simple viabilité puisqu'elle comprend la conversion des données de manière à éviter l'obsolescence non seulement du support physique de stockage mais aussi du codage et du format des données. Par contre, les effets de la migration de formats de fichier complexes n'ont pas fait l'objet d'études approfondies. L'une des études les plus complètes à ce jour est intitulée Risk Management of Digital Information: A File Format Investigation [Gestion des risques en matière d'information numérique : étude de formats de fichier]. Certaines critiques de la migration sont fondées sur le fait que ni l'authenticité ni l'intégrité d'un document numérique ne peuvent être garanties.

Duplication — Ce terme correspond à plusieurs réalités. La copie d'une chaîne de bits est une forme de duplication. OAIS considère que la duplication est une forme de migration. LOCKSS (Lots of Copies Keeps Stuff Safe [Beaucoup de copies assurent la sécurité du contenu]) est une forme coopérative de duplication, alors que le troc de données entre pairs est une forme ouverte et libre de duplication. Dans chaque cas, le but visé est d'accroître la longévité de documents numériques, tout en maintenant leur authenticité et leur intégrité, en les copiant et en utilisant de nombreux lieux de stockage.

Normes — Les normes sont au logiciel ce qu'un support durable est au matériel. Elles visent le « renforcement » du codage et de la mise en forme d'objets numériques par le choix et le respect de normes reconnues plutôt que de normes plus ésotériques et moins bien prises en charge. Le recours à des normes suppose en partie que celles-ci seront durables et que les problèmes de compatibilité résultant de l'évolution de l'environnement informatique (logiciels d'application, systèmes d'exploitation) seront résolus du fait de la nécessité de prendre en charge les normes existantes dans le nouvel environnement. Par exemple, si JPEG2000 devient une norme largement adoptée, le seul nombre d'utilisateurs garantit que les logiciels de codage, de décodage et de restitution d'images JPEG2000 seront mis à niveau afin d'être compatibles avec les nouveaux systèmes d'exploitation, processeurs, etc. Comme beaucoup des stratégies décrites ici, le recours à des normes peut atténuer la menace immédiate d'obsolescence d'objets numériques, mais il ne constitue pas une solution de conservation plus permanente que l'emploi de disques compact à couche réfléchissante en or ou de tablettes de pierre.

Normalisation — Il s'agit de la mise en œuvre officielle de normes. Dans des archives, tous les objets numériques d'un type donné (p. ex. images en couleurs, textes structurés) sont convertis en un même format de fichier choisi au préalable et sensé représenter le meilleur compromis de caractéristiques telles que la fonctionnalité, la longévité et la facilité de conservation. Les avantages et inconvénients des normes s'appliquent aussi à la normalisation.

Définition d'une forme canonique — Aussi désignée par le néologisme canonicalisation, cette technique consiste à déterminer si les caractéristiques essentielles d'un document numérique demeurent intactes lors de la conversion d'un format à un autre. La définition d'une forme canonique est fondée sur la création d'une représentation d'un type d'objet numérique qui en couvre tous les aspects importants d'une manière hautement déterministe. Une fois qu'elle est définie, on peut utiliser la forme canonique pour vérifier de manière algorithmique si un fichier a perdu ou non une partie de son essence lors d'une conversion. On a postulé que la définition d'une forme canonique pourrait aider à tester l'intégrité d'une migration mais cette technique n'a pas encore été mise en œuvre.

Émulation — Elle consiste à utiliser une combinaison de logiciel et de matériel pour reproduire toutes les caractéristiques essentielles d'un ordinateur de conception différente, permettant aux programmes ou aux supports conçus pour un environnement informatique donné de fonctionner dans un environnement différent, généralement plus récent. L'émulation suppose la réalisation d'émulateurs, des programmes qui traduisent le code et les instructions d'un environnement informatique de manière à ce qu'ils s'exécutent correctement dans un autre environnement.La plupart des émulateurs disponibles aujourd'hui permettent de faire tourner sur des ordinateurs modernes des jeux conçus pour des machines obsolescentes.

Un émulateur général bien connu est celui inclus dans des versions récentes du système d'exploitation Macintosh de Apple et qui permet d'utiliser des programmes fondés sur des processeurs plus anciens qui ne sont plus utilisés dans les ordinateurs Apple. Cependant, la pluplart des émulateurs disponibles ont été conçus pour permettre d'utiliser dans des ordinateurs modernes des jeux informatiques écrits pour des systèmes maintenant obsolescents.

Le concept d'émulation a été mis à l'épreuve dans plusieurs projets, avec en général des résultats prometteurs. Par contre, une utilisation à grande échelle de l'émulation comme stratégie de conservation à long terme d'objets numériques exigera la création de consortiums chargés des tâches techniques de la création d'émulateurs fonctionnels ainsi que du travail administratif requis pour recueillir les spécifications et la documentation des systèmes à simuler et obtenir les droits de propriété intellectuelle rattachés au matériel et aux logiciels pertinents.

Encapsulation — On peut la concevoir comme une technique de groupage d'un objet numérique et des métadonnées nécessaires pour accéder à cet objet. Il est clair que le processus de groupage diminue la probabilité de perte d'une composante essentielle au décodage et à la restitution d'un objet numérique. Les types de métadonnées à encapsuler avec un objet numérique comprennent l'information d'identification, de représentation, de provenance, d'intégrité et de contexte de l'objet. L'encapsulation est considérée comme un élément clé de l'émulation.

Ordinateur virtuel universel — Il s'agit d'une forme d'émulation. Elle requiert la mise au point d'un « programme informatique indépendant de tout matériel ou logiciel existant et capable de simuler l'architecture fondamentale de tout ordinateur ayant existé depuis les débuts de l'informatique, notamment la mémoire, les registres de l'unité centrale et les règles de déplacement d'information de l'un à l'autre. Les utilisateurs pourraient créer et enregistrer des fichiers numériques à l'aide des logiciels d'application de leur choix, mais tous les fichiers seraient sauvegardés sous une forme lisible par l'ordinateur universel. Pour lire les fichiers dans l'avenir, il suffirait d'une seule couche d'émulation — entre l'ordinateur virtuel universel et l'ordinateur utilisé au moment de la lecture. »
(traduit de Tristram, Claire. « Data Extinction », dans MIT Technology Review, octobre 2002, p. 42)