Obsolescence : Formats et logiciels de traitement de fichiers

Introduction
Les fichiers informatiques, qui sont les objets normalement considérés comme la principale cible de la conservation d'objets numériques, répondent à des principes prédéfinis de structure et d'organisation. Ces principes, habituellement désignés par le terme format de fichier, sont en général exposés dans un document appelé définition de format. Une définition de format donne les détails nécessaires pour construire un fichier valide d'un type donné, et pour mettre au point les logiciels d'application capables de décoder de tels fichiers et d'en restituer le contenu. Ces définitions peuvent être de longueurs très variées, de bien moins de 100 pages à beaucoup plus de 1000, selon la complexité du format.

Même si certaines définitions de format sont en grande partie indépendantes de logiciels précis (par exemple les codes tels que ASCII et Unicode), la plupart sont liées à des logiciels ou groupes de logiciels d'application. Ces logiciels et la définition de format qu'ils accompagnent évoluent généralement ensemble et leurs destinées respectives sont souvent étroitement liées. Il est donc approprié d'aborder en même temps l'obsolescence des logiciels et celle des formats de fichier.

Que contient une définition de format?
Sans définition de format, un fichier n'est qu'une suite de zéros et de uns dépourvue de signification. La définition de format indique les subdivisions, le codage, les séquences, l'organisation, la taille et les relations internes qui définissent le format de manière unique et qui en permettent l'interprétation et la restitution. À titre d'exemple, une définition de format doit indiquer l'emplacement des séparations significatives à l'intérieur de la chaîne de bits et dire si un sous-ensemble de cette chaîne doit être interprété comme un caractère ASCII, une valeur numérique, une instruction machine, une sélection de couleur ou quelque chose d'autre.

 Un cas d'espèce
Même s'il n'est pas nécessaire de donner les détails de définitions de format en particulier, l'examen rapide d'un cas peut aider à comprendre pourquoi les formats de fichier sont susceptibles d'obsolescence. Prenons l'exemple de la définition de format TIFF 6.0 (Tagged Image File Format [format de fichier d'image marqué]), qui décrit ce format répandu d'image en mode point. La page 13 de ce document définit l'unité de base d'un fichier TIFF ainsi que sa longueur maximale, puis décrit, octet par octet, la structure interne d'un fichier TIFF valide. Un fichier qui ne respecte pas rigoureusement ces exigences n'est pas reconnu ou est restitué de manière erronée par un lecteur TIFF.

Quels facteurs contribuent à l'obsolescence d'un format de fichier?
Un format de fichier peut devenir obsolescent pour diverses raisons :

>> Les nouvelles versions d'un logiciel ne prennent pas en charge les fichiers des versions antérieures.
>> Le format lui-même est supplanté par un autre ou devient plus complexe.
>> Le format est peu adopté, ou peu de logiciels compatibles sont créés.
>> Le format échoue, stagne ou n'est plus compatible avec l'environnement informatique actuel.
>> Le logiciel qui prend en charge le format n'arrive pas à percer le marché ou est acheté par un concurrent qui le retire du marché.

Pourquoi les formats de fichier constituent-ils un défi pour la conservation d'objets numériques?
Un certain nombre de facteurs contribuent au défi que représentent les formats de fichier numérique. Au cours des premières décennies de l'informatique, peu de gens étaient conscients de la menace que pouvait représenter l'obsolescence des formats de fichier pour la conservation à long terme d'objets numériques. Aucun effort systématique n'a été fait pour recueillir de la documentation des logiciels ou des définitions de format de fichier. Sans une documentation appropriée, la tâche d'interpréter le contenu d'un ancien fichier ou même de déterminer quel est le format d'un fichier devient très pénible. Des milliers de formats de fichier et de variantes ont été créés. Ce n'est que récemment que l'on a entrepris de les cataloguer, de les documenter, d'en comprendre les variantes et les relations. On commence à voir des outils conçus pour automatiser le processus d'identification et de caractérisation des fichiers selon leur format.

La plupart des logiciels sont régulièrement mis à niveau. Même si la majorité des logiciels d'application peuvent lire des fichiers créés à l'aide de la version précédente et peut-être même de la version antérieure à celle-ci, la capacité de lire les versions les plus anciennes est souvent laissée de côté. Les fichiers qui n'ont pas fait l'objet d'une migration peuvent être illisibles par la version la plus récente du logiciel, et les versions plus anciennes du logiciel peuvent ne plus être disponibles ou ne plus fonctionner dans un ordinateur récent ou dans la version actuelle du système d'exploitation.

De plus, en raison de la complexité et du caractère évolutif de nombreux formats de fichier, il peut être extrêmement difficile de savoir si un fichier converti d'un format à un autre (ou à une version plus récente d'un même format) a conservé toutes ses caractéristiques et possibilités de traitement.

Certains formats de fichier sont-ils moins vulnérables que d'autres à l'obsolescence?
Comme tout logiciel peut devenir obsolescent, tous les formats de fichier traités par un logiciel sont également vulnérables. À première vue, il peut sembler que les fichiers utilisés par un logiciel stable (c'est-à-dire qui subit peu de changements) sont moins susceptibles d'obsolescence, et cela est effectivement vrai à court terme. Mais un logiciel qui n'évolue pas devient inévitablement obsolescent lui-même car il ne s'adapte pas à l'évolution générale de l'environnement informatique (architecture des processeurs, systèmes d'exploitation, systèmes de codage, protocles de transfert de données) dans lequel il doit fonctionner. Les utilisateurs doivent donc faire attention aux formats de fichier qui évoluent rapidement ou qui stagnent, car ils sont les uns comme les autres vulnérables à l'obsolescence.

Pour pouvoir décoder un ancien format de fichier, il faut avoir accès à la définition de ce format. Par conséquent, le degré de contrôle exercé par l'auteur d'une définition de format sur sa publication a un impact significatif sur la vulnérabilité du format à l'obsolescence. Les définitions se classent généralement dans l'une des trois catégories ci-dessous.

Définitions exclusives fermées — Certains des logiciels les plus durables et populaires actuellement utilisés correspondent à des définitions de format exclusives à leur auteur et fermées. Par contre, ces logiciels ont tendance à évoluer rapidement et à se décliner dans de nombreuses versions pour différents environnements informatiques, avec une rétrocompatibilité limitée. De fait, la tentation est grande sur le plan commercial de ne pas offrir une bonneexamples: Microsoft Office applications. Adobe, Photoshop, WordPerfectrétrocompatibilité, puisque le besoin d'échanger des fichiers force tous les utilisateurs, y compris ceux qui préféreraient continuer d'utiliser une version plus ancienne, à adopter la version la plus récente. Les fournisseurs commerciaux doivent régulièrement livrer de nouvelles versions de leurs logiciels, dotées de nouvelles fonctions et caractéristiques, pour que les utilisateurs soient tentés de se les procurer, constituant ainsi une source constante de revenus pour les fournisseurs.

Malheureusement, l'expérience montre que même les définitions les plus anciennes de versions de formats de fichier retirées depuis longtemps du marché n'ont jamais été publiées. De plus, comme l'on pourrait s'y attendre, ce sont les logiciels de l'auteur d'une définition qui interprètent le mieux les formats de fichier exclusifs et fermés. Par conséquent, ces formats sont les plus vulnérables à l'obsolescence à cause du double risque d'évolution rapide des définitions et de limitation à un seul produit ou à une seule entreprise.

En outre, un logiciel très populaire aujourd'hui peut devenir un choix secondaire ou même tomber dans l'oubli demain. On assiste à une importante consolidation du secteur du logiciel, et de nombreux produits ont disparu suite à des fusions et acquisitions d'entreprise. D'autres ont perdu la bataille de la concurrence pour des raisons techniques ou de mise en marché.

Définitions exclusives ouvertes — Certains formats exclusifs présentent moins de risques parce que leur définition est publiée, ce qui permet à d'autres entreprises (et à des organisations non commerciales) de produire des logiciels capables de lire les fichiers correspondants. Cependant, il arrive que des entreprises changent d'idée à propos de la publication de leur définition de format. Par exemple, la définition du format d'image DjVu a été ouverte pendant un certain temps, puis son propriétaire a décidé de la modifier et de ne plus la rendre publique.

exemples: Adobe P D F, Adobe T I F F, Macromedia s w fLes formats exclusifs ouverts peuvent représenter un compromis entre les définitions fermées et les normes internationales en combinant l'influence commerciale et un certain degré d'ouverture. On peut même envisager une autre solution intermédiaire, comme lorsqu'un sous-ensemble d'un format exclusif est adopté en tant que norme. C'est le cas de PDF/A, une version d'archivage de PDF fondée sur la définition exclusive mais ouverte d'Adobe. PDF/A se distingue de PDF par l'élimination d'éléments susceptibles de compliquer le décodage et d'accélérer l'obsolescence tels que les extraits audio et vidéo, Javascript, les polices externes et les espaces colorimétriques qui dépendent du matériel utilisé.

La plupart des définitions de format exclusives mais ouvertes sont néanmoins vulnérables aux caprices des forces du maché. Elles peuvent être abandonnées de manière arbitraire ou pour des raisons commerciales.

 Un cas d'espèce
Adobe a acquis la définition du format TIFF en 1994 lors de l'achat de la société Aldus. Depuis lors, Adobe a peu travaillé sur la définition de TIFF, qui en est resté à la version 6.0 lancée en 1992. Même si « TIFF est conçu pour être extensible — et évoluer harmonieusement en fonction de besoins nouveaux » (voir la page 5 de la définition de TIFF 6.0), sa définition n'a pas été modernisée pour l'environnement informatique actuel, mis à part quelques petites modifications visant spécifiquement à résoudre des problèmes avec les logiciels de la société Adobe elle-même et la maintenance des extensions de ses balises d'en-tête, dont la plupart ne sont que peu prises en charge. Même si TIFF est bien reconnu et viable aujourd'hui, ce format sera sans doute éclipsé par des normes plus modernes en cours de développement.

Définitions non exclusives ouvertes — Les définitions publiées produites par des organismes internationaux de normalisation sont les plus sûres du point de vue de leur disponibilité à long terme. En général, des représentants de nombreux organismes différents participent à l'élaboration de ces normes, ce qui contribue à faire en sorte qu'elles tiennent compte des besoins d'une grande variété d'utilisateurs et qu'elles ne sont pas liées à des intérêts commerciaux particuliers. Le grand nombre de participants à l'élaboration de ces normes favorise une reconnaissance généralisée lorsqu'elles sont prêtes à utiliser. La rétrocompatibilité avec des normes connexes plus anciennes est généralement une priorité, et il n'y a pas de pression commerciale pour les rendre rapidement périmées.exemples: jpeg/jfif, mpeg-2, xml, svg

Par contre, les formats standard ne constituent pas nécessairement toujours les meilleurs choix. Pour être peu vulnérable à l'obsolescence, une norme doit être largement adoptée tant par les utilisateurs que par les réalisateurs de systèmes, et ce n'est pas toujours ce qui se passe.

 Un cas d'espèce
Le format PNG (Portable Network Graphics [graphique réseau portable]) d'image fixe en couleurs, apparu après le format GIF (Graphic Interchange Format [format d'échange graphique]) s'est embourbé dans des problèmes de brevets et de redevances liés à son utilisation de l'algorithme de compression LZW. Même s'il est clairement supérieur au format GIF sous presque tous les aspects techniques et qu'il est libre de toute entrave commerciale, PNG n'a pas réussi à atteindre une masse critique d'utilisation, à cause du nombre gigantesque d'images GIF existantes.
 

Choix d'un format de fichier le moins vulnérable possible à l'obsolescence
Voici les facteurs à considérer pour évaluer la pérennité d'un format de fichier :

>> une utilisation répandue,
>> des antécédents de rétrocompatibilité,
>> une bonne prise en charge des métadonnées (dans un format ouvert tel que XML),
>> une bonne gamme de fonctions mais une complexité raisonnable,
>> la disponibilité d'interfaces avec des formes utilisables,
>> des dispositifs intégrés de vérification d'erreurs,
>> un cycle de mise à niveau raisonnable.

Mesures de conservation suggérées
Déterminez l'état des formats de fichier de vos archives numériques. Quels formats et versions sont représentés, en quelles quantités? Un tel inventaire constitue une étape importante de la gestion des risques liés aux formats de fichier. Réduisez autant que possible le nombre de formats utilisés afin de diminuer la duplication d'efforts et d'éliminer les formats qui posent des problèmes. Il s'agit d'un processus de normalisation, qui devrait viser en premier lieu les formats présentant le plus de risques, par exemple ceux qui sont créés par des logiciels obsolescents ou des versions périmées de logiciels existants.

Certains formats, en particuliers ceux qui sont obsolescents, ne peuvent pas être convertis en des formats moins vulnérables sans une certaine perte de fidélité. Si le logiciel d'origine n'est pas disponible, il peut être impossible de déterminer le degré de perte.

Des ressources d'évaluation des possibilités de migration commencent à faire leur apparition. La base de données PRONOM peut aider à déterminer si, pour un ancien format de fichier, il existe une possibilité de migration à l'aide d'une version plus récente ou d'un outil spécialisé de conversion. Par contre, elle ne donne pas encore beaucoup de détails sur l'invariance, c'est-à-dire jusqu'à quel point le fichier obtenu après migration reproduit l'apparence et les fonctions de l'original. Le rapport de Lawrence et al. intitulé Risk Management of Digital Information: A File Format Investigation [Gestion des risques en matière d'information numérique : étude de formats de fichier] aborde les effets de la migration sur l'intégrité des fichiers et peut dans une certaine mesure servir de guide d'évaluation d'un processus de migration. La méthode INFORM vise à mesurer le potentiel de durée de conservation de formats numériques.

Ce n'est qu'en comparant attentivement les entrées et les sorties que l'on peut évaluer les risques et les pertes. Cette méthode proactive et informée de gestion des risques est probablement plus sûre que d'« attendre et voir ce qui va se passer ». Cette dernière attitude pourrait entraîner des pertes catastrophiques.

En l'absence de possibilité de migration à l'aide d'un logiciel, si le logiciel d'origine est disponible mais ne fonctionne plus dans des ordinateurs modernes, il peut être possible de récupérer d'anciens fichiers à l'aide d'un émulateur. Un émulateur fonctionne dans un système moderne mais reproduit un environnement ancien dans lequel l'ancien logiciel peut fonctionner. Cela permet à tout le moins de lire les fichiers et de les convertir en un format d'échange à partir duquel on peut les convertir dans un format moderne.

 Ressources à consulter