Une autre idée qui m’a marqué dans le livre de Jérôme Denis et David Pontille, Le soin des choses, (Paris : La Découverte, 2024) figure dans le beau chapitre intitulé « Tact ». Pour illustrer ce thème, les auteurs donnent un exemple provenant non des musées mais des collectionneurs et collectionneuses de voitures de collection Ford Mustang. Ces personnes se posent en permanence la question de la conservation de l’authenticité de leurs véhicules, donc de ce qu’elles et ils peuvent se permettre de faire pour les maintenir en état de marche sans les dénaturer. Est-il acceptable d’ajouter sur un véhicule ancien un accessoire moderne ? Si oui, sous quelles conditions ?

Et les auteurs d’écrire une phrase qui résonne fortement avec notre pratique en préservation numérique :

Faire durer une chose revient à définir en pratique ce qui compte en elle, identifier ce dont il faut concrètement s’occuper si l’on veut toujours s’assurer que c’est bien toujours la même chose qui dure. (p. 243)

Cette citation évoque une notion qui existait sans doute en conservation traditionnelle mais qui a connu de multiples développements en préservation numérique : les significant properties. Si je tente de résumer cette idée déjà ancienne et sur laquelle on a beaucoup écrit : les institutions de conservation doivent décrire ce qu’elles considèrent comme les caractéristiques d’un document justifiant sa collecte et sa transmission. Et cela afin de s’assurer qu’au fil du temps elles le maintiennent dans un état qui réponde aux objectifs qu(elles se sont fixés et aux besoins de leur public cible.

Prenons un exemple basique : pour un enregistrement sonore, la propriété signifiante la plus évidente est la qualité du signal sonore. Au fil de la vie du contenu au sein de l’institution de préservation, on pourra contrôler la profondeur de bits, la fréquence d’échantillonnage et le débit pour s’assurer que la qualité du signal a été maintenue.

Pendant longtemps, j’ai eu tendance à considérer qu’il fallait s’intéresser aux propriétés signifiantes exclusivement au moment des migrations de format, obsédé que j’étais par la « stratégie de migration » qui considérait que la pérennité des documents numériques était conditionnée par une conversion périodique d’un format obsolète vers un format plus récent. (En réalité, cette « stratégie » traduit très mal la réalité des activités de préservation numérique, mais on y reviendra plus en détail une prochaine fois.) Ce dont je m’aperçois depuis quelque temps, c’est que ces propriétés sont à évaluer dans toutes les actions que nous réalisons : lors de la copie (on y reviendra aussi dans un prochain billet sur la copie sécurisée), de la communication au public, mais aussi, et on se concentrera sur ce sujet dans la suite du billet, lors de l’observation des données.

Observer des données numériques, c’est bien souvent les modifier

L’informatique standard vise à faciliter au maximum leur modification. Vouloir les figer dans un état « d’origine » est donc à l’opposé de la logique de nos outils, systèmes d’exploitation et logiciels.

Pour illustrer les difficultés que cela peut causer pour les bibliothécaires et archivistes numériques, prenons le cas d’un texte produit dans une version de Microsoft Word – à partir de 2007, quelle que soit la version. Vous pouvez accéder à ces propriétés par l’explorateur de fichiers : un clic droit sur le fichier, puis Propriétés, puis l’onglet Détails.

Fenêtre de propriétés d'un fichier.
En en-tête de la fenêtre "Propriétés de :" et le nom du fichier.
En dessous, les onglets. L'onglet actif est "Détails".
En dessous, le contenu de la fenêtre sur deux colonnes : Propriété et Valeur.
On voit dans la section "Origine" la propriété "Auteurs" avec la valeur "dprs014" et la propriété "Dernier enregistrement par" et la valeur "Bertrand Caron".
En bas de la fenêtre, on voit un lien "Supprimer les propriétés et les informations personnelles".

Les mêmes informations sont accessibles en ouvrant un fichier DOCX avec Word et en cliquant sur « Fichiers », dans la partie droite de la fenêtre :

Capture d'écran où l'on voit une section "Personnes associées" et en dessous la propriété "Auteurs" avec la valeur "dprs014" et la propriété "Dernière modification par" et la valeur "Bertrand Caron".

L’attribution d’un texte à son autrice est évidemment fondamentale : c’est une propriété signifiante qui nous est imposée par la loi même (art. L121-1 du Code de la propriété intellectuelle).

Or dans des fonds d’archives numériques, il est courant qu’on trouve des documents issus de différents auteurs. La métadonnée « Auteur » associée à chaque fichier DOCX est un indice important – parmi d’autres – pour attribuer un document1. Il est donc important de conserver cette information intacte. Or il est très facile de la modifier lorsqu’on ouvre un fichier DOCX avec Word. Ce dernier est un outil d’édition d’abord et avant tout, et l’ouverture du fichier, perçue par l’utilisateur·ice comme une simple visualisation, peut amener un changement (si par exemple le fichier contient un champ destiné à accueillir la date du jour, il sera mis à jour). Nous avons récemment fait les frais de ce phénomène en transférant et en visualisant des fichiers issus de la grande commande photographique. Afin d’avoir une idée de l’ampleur des dégâts, nous avons utilisé l’outil Exiftool en ligne de commande

exiftool -r -Creator -LastModifiedBy -ext docx .

Cette commande parcourt récursivement2 les dossiers (-r) à partir du dossier où l’on se trouve dans l’arborescence (.), y analyse tous les fichiers ayant pour extension « .docx » (-ext docx) et en extrait uniquement les propriétés Creator et LastModifiedBy. Voici un des résultats :

Extrait d'une capture d'écran du retour de l'outil Exiftool.  EN première ligne, le chemin absolu du fichier. En deuxième ligne, la propriété "Last Modified By" avec la valeur "Stagiaire-Ecole-05 DAP-DRH-SLR" et en troisième ligne la propriété "Creator" avec la valeur "Jef".

Dans ce cas, une personne de la BnF (les personnes qui sont passées par la grande maison reconnaîtront les trigrammes) a – sans doute – ouvert le fichier et malencontreusement fait une modification sans s’en apercevoir. Parfois, c’est pire encore :

Extrait d'une capture d'écran du retour de l'outil Exiftool.  EN première ligne, le chemin absolu du fichier. En deuxième ligne, la propriété "Last Modified By" avec la valeur "Stagiaire-Ecole-05 DAP-DRH-SLR" et en troisième ligne la propriété "Creator" avec la même valeur que sur la ligne précédente.

Ici, c’est ce pauvre stagiaire (mais ne lui en tenons pas rigueur, j’ai tout plein d’autres noms d’agentes BnF dont le nom est désormais définitivement associé à un journal de bord d’un·e photographe) qui en ouvrant le fichier s’est retrouvé « créateur » du document.

Comment et pourquoi cela s’est-il produit ? Je ne le sais pas ; j’ai tenté de reproduire le phénomène en copiant, en ouvrant les fichiers et n’ai pu déterminer ce que Word faisait exactement – de fait, Word est un logiciel propriétaire, ce qu’il fait est un mystère et il est illusoire de vouloir prédire son comportement. Constatons donc le problème, et c’est tout.

En tant qu’institution de conservation, nous échouons donc doublement ici : d’abord à préserver l’intégrité des fichiers (nous avons involontairement modifié le fichier entre le moment où nous l’avons récupéré et le moment où nous l’avons versé dans l’entrepôt numérique), ensuite à préserver l’authenticité du fichier en ne mettant pas en place les procédures qui auraient évité que la visualisation du fichier modifie la propriété signifiante « Auteur ».

Personnellement, je suis convaincu que dans aucun des cas il n’y a eu de modification substantielle du contenu par mes collègues. Néanmoins, nous avons eu un aperçu des conséquences que ce phénomène pouvait avoir sur la confiance que nous accordent nos lecteur·ice·s : une de nos collègues du département des Manuscrits à qui nous faisions état du problème a immédiatement mis en doute le contenu complet de ces fichiers : si une personne étrangère à leur création est intervenue dessus, qui nous dit qu’elle ne les a pas intégralement fabriqués ?

Que faire alors ? Les solutions résident, a priori, dans une chaîne de traitement maîtrisée du début à la fin, en particulier :

  • Lorsqu’on collecte du contenu depuis un support amovible ou depuis une machine, utiliser des write-blockers3 ;
  • Réaliser soit une image disque complète du support, soit une copie sécurisée avec un outil de copie robuste ;
  • Une fois cette copie réalisée, ne réaliser l’exploration et l’analyse que sur une copie en lecture seule (clic droit sur le dossier > Propriétés > Lecture seule)4.

Ces actions peuvent vous sembler obscures, mais on y reviendra certainement – et il existe beaucoup de ressources en ligne pour vous aider à les mettre en place. De notre côté, à la BnF, depuis quelques mois, nous avons obtenu un outil extraordinaire : une machine virtuelle Linux, avec les droits pour y installer tous les utilitaires dont nous avons besoin, et un accès en lecture seule aux données déchargées. Alix Bruys, avec qui je partage cet outil et globalement la plupart de mes émotions patrimoniales numériques, me disait récemment combien cette garantie la délivrait de l’inquiétude de « faire une bêtise » et d’altérer les données. Cette inquiétude est un des obstacles qui empêchent de progresser dans le domaine de la préservation numérique, et la capacité à explorer avec tact est en conséquence libératrice !

1Voir cette histoire sur l’attribution de notes aux administrations fédérales américaines, dont le champ « Auteur » a trahi la véritable origine : « Memos to Federal Employees Were Written By People With Ties to Project 2025, Metadata Shows », 27 janvier 2025, sur 404 media, accessible sur https://www.404media.co/opm-memos-to-federal-employees-metadata/ (consulté le 21 mars 2025).

2C’est-à-à-dire qu’elle ne se limite pas à traiter les fichiers contenus immédiatement dans le dossier mais également tous les fichiers dans des sous-dossiers

3A ce sujet, voir par exemple ce billet de blog de Simon P. Wilson : « Forensic workstation, part 4 – write blockers », accessible sur https://simonpwilson.com/2020/forensic-workstation-pt4/ (consulté le 21 mars 2025).

4Il est également possible d’obliger Word à n’ouvrir les fichiers qu’en mode lecture seule via Fichiers > Options > Centre de gestion de la confidentialité > Paramètres du centre de gestion de la confidentialité > Paramètres de blocage des fichiers, mais évidemment cela ne s’appliquera qu’à Word, et vous vous doutez que ce problème se posera, quoique de manière moins aiguë, pour d’autres types de fichiers.