Catégorie : Non classé Page 1 of 2

Manipuler des données patrimoniales numériques : ma formation idéale

Cela fait longtemps que je rêve de proposer des ateliers de pratique autour de la manipulation pratique de données numériques, et de le faire IRL, parce que le télétravail à 100%, ça vous épuise son homme. Ce que j’ai eu l’occasion de réaliser qui ressemble un tant soit peu à ça, c’est une journée de formation aux métadonnées de l’objet audiovisuel aux masters 2 INA Patrimoine audiovisuel. Mais j’imaginerais volontiers une série de sessions à destination de professionnels de l’information, de préférence dans une institution qui prend le numérique au sérieux. Plutôt le Cent quatre ou la Gaîté lyrique que la BnF, encore que cette dernière option ne soit pas exclue bien sûr. (Eh oui, tout cela est très parisien, mais exclusivement parce que c’est là que j’habite.) Si ça vous attire, parlons-nous…

Ce billet de blog a donc pour objectif de formaliser ce que je considère comme les principales opérations de manipulation de données patrimoniales numériques dans une perspective de préservation. La démarche est purement empirique : j’ai pris mon cahier d’apprentissages pratiques commencé fin 2023 et y ai sélectionné tout ce qui me semblait avoir rapport à la préservation – collecter, analyser, corriger, transformer pour donner accès. Je compile donc ce que j’aurais voulu apprendre le plus tôt possible pour être à même d’aborder tranquillement une livraison de données numériques.

Un disque dur externe connecté à un ordinateur portable avec un câble PATA/IDE-USB.

Explorer un disque dur interne

Cela fait plusieurs mois que je n’ai pas écrit dans ce blog, et ça me navre. Mon activité professionnelle ne me laisse pas assez d’énergie pour me lancer dans une telle entreprise après une journée de travail. Depuis avril dernier, je ne publie donc plus que pendant mes vacances. Or je suis en vacances, et rien ne semble venir. Je vais donc me forcer un peu et vous faire part de quelques dernières expérimentations, dans le prolongement de mon précédent billet.

Il se trouve en effet que j’avais un ordinateur familial acheté au début des années 2000 qui achevait son séjour au purgatoire dans la maison de mes parents, avant de s’envoler vers les tristes cieux des DEEE.

Dans ce billet, je vais donc faire un pas de plus et vous raconter comment j’ai fait une image de ce disque, puis je passerai en revue les méthodes et outils permettant

  • D’identifier bon nombre de fichiers système automatiquement ;
  • De récupérer beaucoup d’informations importantes sur les fichier supprimés – et pas que les fichiers supprimés eux-mêmes, comme on avait vu dans le précédent billet ;
  • De restaurer individuellement un de ces fichiers.

Prêt·e·s ? C’est parti !

Acquérir des données depuis des disquettes ZIP : une expérience

Un petit point d’attention avant de commencer : je débute dans le domaine des digital forensics. Le sujet m’amuse beaucoup, donc je profite de cet enthousiasme pour écrire mes aventures et les partager avec vous. Je préfère revenir ensuite sur mes billets pour les corriger plutôt que d’approfondir le sujet et risquer de perdre l’élan initial. Cet enthousiasme du débutant, c’est peut-être un petit effet Dunning-Kruger, mais il m’encourage.

Un peu de contexte

Il y a quelques semaines, Felix Burger, un de mes collègues de la TIB a évoqué cinq disquettes ZIP qu’il avait récupérées de Kamel Louafi, un architecte algéro-allemand. Ces disquettes étaient susceptibles de contenir des données liées au réaménagement du parc Welfengarten, où se trouve la Leibniz University Hanover.

Aurais-je fait une boulette ?

Quand on fait de la préservation numérique appliquée, on doit souvent intervenir sur des fichiers. Que ce soit pour rectifier une structure de format incorrecte, pour créer une copie de préservation dans un format préféré ou même pour créer une copie de diffusion conforme à nos standards de qualité, il est très utile de pouvoir comparer deux fichiers, l’original et le transformé.

Je vous propose donc ci-dessous quelques-unes de mes méthodes pour évaluer la distance entre la source et la cible d’une transformation (étant entendu que cette transformation a pour but d’être la moins destructive qui soit, donc n’affecter strictement que ce qu’on souhaite changer).

Cet article, comme les autres, a vocation à être enrichi au fur et à mesure de mes découvertes. Donc il commence petit mais il espère devenir plus conséquent ! Par ailleurs, si vous avez des méthodes similaires à me conseiller, je les prends avec avidité et gourmandise.

Un meme où un petit guerrier fait face à un gigantesque chevalier en armure, dans un style heroic-fantasy. Au-dessus du géant, on lit "OAIS", au-dessus du petit guerrier, "Toi qui veux apprendre les bases de la préservation numérique".

Haro sur OAIS

Cela fait plus de trois mois désormais que je travaille pour le projet EDEN au sein de la TIB (Leibniz Information Centre for Science and Technology and University Library). Le temps et l’énergie me manquent pour poursuivre ce blog, et c’est bien dommage, mais je vais essayer de le continuer malgré tout. J’ai publié, au cas où vous l’auriez manqué, un billet assez velu sur une restauration numérique de PDF sur le site de l’OPF. Cette activité, pourtant secondaire, de technical analysis, m’a amené à me plonger dans les entrailles de PDF particulièrement tordus et à découvrir les beautés et les complexités parfois difficilement justifiables de ce format.

Mais mon activité principale, actuellement, est de mener une petite équipe chargée de décrire formellement une trentaine de processus qui forment le cœur de ce qu’on appelle « préservation numérique ». C’est exigeant, assez stimulant, mais parfois on ne peut éviter de se cogner la tâche qui me déprime le plus dans mon métier :

Tenter de concilier un modèle conceptuel avec la réalité pratique de notre activité

Et, au premier rang de ces modèles, il y en a un que j’ai pas mal pratiqué et dont le nom me plonge toujours dans l’effroi le plus profond, j’ai nommé

OAIS

pour Open Archival Information System.

Le soin des choses numériques, 2. Tact et souci de l’authenticité

Une autre idée qui m’a marqué dans le livre de Jérôme Denis et David Pontille, Le soin des choses, (Paris : La Découverte, 2024) figure dans le beau chapitre intitulé « Tact ». Pour illustrer ce thème, les auteurs donnent un exemple provenant non des musées mais des collectionneurs et collectionneuses de voitures de collection Ford Mustang. Ces personnes se posent en permanence la question de la conservation de l’authenticité de leurs véhicules, donc de ce qu’elles et ils peuvent se permettre de faire pour les maintenir en état de marche sans les dénaturer. Est-il acceptable d’ajouter sur un véhicule ancien un accessoire moderne ? Si oui, sous quelles conditions ?

Et les auteurs d’écrire une phrase qui résonne fortement avec notre pratique en préservation numérique :

Faire durer une chose revient à définir en pratique ce qui compte en elle, identifier ce dont il faut concrètement s’occuper si l’on veut s’assurer que c’est bien toujours la même chose qui dure. (p. 243)

Cette citation évoque une notion qui existait sans doute en conservation traditionnelle mais qui a connu de multiples développements en préservation numérique : les significant properties. Si je tente de résumer cette idée déjà ancienne et sur laquelle on a beaucoup écrit : les institutions de conservation doivent décrire ce qu’elles considèrent comme les caractéristiques d’un document justifiant sa collecte et sa transmission. Et cela afin de s’assurer qu’au fil du temps elles le maintiennent dans un état qui réponde aux objectifs qu(elles se sont fixés et aux besoins de leur public cible.

Le soin des choses numériques, 1 : Préservation du train d’octets et préservation sémantique

Le titre de ce nouveau billet théorique est un hommage au livre de Jérôme Denis et David Pontille, Le soin des choses : Politiques de la maintenance, Paris : La Découverte, 2022. J’avais pensé un moment en faire une recension tant il me semble riche de sens pour toute activité assimilée de près ou de loin à la conservation. Je sais déjà que je n’épuiserai pas le sujet aujourd’hui. D’autres billets viendront probablement pour poursuivre celui-ci, notamment sur le souci de l’authenticité de la chose malgré des interventions qui l’affectent.

Au cœur du livre, il y a la valorisation de la maintenance comme requérant une connaissance intime de la chose, de son fonctionnement et de son usage. Les auteurs y distinguent l’activité de maintenance, silencieuse, invisibilisée, de celle de réparation, qui fait événement et qui répond à l’événement du dysfonctionnement. Pour illustrer la diversité des activités de maintenance, les auteurs évoquent entre autres la surveillance et le piégeage par les équipes d’un musée des insectes dans les réserves. La conservation, présentée par les auteurs comme une maintenance patrimoniale, est l’activité souterraine qui met en œuvre les conditions nécessaires à la prévention d’une dégradation brutale.

Informations personnelles et sensibles : comment rechercher dans un ensemble de fichiers

Récemment nous avons reçu les archives de la grande commande photographique. Cent soixante-dix gigaoctets de données contenant les dossiers envoyés par les candidat·e·s et documentant le processus décisionnel aboutissant à la sélection des deux cents photographes lauréat·e·s et toutes les activités de valorisation du projet. Vingt-trois mille fichiers environ répartis dans près de 3000 répertoires. Et, bien évidemment, des données personnelles à la pelle.

Le désarroi de notre collègue archiviste, confronté à une telle masse était visible. L’idée de parcourir cet ensemble à l’aide de l’explorateur de fichiers et de les ouvrir un par un nous décourageait tous et nous condamnait à l’impuissance et à l’inaction.

Le billet qui suit vise à répondre à un besoin particulier, celui de la recherche dans le contenu de fichiers de formats variés, localisés dans une arborescence. Le traitement de ce fonds d’archives numériques ne se limite pas à cette opération, mais il m’a semblé plus utile de me concentrer sur ce sujet, qui fournit déjà matière à un billet beaucoup trop long.

Ne confondez plus numérisé et nativement numérique

J’ai lu pendant ces vacances le livre d’Emmanuelle Bermès, De l’écran à l’émotion : Quand le numérique devient patrimoine (Paris : Éd. de l’École nationale des chartes, 2024). J’y ai retrouvé bien des choses qui sous-tendent notre pratique, et des récits fondateurs qui se transmettent entre collègues, puisque Emmanuelle a longtemps travaillé dans le département de la Bibliothèque numérique de la BnF, puis comme adjointe au directeur des Services et Réseaux, en charge des affaires scientifiques et techniques. La notion de « patrimoine numérique » ne peut évidemment que me toucher, tout comme un plaidoyer pour une notion qui devrait aller de soi et qui peine pourtant à s’imposer. Mais il y a une idée qui sous-tend le propos du livre et sur laquelle je voudrais revenir parce qu’elle aborde un sujet important et qui m’est cher. Je la résume de la manière suivante :

Le patrimoine numérique, c’est autant le numérisé que le nativement numérique, et les deux peuvent être abordés de la même façon.

Une carte postale montrant Hamlet tenant un crâne. En lettres majuscules, typiques d'un meme Internet, on lit en bas "To fix or not to fix".

Leave the files alone

Autrement dit, dans la langue fleurie que j’adopte volontiers : foutez la paix aux fichiers. Pourquoi cette injonction ? Parce que, dans la vulgate préservationniste, largement fondée sur des idées préconçues et élaborée dans les années 2000, l’interventionnisme était de mise, et nous a sans doute amenés à faire des bêtises. Inspirés par les politiques de numérisation, nous avons par exemple abusé de stratégies de normalisation. La tête de mes fichiers ne me revient pas ? Qu’à cela ne tienne, je convertis tout dans un seul format, et tant pis si ce lit de Procuste est trop petit et qu’on doit pour l’y faire rentrer sabrer de précieuses métadonnées internes, descriptives ou techniques, voire des morceaux inattendus (vignettes dans une piste audio, commentaire audio dans une photographie numérique, etc.).

Aimez-les comme ils sont, avec leurs défauts, leurs irrégularités. N’essayez pas de les changer. Ce sont des données patrimoniales, que diable, et c’est donc nos outils d’accès qui doivent s’y adapter, pas le contraire.

Page 1 of 2

Fièrement propulsé par WordPress & Thème par Anders Norén