Auteur/autrice : BCaron Page 1 of 2

Manipuler des données patrimoniales numériques : ma formation idéale

Cela fait longtemps que je rêve de proposer des ateliers de pratique autour de la manipulation pratique de données numériques, et de le faire IRL, parce que le télétravail à 100%, ça vous épuise son homme. Ce que j’ai eu l’occasion de réaliser qui ressemble un tant soit peu à ça, c’est une journée de formation aux métadonnées de l’objet audiovisuel aux masters 2 INA Patrimoine audiovisuel. Mais j’imaginerais volontiers une série de sessions à destination de professionnels de l’information, de préférence dans une institution qui prend le numérique au sérieux. Plutôt le Cent quatre ou la Gaîté lyrique que la BnF, encore que cette dernière option ne soit pas exclue bien sûr. (Eh oui, tout cela est très parisien, mais exclusivement parce que c’est là que j’habite.) Si ça vous attire, parlons-nous…

Ce billet de blog a donc pour objectif de formaliser ce que je considère comme les principales opérations de manipulation de données patrimoniales numériques dans une perspective de préservation. La démarche est purement empirique : j’ai pris mon cahier d’apprentissages pratiques commencé fin 2023 et y ai sélectionné tout ce qui me semblait avoir rapport à la préservation – collecter, analyser, corriger, transformer pour donner accès. Je compile donc ce que j’aurais voulu apprendre le plus tôt possible pour être à même d’aborder tranquillement une livraison de données numériques.

Un disque dur externe connecté à un ordinateur portable avec un câble PATA/IDE-USB.

Explorer un disque dur interne

Cela fait plusieurs mois que je n’ai pas écrit dans ce blog, et ça me navre. Mon activité professionnelle ne me laisse pas assez d’énergie pour me lancer dans une telle entreprise après une journée de travail. Depuis avril dernier, je ne publie donc plus que pendant mes vacances. Or je suis en vacances, et rien ne semble venir. Je vais donc me forcer un peu et vous faire part de quelques dernières expérimentations, dans le prolongement de mon précédent billet.

Il se trouve en effet que j’avais un ordinateur familial acheté au début des années 2000 qui achevait son séjour au purgatoire dans la maison de mes parents, avant de s’envoler vers les tristes cieux des DEEE.

Dans ce billet, je vais donc faire un pas de plus et vous raconter comment j’ai fait une image de ce disque, puis je passerai en revue les méthodes et outils permettant

  • D’identifier bon nombre de fichiers système automatiquement ;
  • De récupérer beaucoup d’informations importantes sur les fichier supprimés – et pas que les fichiers supprimés eux-mêmes, comme on avait vu dans le précédent billet ;
  • De restaurer individuellement un de ces fichiers.

Prêt·e·s ? C’est parti !

Acquérir des données depuis des disquettes ZIP : une expérience

Un petit point d’attention avant de commencer : je débute dans le domaine des digital forensics. Le sujet m’amuse beaucoup, donc je profite de cet enthousiasme pour écrire mes aventures et les partager avec vous. Je préfère revenir ensuite sur mes billets pour les corriger plutôt que d’approfondir le sujet et risquer de perdre l’élan initial. Cet enthousiasme du débutant, c’est peut-être un petit effet Dunning-Kruger, mais il m’encourage.

Un peu de contexte

Il y a quelques semaines, Felix Burger, un de mes collègues de la TIB a évoqué cinq disquettes ZIP qu’il avait récupérées de Kamel Louafi, un architecte algéro-allemand. Ces disquettes étaient susceptibles de contenir des données liées au réaménagement du parc Welfengarten, où se trouve la Leibniz University Hanover.

Aurais-je fait une boulette ?

Quand on fait de la préservation numérique appliquée, on doit souvent intervenir sur des fichiers. Que ce soit pour rectifier une structure de format incorrecte, pour créer une copie de préservation dans un format préféré ou même pour créer une copie de diffusion conforme à nos standards de qualité, il est très utile de pouvoir comparer deux fichiers, l’original et le transformé.

Je vous propose donc ci-dessous quelques-unes de mes méthodes pour évaluer la distance entre la source et la cible d’une transformation (étant entendu que cette transformation a pour but d’être la moins destructive qui soit, donc n’affecter strictement que ce qu’on souhaite changer).

Cet article, comme les autres, a vocation à être enrichi au fur et à mesure de mes découvertes. Donc il commence petit mais il espère devenir plus conséquent ! Par ailleurs, si vous avez des méthodes similaires à me conseiller, je les prends avec avidité et gourmandise.

Un meme où un petit guerrier fait face à un gigantesque chevalier en armure, dans un style heroic-fantasy. Au-dessus du géant, on lit "OAIS", au-dessus du petit guerrier, "Toi qui veux apprendre les bases de la préservation numérique".

Haro sur OAIS

Cela fait plus de trois mois désormais que je travaille pour le projet EDEN au sein de la TIB (Leibniz Information Centre for Science and Technology and University Library). Le temps et l’énergie me manquent pour poursuivre ce blog, et c’est bien dommage, mais je vais essayer de le continuer malgré tout. J’ai publié, au cas où vous l’auriez manqué, un billet assez velu sur une restauration numérique de PDF sur le site de l’OPF. Cette activité, pourtant secondaire, de technical analysis, m’a amené à me plonger dans les entrailles de PDF particulièrement tordus et à découvrir les beautés et les complexités parfois difficilement justifiables de ce format.

Mais mon activité principale, actuellement, est de mener une petite équipe chargée de décrire formellement une trentaine de processus qui forment le cœur de ce qu’on appelle « préservation numérique ». C’est exigeant, assez stimulant, mais parfois on ne peut éviter de se cogner la tâche qui me déprime le plus dans mon métier :

Tenter de concilier un modèle conceptuel avec la réalité pratique de notre activité

Et, au premier rang de ces modèles, il y en a un que j’ai pas mal pratiqué et dont le nom me plonge toujours dans l’effroi le plus profond, j’ai nommé

OAIS

pour Open Archival Information System.

Deux façons de calculer une somme de contrôle sous Windows

Alors rien de révolutionnaire dans ce mini-billet mais je m’étais promis de noter ici tout ce que j’apprenais d’utile et de le présenter rapidement.

J’utilise au quotidien GNU/Linux et n’ai donc que rarement besoin de la ligne de commande sous Windows. Mais ça peut arriver, et en outre je sais que l’écrasante majorité d’entre vous, par choix ou non, doit s’accommoder de ce système d’exploitation. J’essaie donc de mémoriser les commandes DOS correspondant à ce que je fais en Bash au cas où j’aurais un jour à proposer un atelier sur l’utilisation d’outils en ligne de commande pour la préservation numérique.

Aujourd’hui, la commande concerne le calcul d’une somme de contrôle, ou empreinte numérique (si vous ne savez pas ce que c’est, je vous invite à consulter cette page qui est forcément très bien puisque c’est moi qui l’ai écrite). Il me semble me souvenir qu’une enquête de la DPC avait révélé qu’une moitié des archivistes manipulant des données numériques ne savait pas comment en calculer une. On va ici proposer deux moyens rapides, parmi les plus simples, pour calculer unitairement la somme de contrôle d’un fichier (et si vous voulez en savoir plus – comment le faire sur le contenu d’un dossier complet, par exemple – manifestez-vous avec un commentaire !).

Le soin des choses numériques, 2. Tact et souci de l’authenticité

Une autre idée qui m’a marqué dans le livre de Jérôme Denis et David Pontille, Le soin des choses, (Paris : La Découverte, 2024) figure dans le beau chapitre intitulé « Tact ». Pour illustrer ce thème, les auteurs donnent un exemple provenant non des musées mais des collectionneurs et collectionneuses de voitures de collection Ford Mustang. Ces personnes se posent en permanence la question de la conservation de l’authenticité de leurs véhicules, donc de ce qu’elles et ils peuvent se permettre de faire pour les maintenir en état de marche sans les dénaturer. Est-il acceptable d’ajouter sur un véhicule ancien un accessoire moderne ? Si oui, sous quelles conditions ?

Et les auteurs d’écrire une phrase qui résonne fortement avec notre pratique en préservation numérique :

Faire durer une chose revient à définir en pratique ce qui compte en elle, identifier ce dont il faut concrètement s’occuper si l’on veut s’assurer que c’est bien toujours la même chose qui dure. (p. 243)

Cette citation évoque une notion qui existait sans doute en conservation traditionnelle mais qui a connu de multiples développements en préservation numérique : les significant properties. Si je tente de résumer cette idée déjà ancienne et sur laquelle on a beaucoup écrit : les institutions de conservation doivent décrire ce qu’elles considèrent comme les caractéristiques d’un document justifiant sa collecte et sa transmission. Et cela afin de s’assurer qu’au fil du temps elles le maintiennent dans un état qui réponde aux objectifs qu(elles se sont fixés et aux besoins de leur public cible.

Le soin des choses numériques, 1 : Préservation du train d’octets et préservation sémantique

Le titre de ce nouveau billet théorique est un hommage au livre de Jérôme Denis et David Pontille, Le soin des choses : Politiques de la maintenance, Paris : La Découverte, 2022. J’avais pensé un moment en faire une recension tant il me semble riche de sens pour toute activité assimilée de près ou de loin à la conservation. Je sais déjà que je n’épuiserai pas le sujet aujourd’hui. D’autres billets viendront probablement pour poursuivre celui-ci, notamment sur le souci de l’authenticité de la chose malgré des interventions qui l’affectent.

Au cœur du livre, il y a la valorisation de la maintenance comme requérant une connaissance intime de la chose, de son fonctionnement et de son usage. Les auteurs y distinguent l’activité de maintenance, silencieuse, invisibilisée, de celle de réparation, qui fait événement et qui répond à l’événement du dysfonctionnement. Pour illustrer la diversité des activités de maintenance, les auteurs évoquent entre autres la surveillance et le piégeage par les équipes d’un musée des insectes dans les réserves. La conservation, présentée par les auteurs comme une maintenance patrimoniale, est l’activité souterraine qui met en œuvre les conditions nécessaires à la prévention d’une dégradation brutale.

Visualiser rapidement le poids de dossiers

Un des enjeux lorsqu’on aborde une arborescence est d’identifier les parties les plus conséquentes en termes de poids (et de nombre de fichiers, d’ailleurs, mais on n’en parlera pas ici).

L’explorateur de fichiers Windows ne donne pas, lorsqu’on navigue dans une arborescence, le poids des fichiers contenus dans les répertoires, notamment parce que cela prend du temps de calcul et que cela ralentirait donc la navigation. Il faut passer par un clic droit sur chacun des dossiers puis cliquer sur Propriétés pour en avoir une idée.

Alors je sais que, pour visualiser des arborescences, on a des outils comme Archifiltre ou Treesize. Mais bon, comme je pense que les bons outils sont les plus simples et les plus éprouvés – et qu’ils ont donc l’avantage d’être bien maintenus et libres – je vais partager avec vous une petite ligne de commande Bash que je trouve pratique.

Informations personnelles et sensibles : comment rechercher dans un ensemble de fichiers

Récemment nous avons reçu les archives de la grande commande photographique. Cent soixante-dix gigaoctets de données contenant les dossiers envoyés par les candidat·e·s et documentant le processus décisionnel aboutissant à la sélection des deux cents photographes lauréat·e·s et toutes les activités de valorisation du projet. Vingt-trois mille fichiers environ répartis dans près de 3000 répertoires. Et, bien évidemment, des données personnelles à la pelle.

Le désarroi de notre collègue archiviste, confronté à une telle masse était visible. L’idée de parcourir cet ensemble à l’aide de l’explorateur de fichiers et de les ouvrir un par un nous décourageait tous et nous condamnait à l’impuissance et à l’inaction.

Le billet qui suit vise à répondre à un besoin particulier, celui de la recherche dans le contenu de fichiers de formats variés, localisés dans une arborescence. Le traitement de ce fonds d’archives numériques ne se limite pas à cette opération, mais il m’a semblé plus utile de me concentrer sur ce sujet, qui fournit déjà matière à un billet beaucoup trop long.

Page 1 of 2

Fièrement propulsé par WordPress & Thème par Anders Norén