Étiquette : bash

Lire des « micro-disquettes » avec une Greaseweazle

On 20 juillet 2026

Depuis quelques mois (septembre dernier, pour être précis), je me suis plongé dans les questions de supports de données anciens – par un concours de circonstances. Et je me demande pourquoi nous n’avons pas commencé par cela. C’est tellement la quintessence de l’activité de préservation numérique, ça combine tellement de problématiques concrètes liées à la matérialité du numérique et à l’obsolescence logicielle et matérielle, tout fait sens, tout à coup, dans ce qu’on a appris. Et puis c’est visuel, c’est beaucoup plus simple à montrer et ça associe des outils particuliers et concrets à notre identité professionnelle.

J’ai donc commencé petit, en évoquant les disquettes ZIP, lorsque mes collègues de la TIB en avaient sous la main. Facile : un lecteur ZIP USB, quelques outils de création d’image disque, quelques utilitaires de restauration de fichiers supprimés. Puis j’ai tenté le disque dur interne – il fallait ouvrir le ventre d’une unité centrale, démonter le disque, retrouver un câble avec une interface IDE/PATA. Rien de très sorcier non plus, mais j’allais un peu plus loin dans l’expérimentation et dans des outils de digital forensics.

En parallèle, dans le petit monde de la préservation numérique, on s’est mis à parler pas mal de disquettes. Jusqu’à présent, c’était un domaine de niche, même au sein de la préservation numérique. Et puis, au début de cette année, la DPC a proposé plusieurs événements autour du traitement des disquettes, et a également publié un guide, joliment intitulé Copy that Floppy !¹, écrit par Leontien Talboom, sur ce sujet². L’objectif de Leontien est de démystifier ce savoir-faire, assez peu répandu dans les bibliothèques et archives : dans la plupart des cas, l’opération est simple. (Mais l’expérience apprend vite que, dans une minorité de cas, elle peut se révéler beaucoup plus délicate.)

Le guide prend acte du fait qu’une communauté a déjà ces compétences – et bien plus encore – et c’est celle de la rétro-informatique. Comme il s’agit surtout de hobbyistes, et non de professionnels, leur savoir-faire, bien que très conséquent, n’est pas très formalisé. Le travail de recueil et de compilation est donc fondamental. Je sais, c’est difficile d’accepter qu’on doive apprendre notre métier de gens qui l’ont développé comme loisir, mais c’est un fait.

Un disque dur externe connecté à un ordinateur portable avec un câble PATA/IDE-USB.

Explorer un disque dur interne

de BCaron

On 2 janvier 2026

dans Non classé

Cela fait plusieurs mois que je n’ai pas écrit dans ce blog, et ça me navre. Mon activité professionnelle ne me laisse pas assez d’énergie pour me lancer dans une telle entreprise après une journée de travail. Depuis avril dernier, je ne publie donc plus que pendant mes vacances. Or je suis en vacances, et rien ne semble venir. Je vais donc me forcer un peu et vous faire part de quelques dernières expérimentations, dans le prolongement de mon précédent billet.

Il se trouve en effet que j’avais un ordinateur familial acheté au début des années 2000 qui achevait son séjour au purgatoire dans la maison de mes parents, avant de s’envoler vers les tristes cieux des DEEE.

Dans ce billet, je vais donc faire un pas de plus et vous raconter comment j’ai fait une image de ce disque, puis je passerai en revue les méthodes et outils permettant

D’identifier bon nombre de fichiers système automatiquement ;
De récupérer beaucoup d’informations importantes sur les fichier supprimés – et pas que les fichiers supprimés eux-mêmes, comme on avait vu dans le précédent billet ;
De restaurer individuellement un de ces fichiers.

Prêt·e·s ? C’est parti !

Acquérir des données depuis des disquettes ZIP : une expérience

de BCaron

On 23 septembre 2025

dans Non classé

Un petit point d’attention avant de commencer : je débute dans le domaine des digital forensics. Le sujet m’amuse beaucoup, donc je profite de cet enthousiasme pour écrire mes aventures et les partager avec vous. Je préfère revenir ensuite sur mes billets pour les corriger plutôt que d’approfondir le sujet et risquer de perdre l’élan initial. Cet enthousiasme du débutant, c’est peut-être un petit effet Dunning-Kruger, mais il m’encourage.

Un peu de contexte

Il y a quelques semaines, Felix Burger, un de mes collègues de la TIB a évoqué cinq disquettes ZIP qu’il avait récupérées de Kamel Louafi, un architecte algéro-allemand. Ces disquettes étaient susceptibles de contenir des données liées au réaménagement du parc Welfengarten, où se trouve la Leibniz University Hanover.

Aurais-je fait une boulette ?

de BCaron

On 17 juillet 2025

dans Non classé

Quand on fait de la préservation numérique appliquée, on doit souvent intervenir sur des fichiers. Que ce soit pour rectifier une structure de format incorrecte, pour créer une copie de préservation dans un format préféré ou même pour créer une copie de diffusion conforme à nos standards de qualité, il est très utile de pouvoir comparer deux fichiers, l’original et le transformé.

Je vous propose donc ci-dessous quelques-unes de mes méthodes pour évaluer la distance entre la source et la cible d’une transformation (étant entendu que cette transformation a pour but d’être la moins destructive qui soit, donc n’affecter strictement que ce qu’on souhaite changer).

Cet article, comme les autres, a vocation à être enrichi au fur et à mesure de mes découvertes. Donc il commence petit mais il espère devenir plus conséquent ! Par ailleurs, si vous avez des méthodes similaires à me conseiller, je les prends avec avidité et gourmandise.

Visualiser rapidement le poids de dossiers

de BCaron

On 12 février 2025

dans TIL

Un des enjeux lorsqu’on aborde une arborescence est d’identifier les parties les plus conséquentes en termes de poids (et de nombre de fichiers, d’ailleurs, mais on n’en parlera pas ici).

L’explorateur de fichiers Windows ne donne pas, lorsqu’on navigue dans une arborescence, le poids des fichiers contenus dans les répertoires, notamment parce que cela prend du temps de calcul et que cela ralentirait donc la navigation. Il faut passer par un clic droit sur chacun des dossiers puis cliquer sur Propriétés pour en avoir une idée.

Alors je sais que, pour visualiser des arborescences, on a des outils comme Archifiltre ou Treesize. Mais bon, comme je pense que les bons outils sont les plus simples et les plus éprouvés – et qu’ils ont donc l’avantage d’être bien maintenus et libres – je vais partager avec vous une petite ligne de commande Bash que je trouve pratique.

Informations personnelles et sensibles : comment rechercher dans un ensemble de fichiers

de BCaron

On 10 février 2025

dans Non classé

Récemment nous avons reçu les archives de la grande commande photographique. Cent soixante-dix gigaoctets de données contenant les dossiers envoyés par les candidat·e·s et documentant le processus décisionnel aboutissant à la sélection des deux cents photographes lauréat·e·s et toutes les activités de valorisation du projet. Vingt-trois mille fichiers environ répartis dans près de 3000 répertoires. Et, bien évidemment, des données personnelles à la pelle.

Le désarroi de notre collègue archiviste, confronté à une telle masse était visible. L’idée de parcourir cet ensemble à l’aide de l’explorateur de fichiers et de les ouvrir un par un nous décourageait tous et nous condamnait à l’impuissance et à l’inaction.

Le billet qui suit vise à répondre à un besoin particulier, celui de la recherche dans le contenu de fichiers de formats variés, localisés dans une arborescence. Le traitement de ce fonds d’archives numériques ne se limite pas à cette opération, mais il m’a semblé plus utile de me concentrer sur ce sujet, qui fournit déjà matière à un billet beaucoup trop long.

Réunir un corpus de fichiers

de BCaron

On 9 décembre 2024

dans Non classé

J’avais précédemment engagé mon honneur et promis de faire un premier billet sur le transfert sécurisé de données. Et je vais sans aucune vergogne me dédire, parce que j’ai un autre sujet sur le feu qui m’amuse plus. On verra le transfert une autre fois.

Je vous propose donc un premier billet sur la recherche de fichiers exemples. Quand on fait de la préservation numérique sérieuse, on a besoin d’un corpus de test assez conséquent pour vérifier que nos procédures d’identification, de validation ou d’analyse fonctionnent bien sur une diversité de fichiers. Où allons-nous donc trouver cette diversité si nous ne l’avons pas déjà sous la main ? Il y a plusieurs solutions complémentaires que je vais vous détailler ici. N’hésitez pas si vous en voyez d’autres à me les signaler en commentaire !