Deux façons de calculer une somme de contrôle sous Windows

Alors rien de révolutionnaire dans ce mini-billet mais je m’étais promis de noter ici tout ce que j’apprenais d’utile et de le présenter rapidement.

J’utilise au quotidien GNU/Linux et n’ai donc que rarement besoin de la ligne de commande sous Windows. Mais ça peut arriver, et en outre je sais que l’écrasante majorité d’entre vous, par choix ou non, doit s’accommoder de ce système d’exploitation. J’essaie donc de mémoriser les commandes DOS correspondant à ce que je fais en Bash au cas où j’aurais un jour à proposer un atelier sur l’utilisation d’outils en ligne de commande pour la préservation numérique.

Aujourd’hui, la commande concerne le calcul d’une somme de contrôle, ou empreinte numérique (si vous ne savez pas ce que c’est, je vous invite à consulter cette page qui est forcément très bien puisque c’est moi qui l’ai écrite). Il me semble me souvenir qu’une enquête de la DPC avait révélé qu’une moitié des archivistes manipulant des données numériques ne savait pas comment en calculer une. On va ici proposer deux moyens rapides, parmi les plus simples, pour calculer unitairement la somme de contrôle d’un fichier (et si vous voulez en savoir plus – comment le faire sur le contenu d’un dossier complet, par exemple – manifestez-vous avec un commentaire !).

Le soin des choses numériques, 2. Tact et souci de l’authenticité

Une autre idée qui m’a marqué dans le livre de Jérôme Denis et David Pontille, Le soin des choses, (Paris : La Découverte, 2024) figure dans le beau chapitre intitulé « Tact ». Pour illustrer ce thème, les auteurs donnent un exemple provenant non des musées mais des collectionneurs et collectionneuses de voitures de collection Ford Mustang. Ces personnes se posent en permanence la question de la conservation de l’authenticité de leurs véhicules, donc de ce qu’elles et ils peuvent se permettre de faire pour les maintenir en état de marche sans les dénaturer. Est-il acceptable d’ajouter sur un véhicule ancien un accessoire moderne ? Si oui, sous quelles conditions ?

Et les auteurs d’écrire une phrase qui résonne fortement avec notre pratique en préservation numérique :

Faire durer une chose revient à définir en pratique ce qui compte en elle, identifier ce dont il faut concrètement s’occuper si l’on veut toujours s’assurer que c’est bien toujours la même chose qui dure. (p. 243)

Cette citation évoque une notion qui existait sans doute en conservation traditionnelle mais qui a connu de multiples développements en préservation numérique : les significant properties. Si je tente de résumer cette idée déjà ancienne et sur laquelle on a beaucoup écrit : les institutions de conservation doivent décrire ce qu’elles considèrent comme les caractéristiques d’un document justifiant sa collecte et sa transmission. Et cela afin de s’assurer qu’au fil du temps elles le maintiennent dans un état qui réponde aux objectifs qu(elles se sont fixés et aux besoins de leur public cible.

Le soin des choses numériques, 1 : Préservation du train d’octets et préservation sémantique

Le titre de ce nouveau billet théorique est un hommage au livre de Jérôme Denis et David Pontille, Le soin des choses : Politiques de la maintenance, Paris : La Découverte, 2022. J’avais pensé un moment en faire une recension tant il me semble riche de sens pour toute activité assimilée de près ou de loin à la conservation. Je sais déjà que je n’épuiserai pas le sujet aujourd’hui. D’autres billets viendront probablement pour poursuivre celui-ci, notamment sur le souci de l’authenticité de la chose malgré des interventions qui l’affectent.

Au cœur du livre, il y a la valorisation de la maintenance comme requérant une connaissance intime de la chose, de son fonctionnement et de son usage. Les auteurs y distinguent l’activité de maintenance, silencieuse, invisibilisée, de celle de réparation, qui fait événement et qui répond à l’événement du dysfonctionnement. Pour illustrer la diversité des activités de maintenance, les auteurs évoquent entre autres la surveillance et le piégeage par les équipes d’un musée des insectes dans les réserves. La conservation, présentée par les auteurs comme une maintenance patrimoniale, est l’activité souterraine qui met en œuvre les conditions nécessaires à la prévention d’une dégradation brutale.

Visualiser rapidement le poids de dossiers

Un des enjeux lorsqu’on aborde une arborescence est d’identifier les parties les plus conséquentes en termes de poids (et de nombre de fichiers, d’ailleurs, mais on n’en parlera pas ici).

L’explorateur de fichiers Windows ne donne pas, lorsqu’on navigue dans une arborescence, le poids des fichiers contenus dans les répertoires, notamment parce que cela prend du temps de calcul et que cela ralentirait donc la navigation. Il faut passer par un clic droit sur chacun des dossiers puis cliquer sur Propriétés pour en avoir une idée.

Alors je sais que, pour visualiser des arborescences, on a des outils comme Archifiltre ou Treesize. Mais bon, comme je pense que les bons outils sont les plus simples et les plus éprouvés – et qu’ils ont donc l’avantage d’être bien maintenus et libres – je vais partager avec vous une petite ligne de commande Bash que je trouve pratique.

Informations personnelles et sensibles : comment rechercher dans un ensemble de fichiers

Récemment nous avons reçu les archives de la grande commande photographique. Cent soixante-dix gigaoctets de données contenant les dossiers envoyés par les candidat·e·s et documentant le processus décisionnel aboutissant à la sélection des deux cents photographes lauréat·e·s et toutes les activités de valorisation du projet. Vingt-trois mille fichiers environ répartis dans près de 3000 répertoires. Et, bien évidemment, des données personnelles à la pelle.

Le désarroi de notre collègue archiviste, confronté à une telle masse était visible. L’idée de parcourir cet ensemble à l’aide de l’explorateur de fichiers et de les ouvrir un par un nous décourageait tous et nous condamnait à l’impuissance et à l’inaction.

Le billet qui suit vise à répondre à un besoin particulier, celui de la recherche dans le contenu de fichiers de formats variés, localisés dans une arborescence. Le traitement de ce fonds d’archives numériques ne se limite pas à cette opération, mais il m’a semblé plus utile de me concentrer sur ce sujet, qui fournit déjà matière à un billet beaucoup trop long.

Ne confondez plus numérisé et nativement numérique

J’ai lu pendant ces vacances le livre d’Emmanuelle Bermès, De l’écran à l’émotion : Quand le numérique devient patrimoine (Paris : Éd. de l’École nationale des chartes, 2024). J’y ai retrouvé bien des choses qui sous-tendent notre pratique, et des récits fondateurs qui se transmettent entre collègues, puisque Emmanuelle a longtemps travaillé dans le département de la Bibliothèque numérique de la BnF, puis comme adjointe au directeur des Services et Réseaux, en charge des affaires scientifiques et techniques. La notion de « patrimoine numérique » ne peut évidemment que me toucher, tout comme un plaidoyer pour une notion qui devrait aller de soi et qui peine pourtant à s’imposer. Mais il y a une idée qui sous-tend le propos du livre et sur laquelle je voudrais revenir parce qu’elle aborde un sujet important et qui m’est cher. Je la résume de la manière suivante :

Le patrimoine numérique, c’est autant le numérisé que le nativement numérique, et les deux peuvent être abordés de la même façon.

Une carte postale montrant Hamlet tenant un crâne. En lettres majuscules, typiques d'un meme Internet, on lit en bas "To fix or not to fix".

Leave the files alone

Autrement dit, dans la langue fleurie que j’adopte volontiers : foutez la paix aux fichiers. Pourquoi cette injonction ? Parce que, dans la vulgate préservationniste, largement fondée sur des idées préconçues et élaborée dans les années 2000, l’interventionnisme était de mise, et nous a sans doute amenés à faire des bêtises. Inspirés par les politiques de numérisation, nous avons par exemple abusé de stratégies de normalisation. La tête de mes fichiers ne me revient pas ? Qu’à cela ne tienne, je convertis tout dans un seul format, et tant pis si ce lit de Procuste est trop petit et qu’on doit pour l’y faire rentrer sabrer de précieuses métadonnées internes, descriptives ou techniques, voire des morceaux inattendus (vignettes dans une piste audio, commentaire audio dans une photographie numérique, etc.).

Aimez-les comme ils sont, avec leurs défauts, leurs irrégularités. N’essayez pas de les changer. Ce sont des données patrimoniales, que diable, et c’est donc nos outils d’accès qui doivent s’y adapter, pas le contraire.

Hommage en forme de liste de blogs

Second billet de blog. Le premier a très bien fonctionné : j’ai avoué, en creux, mon ignorance et on m’a très aimablement rappelé l’existence d’outils incontournables (en particulier, l’incroyable liste de ressources pour apprendre la préservation numérique maintenue collaborativement : Awesome Digital Preservation).

Je me propose donc de réitérer.

Récemment, je me suis remis à utiliser un lecteur de flux RSS. Technologie éprouvée, démodée par les réseaux sociaux et pourtant robuste et efficace pour prendre soin de notre attention rudement mise à l’épreuve. Personnellement j’utilise Fluent Reader mais il en existe des dizaines à disposition. Or vous n’imaginez pas la richesse de ce qui s’échange sur la blogosphère, mais ces ressources sont dispersées par essence et peu « découvrables ». C’est le constat fait par Andy Jackson dans le cadre du projet Registries of Good Practice porté par la DPC1.

Des blogs en pagaille

J’ai donc réuni les blogs que je connaissais dans mon domaine, et je me suis dit que j’allais vous en faire profiter.

Réunir un corpus de fichiers

J’avais précédemment engagé mon honneur et promis de faire un premier billet sur le transfert sécurisé de données. Et je vais sans aucune vergogne me dédire, parce que j’ai un autre sujet sur le feu qui m’amuse plus. On verra le transfert une autre fois.

Je vous propose donc un premier billet sur la recherche de fichiers exemples. Quand on fait de la préservation numérique sérieuse, on a besoin d’un corpus de test assez conséquent pour vérifier que nos procédures d’identification, de validation ou d’analyse fonctionnent bien sur une diversité de fichiers. Où allons-nous donc trouver cette diversité si nous ne l’avons pas déjà sous la main ? Il y a plusieurs solutions complémentaires que je vais vous détailler ici. N’hésitez pas si vous en voyez d’autres à me les signaler en commentaire !

D’où je parle (2/2)

Je m’étais arrêté à mon arrivée à la BnF en 2014, avec l’objectif de nouveaux défis dans le domaine du développement de compétences numériques hardcore. Je n’ai pas été déçu. Mon poste d’« expert de modélisation » consistait, à l’origine, à me spécialiser dans les métadonnées dites « de préservation ». Je devais donc jouer le rôle du normalisateur sur la manière de décrire les objets numériques conservés sous forme de « paquets » dans l’entrepôt numérique, et le fonctionnement de celui-ci. Un peu comme mes collègues du département des Métadonnées apportaient leur expertise en gestion de données structurées pour déterminer comment décrire la production culturelle dans nos catalogues. A la différence que lesdits collègues disposaient d’une compétence centenaire de description d’objets patrimoniaux « traditionnels », alors que moi je n’y connaissais malgré tout pas grand-chose, à l’encodage des données numériques. J’ai donc mis cinq ans avant de me sentir légitime sur ce poste – et croyez-moi, il arrive régulièrement que ce sentiment s’évanouisse, aujourd’hui encore. J’y ai par ailleurs développé une allergie carabinée aux « métadonnées de préservation » telles qu’elles sont généralement entendues, mais on y reviendra sans doute.

Page 1 of 2

Fièrement propulsé par WordPress & Thème par Anders Norén