Étiquette : PDF

Aurais-je fait une boulette ?

Quand on fait de la préservation numérique appliquée, on doit souvent intervenir sur des fichiers. Que ce soit pour rectifier une structure de format incorrecte, pour créer une copie de préservation dans un format préféré ou même pour créer une copie de diffusion conforme à nos standards de qualité, il est très utile de pouvoir comparer deux fichiers, l’original et le transformé.

Je vous propose donc ci-dessous quelques-unes de mes méthodes pour évaluer la distance entre la source et la cible d’une transformation (étant entendu que cette transformation a pour but d’être la moins destructive qui soit, donc n’affecter strictement que ce qu’on souhaite changer).

Cet article, comme les autres, a vocation à être enrichi au fur et à mesure de mes découvertes. Donc il commence petit mais il espère devenir plus conséquent ! Par ailleurs, si vous avez des méthodes similaires à me conseiller, je les prends avec avidité et gourmandise.

Informations personnelles et sensibles : comment rechercher dans un ensemble de fichiers

Récemment nous avons reçu les archives de la grande commande photographique. Cent soixante-dix gigaoctets de données contenant les dossiers envoyés par les candidat·e·s et documentant le processus décisionnel aboutissant à la sélection des deux cents photographes lauréat·e·s et toutes les activités de valorisation du projet. Vingt-trois mille fichiers environ répartis dans près de 3000 répertoires. Et, bien évidemment, des données personnelles à la pelle.

Le désarroi de notre collègue archiviste, confronté à une telle masse était visible. L’idée de parcourir cet ensemble à l’aide de l’explorateur de fichiers et de les ouvrir un par un nous décourageait tous et nous condamnait à l’impuissance et à l’inaction.

Le billet qui suit vise à répondre à un besoin particulier, celui de la recherche dans le contenu de fichiers de formats variés, localisés dans une arborescence. Le traitement de ce fonds d’archives numériques ne se limite pas à cette opération, mais il m’a semblé plus utile de me concentrer sur ce sujet, qui fournit déjà matière à un billet beaucoup trop long.

Fièrement propulsé par WordPress & Thème par Anders Norén