Récemment nous avons reçu les archives de la grande commande photographique. Cent soixante-dix gigaoctets de données contenant les dossiers envoyés par les candidat·e·s et documentant le processus décisionnel aboutissant à la sélection des deux cents photographes lauréat·e·s et toutes les activités de valorisation du projet. Vingt-trois mille fichiers environ répartis dans près de 3000 répertoires. Et, bien évidemment, des données personnelles à la pelle.
Le désarroi de notre collègue archiviste, confronté à une telle masse était visible. L’idée de parcourir cet ensemble à l’aide de l’explorateur de fichiers et de les ouvrir un par un nous décourageait tous et nous condamnait à l’impuissance et à l’inaction.
Le billet qui suit vise à répondre à un besoin particulier, celui de la recherche dans le contenu de fichiers de formats variés, localisés dans une arborescence. Le traitement de ce fonds d’archives numériques ne se limite pas à cette opération, mais il m’a semblé plus utile de me concentrer sur ce sujet, qui fournit déjà matière à un billet beaucoup trop long.