Étiquette : bash

Visualiser rapidement le poids de dossiers

Un des enjeux lorsqu’on aborde une arborescence est d’identifier les parties les plus conséquentes en termes de poids (et de nombre de fichiers, d’ailleurs, mais on n’en parlera pas ici).

L’explorateur de fichiers Windows ne donne pas, lorsqu’on navigue dans une arborescence, le poids des fichiers contenus dans les répertoires, notamment parce que cela prend du temps de calcul et que cela ralentirait donc la navigation. Il faut passer par un clic droit sur chacun des dossiers puis cliquer sur Propriétés pour en avoir une idée.

Alors je sais que, pour visualiser des arborescences, on a des outils comme Archifiltre ou Treesize. Mais bon, comme je pense que les bons outils sont les plus simples et les plus éprouvés – et qu’ils ont donc l’avantage d’être bien maintenus et libres – je vais partager avec vous une petite ligne de commande Bash que je trouve pratique.

Informations personnelles et sensibles : comment rechercher dans un ensemble de fichiers

Récemment nous avons reçu les archives de la grande commande photographique. Cent soixante-dix gigaoctets de données contenant les dossiers envoyés par les candidat·e·s et documentant le processus décisionnel aboutissant à la sélection des deux cents photographes lauréat·e·s et toutes les activités de valorisation du projet. Vingt-trois mille fichiers environ répartis dans près de 3000 répertoires. Et, bien évidemment, des données personnelles à la pelle.

Le désarroi de notre collègue archiviste, confronté à une telle masse était visible. L’idée de parcourir cet ensemble à l’aide de l’explorateur de fichiers et de les ouvrir un par un nous décourageait tous et nous condamnait à l’impuissance et à l’inaction.

Le billet qui suit vise à répondre à un besoin particulier, celui de la recherche dans le contenu de fichiers de formats variés, localisés dans une arborescence. Le traitement de ce fonds d’archives numériques ne se limite pas à cette opération, mais il m’a semblé plus utile de me concentrer sur ce sujet, qui fournit déjà matière à un billet beaucoup trop long.

Réunir un corpus de fichiers

J’avais précédemment engagé mon honneur et promis de faire un premier billet sur le transfert sécurisé de données. Et je vais sans aucune vergogne me dédire, parce que j’ai un autre sujet sur le feu qui m’amuse plus. On verra le transfert une autre fois.

Je vous propose donc un premier billet sur la recherche de fichiers exemples. Quand on fait de la préservation numérique sérieuse, on a besoin d’un corpus de test assez conséquent pour vérifier que nos procédures d’identification, de validation ou d’analyse fonctionnent bien sur une diversité de fichiers. Où allons-nous donc trouver cette diversité si nous ne l’avons pas déjà sous la main ? Il y a plusieurs solutions complémentaires que je vais vous détailler ici. N’hésitez pas si vous en voyez d’autres à me les signaler en commentaire !

Fièrement propulsé par WordPress & Thème par Anders Norén