De nombreux documents PDF contiennent des dates, numéros, années et autres textes avec le même format mais un contenu différent. La suppression manuelle une par une est inefficace et sujette aux omissions. Cet article explique comment utiliser HeSoft Doc Batch Tool , importer plusieurs PDF dans la fonction « Rechercher et remplacer des mots-clés dans les PDF », utiliser des formules pour rechercher de manière floue « April », « May » et les années à quatre chiffres, puis laisser le contenu de remplacement vide, afin de réaliser la suppression par lots de textes non fixes dans les PDF.
Dans le travail quotidien, les PDF sont souvent utilisés pour conserver des rapports, des règlements, des contrats, des documentations de projet et des documents destinés à la diffusion externe. Le problème est que de nombreux PDF nécessitent la suppression de certains textes avant leur diffusion ou leur archivage, comme des dates, des années, des numéros de version, des noms, des numéros ou certains champs sensibles. Si ces contenus sont parfaitement identiques, l’utilisation d’un simple rechercher-remplacer est relativement facile ; mais si les dates et les années diffèrent d’un fichier à l’autre, un traitement manuel devient très inefficace.
Cet article prend pour exemple la « suppression groupée des mois et des années dans plusieurs PDF » afin d’illustrer comment utiliser HeSoft Doc Batch Tool pour effectuer une suppression par correspondance floue dans les PDF. Dans l’exemple, la couverture du PDF comportait initialement « April 13, 2017 », et nous souhaitons supprimer le mois en anglais et l’année à quatre chiffres, en conservant le jour sous forme numérique. En pratique, l’option « Recherche floue de texte par formule » permet de faire correspondre plusieurs mois et années possibles, puis de laisser vide la liste des mots-clés de remplacement, ce qui réalise la suppression groupée.
Scénarios d’application : nécessité de nettoyer en masse des contenus variables et réguliers dans les PDF
Ce type de fonction est particulièrement adapté au traitement de textes réguliers. Par exemple, de nombreux PDF contiennent des dates, mais les années diffèrent ; ils comportent des numéros, mais les derniers chiffres varient ; ils incluent des mois, mais il peut s’agir d’April, May ou d’autres mois en anglais ; ils possèdent des numéros de version, mais ces numéros changent. Dès lors que ces textes peuvent être décrits par des règles, l’utilisation de la recherche floue est envisageable.
Les scénarios typiques incluent : la suppression groupée de la date de publication sur la couverture de rapports PDF ; le nettoyage des références de projet dans les versions destinées à l’extérieur ; la suppression des numéros au format fixe dans les contrats PDF ; la suppression des informations relatives à l’année dans les fichiers archivés ; l’anonymisation partielle de documents PDF ; le nettoyage unifié de certains mots-clés variables dans plusieurs PDF. Comparé à l’ouverture individuelle des PDF en vue d’une modification manuelle, les outils de traitement par lots permettent de fusionner les actions répétitives en une seule tâche.
HeSoft Doc Batch Tool se positionne comme un logiciel bureautique dont l’objectif n’est pas l’édition fine d’un seul fichier, mais le traitement par lots d’un grand nombre de documents afin de réduire les tâches répétitives. Pour les fichiers bureautiques courants tels que PDF, Word, Excel, PowerPoint, ce type d’opération groupée permet un gain de temps significatif. Cet article se concentre sur la recherche, le remplacement et la suppression par lots de mots-clés dans les PDF.
Aperçu du résultat : avant le traitement, 4 PDF doivent être uniformément nettoyés
La capture d’écran avant traitement montre que le dossier actuel contient 4 fichiers PDF, respectivement nommés 1.pdf, 2.pdf, 3.pdf et 4.pdf. De nombreuses tâches bureautiques réelles se présentent de manière similaire : le nombre de fichiers peut être faible, mais aussi atteindre des dizaines ou des centaines, la règle de traitement restant identique.

Après avoir ouvert l’un des PDF, on peut observer que la date sur la couverture affiche « April 13, 2017 ». « April » et « 2017 » sont mis en évidence par un cadre rouge, indiquant qu’il s’agit du contenu cible à supprimer cette fois-ci. Puisque « 2017 » est une année numérique à quatre chiffres et que d’autres années peuvent apparaître dans les autres PDF, la correspondance floue est plus appropriée.

Un traitement fichier par fichier nécessiterait d’ouvrir le PDF, de rechercher le texte correspondant, de le supprimer ou de le remplacer, d’enregistrer, puis de passer au fichier suivant. Plus le nombre de fichiers est élevé, plus les opérations répétitives sont évidentes et plus le risque d’omettre un traitement en raison de la fatigue est grand. L’objectif de l’utilisation d’un outil de traitement par lots est précisément de confier ces actions mécaniques au logiciel.
Résultat après traitement : les mois et les années dans le PDF sont supprimés
Une fois le traitement terminé, si l’on consulte à nouveau le PDF généré, « April » et « 2017 » ont été supprimés de l’emplacement original de la date, et seule la partie non correspondante « 13, » subsiste sur la page. La zone vide mise en évidence indique que le logiciel a bien effectué le nettoyage des mots-clés conformément aux règles définies.

Ce résultat met en évidence deux points : premièrement, le logiciel peut localiser un texte spécifié dans le contenu d’un PDF ; deuxièmement, lorsque le contenu de remplacement est vide, il est possible de réaliser une suppression plutôt qu’un remplacement. Cette méthode s’avère très directe pour le nettoyage groupé de dates, d’années, de numéros ou d’autres contenus similaires.
Étape 1 : ouvrir la fonction de rechercher-remplacer dans l’outil PDF
Après avoir lancé HeSoft Doc Batch Tool , plusieurs catégories d’outils sont visibles sur la gauche. Une fois « Outils PDF » sélectionnée, l’interface principale affiche la liste des fonctions liées aux PDF. L’opération utilisée ici est « 1. Rechercher et remplacer des mots-clés dans le PDF », décrite comme permettant de rechercher et de remplacer en masse des mots-clés dans le contenu des fichiers PDF.

La raison du choix de cette fonction est que la suppression de mots-clés dans un PDF peut fondamentalement être considérée comme une opération de remplacement spéciale, c’est-à-dire « remplacer le texte cible trouvé par rien ». Il n’est donc pas nécessaire de chercher une entrée distincte pour la « suppression de texte » ; il suffit de configurer correctement les règles de recherche et le contenu de remplacement au sein même de la fonction rechercher-remplacer.
Avant d’accéder à la fonction, il est conseillé de préparer les fichiers PDF à traiter en les plaçant tous dans un même dossier. Cela permettra par la suite de les importer via le dossier, réduisant ainsi le temps nécessaire à la sélection individuelle des fichiers.
Étape 2 : importer plusieurs PDF et vérifier la liste de traitement
Une fois dans l’interface de la fonction, la première étape consiste à « Sélectionner les enregistrements à traiter ». En haut à droite de l’interface, deux boutons usuels sont disponibles : « Ajouter des fichiers » et « Importer depuis un dossier ». Si seuls quelques PDF spécifiques sont à traiter, on peut cliquer sur « Ajouter des fichiers » ; si on souhaite traiter l’ensemble des PDF d’un dossier, on peut choisir « Importer depuis un dossier ».

La capture d’écran montre que 4 enregistrements ont été importés, nommés 1.pdf, 2.pdf, 3.pdf, 4.pdf, et dont les chemins sont tous situés dans le dossier test du lecteur D. La liste affiche également l’extension pdf, ainsi que les dates de création et de modification. Une fois l’importation terminée, la zone récapitulative inférieure indique « Nombre d’enregistrements : 4 », ce qui permet de confirmer que la quantité importée est correcte.
Deux points méritent attention à cette étape. Premièrement, confirmer l’absence de fichiers superflus dans la liste pour éviter un traitement erroné. Deuxièmement, s’assurer que tous les fichiers à traiter ont bien été ajoutés afin d’éviter toute omission. Si un fichier ne doit pas participer au traitement, on peut utiliser l’icône de suppression dans la colonne des actions pour le retirer de la liste. Après confirmation, cliquer sur « Suivant » en bas.
Étape 3 : utiliser la recherche floue par formule pour faire correspondre du texte variable
En passant à la deuxième étape « Définir les options de traitement », on examine d’abord le « Mode de recherche ». L’interface propose « Recherche exacte de texte » et « Recherche floue de texte par formule ». Dans cet exemple, le traitement concerne les mois et les années, l’année étant un contenu variable, d’où la sélection de « Recherche floue de texte par formule ».

Dans la « Liste des mots-clés à rechercher », l’exemple montre deux règles saisies. La première « April|May » sert à correspondre à April ou May, pratique pour traiter plusieurs mois en anglais possibles. La seconde « \d{4} » sert à correspondre à une séquence de quatre chiffres consécutifs, usage courant pour identifier une année, par exemple 2017, 2018, 2026, etc.
La logique ici est d’inscrire toutes les cibles à supprimer dans la liste de recherche à gauche. Les mots fixes peuvent être écrits tels quels, plusieurs candidats peuvent être exprimés par une règle, et les années numériques peuvent être représentées par une formule. Ainsi, le logiciel recherchera le contenu correspondant dans chaque PDF selon ces règles.
À droite se trouve la « Liste des mots-clés de remplacement ». L’objectif ici étant de supprimer du texte, la partie droite reste donc vide. Le message d’information « L’absence de saisie équivaut à une suppression » constitue précisément le réglage clé pour réaliser la suppression groupée de mots-clés dans les PDF. Il ne faut pas saisir d’espace, ni de mot de substitution, il suffit de laisser vide.
Étape 4 : enregistrer vers un nouvel emplacement et lancer le traitement
Après avoir configuré les règles de recherche et de suppression, cliquez sur « Suivant ». La barre de progression indique que les étapes suivantes incluent « Définir l’emplacement d’enregistrement » et « Démarrer le traitement ». Bien que la capture d’écran ne montre pas la page de l’emplacement d’enregistrement, on peut déduire du déroulement qu’il faut spécifier le dossier de sortie avant de procéder au traitement formel.
Il est recommandé d’enregistrer les PDF traités dans un nouveau dossier, plutôt que de les mélanger directement avec les fichiers d’origine. Cela présente trois avantages : premièrement, cela préserve les PDF originaux, facilitant un retour en arrière ; deuxièmement, cela facilite la comparaison des résultats avant et après traitement ; troisièmement, cela évite les erreurs d’interprétation dues à des fichiers portant le même nom. Pour des documents importants, il vaut mieux tester d’abord les règles avec 1 ou 2 fichiers échantillons, confirmer que l’étendue de la suppression est correcte, puis lancer le traitement groupé sur l’ensemble des fichiers.
Une fois dans la phase « Démarrer le traitement », le logiciel traitera les multiples PDF dans l’ordre de la liste. Le traitement terminé, ouvrez le fichier de sortie pour vérifier la page. Dans l’exemple, le texte original « April 13, 2017 » est réduit à « 13, » uniquement, ce qui montre que le mois et l’année ont bien été supprimés conformément aux règles.
Questions fréquentes et points d’attention
1. La recherche floue par formule est-elle un caractère générique ?
En usage pratique, de nombreux utilisateurs qualifient ce type de règle de caractère générique ou de correspondance floue. L’intitulé « Recherche floue de texte par formule » dans la capture d’écran décrit plus précisément son mode de fonctionnement : faire correspondre une catégorie de textes via des règles de formule, plutôt que de simplement faire correspondre une chaîne fixe.
2. Si je souhaite uniquement supprimer un mot fixe, dois-je malgré tout utiliser la formule ?
Pas nécessairement. Si le même mot fixe est à supprimer dans tous les PDF, on peut choisir « Recherche exacte de texte ». En revanche, si différents mois, différentes années ou différents numéros peuvent apparaître au même emplacement, l’usage de la recherche floue par formule est plus simple.
3. Pourquoi « 13, » subsiste-t-il après le traitement ?
Parce que les règles de l’exemple ne ciblaient que « April » et les années à quatre chiffres, sans chercher à faire correspondre « 13, » au milieu. Le logiciel ne supprime que le contenu touché et n’efface pas automatiquement les caractères non correspondants. Si vous devez également supprimer le jour ou la virgule, il faut ajouter les règles de correspondance correspondantes dans la liste de recherche.
4. Comment éviter les suppressions accidentelles avant la suppression groupée ?
Les règles ne doivent pas être rédigées de façon trop large. Par exemple, si on fait correspondre tous les nombres à quatre chiffres, d’autres nombres à quatre chiffres à d’autres emplacements du PDF pourraient également être touchés. Avant le traitement groupé officiel, il est conseillé de tester avec des fichiers échantillons et de vérifier les résultats obtenus.
Résumé : confier les tâches de nettoyage répétitives des PDF à un logiciel de traitement par lots
La clé de la suppression groupée de textes non fixes dans des fichiers PDF réside dans la recherche de règles de correspondance appropriées. HeSoft Doc Batch Tool , via la fonction « Rechercher et remplacer des mots-clés dans le PDF », intègre l’importation de fichiers, la définition des règles, l’enregistrement de la sortie et le lancement du traitement en un flux complet. L’utilisateur doit simplement indiquer dans la liste de recherche le contenu à faire correspondre et laisser vide la liste de remplacement pour mener à bien la suppression groupée.
Si vous devez fréquemment traiter des dates, des années, des numéros, des champs sensibles ou d’autres contenus similaires dans des PDF, il est recommandé de conserver la procédure décrite ici comme référence : préparez d’abord les PDF, importez la liste de fichiers, choisissez ensuite la recherche floue par formule, remplissez les règles, laissez vide le contenu de remplacement, et enfin, enregistrez dans un nouveau répertoire et vérifiez le résultat. Cela permet de réduire significativement les opérations répétitives et de rendre le nettoyage des PDF plus stable et plus efficace.