Si plusieurs PDF contiennent des dates, années, numéros ou mots-clés fixes similaires, les ouvrir un par un pour les supprimer est très inefficace. Cet article explique comment utiliser HeSoft Doc Batch Tool pour effectuer une recherche floue et une suppression par lots dans des PDF, en prenant l'exemple de la suppression par lots du mois et de l'année à quatre chiffres sur la couverture d'un PDF. La procédure comprend la sélection de l'outil PDF, l'accès à la recherche et au remplacement des mots-clés dans le PDF, l'importation de plusieurs PDF, l'activation de l'utilisation de la formule de recherche floue de texte, la saisie des règles April|May et des règles à quatre chiffres, et la suppression en laissant le contenu de remplacement vide.
Dans de nombreux scénarios bureautiques, les PDF ne sont pas traités un par un, mais par lots : un lot de rapports d'audit, un lot de documents de projet, un lot de documents publics, un lot de contrats numérisés à archiver, ou plusieurs PDF exportés à partir du même modèle. Dès lors que ces PDF contiennent des textes identiques ou similaires, un besoin de nettoyage par lots peut apparaître. Par exemple, toutes les couvertures de PDF comportent une date, dont le mois peut différer, l'année aussi, mais vous souhaitez supprimer ces informations de manière uniforme.
En cas de traitement manuel, il faut généralement passer par le cycle ouvrir le PDF, localiser le texte, modifier ou masquer, enregistrer, fermer, puis ouvrir le fichier suivant. Cela reste acceptable avec peu de fichiers, mais devient une tâche répétitive typique avec un grand nombre. Plus gênant encore, les textes comme les dates, numéros et années ne sont souvent pas parfaitement identiques, et une simple recherche classique ne peut pas couvrir tous les cas en une seule fois.
Cet article présente une approche plus adaptée au travail par lots : utiliser « HeSoft Doc Batch Tool » pour effectuer une recherche floue par formule/joker dans plusieurs PDF, et définir le contenu de remplacement comme vide, afin de supprimer des mots-clés en masse. Dans l'exemple, un dossier contient 4 PDF et il faut supprimer le mois en lettres et l'année sur quatre chiffres dans la date de couverture, par exemple supprimer April et 2017, en conservant le 13, au milieu.
Scénarios applicables : supprimer en masse du texte régulier mais non strictement identique dans des PDF
La suppression floue par joker n'est pas adaptée uniquement à l'exemple de date de cet article, elle convient mieux au traitement de texte PDF à « variation régulière ». Les situations suivantes sont toutes très courantes :
- Une date figure sur la couverture ou dans l'en-tête/pied de page du PDF, et il faut supprimer en masse le mois, l'année ou la date complète.
- Plusieurs PDF contiennent des numéros de rapport, de projet, de client, et il faut supprimer les numéros au format fixe.
- Le contenu du PDF inclut un ancien nom de société, de service, un ancien nom de code de projet, qu'il faut nettoyer de manière uniforme.
- Le document comporte des cycles statistiques de différentes années, comme 2017, 2018, 2021, à traiter selon la règle des quatre chiffres.
- Des PDF exportés par un même modèle contiennent des textes de substitution qu'il faut remplacer en masse par rien.
Si le texte cible est parfaitement identique, une recherche exacte suffit ; si le texte cible a plusieurs valeurs possibles ou correspond à un certain format, utiliser la « recherche floue de texte par formule » est plus approprié. Son intérêt est que l'utilisateur n'a pas besoin de lister chaque mot spécifique possible, mais décrit une catégorie de texte par une règle, et laisse le logiciel traiter tous les PDF par lots.
HeSoft Doc Batch Tool appartient aux outils de traitement de documents par lots dans les logiciels bureautiques, l'accent n'est pas mis sur la retouche fine d'un seul fichier, mais sur l'aide à l'utilisateur pour appliquer une règle uniforme à un grand nombre de fichiers, réduisant les opérations mécaniques et améliorant l'efficacité du traitement.
Aperçu du résultat : fichiers PDF avant traitement par lots et contenu à supprimer
Avant traitement, le dossier d'exemple contient 4 fichiers PDF, respectivement 1.pdf, 2.pdf, 3.pdf, 4.pdf. Ils seront tous les objets de ce traitement de recherche et remplacement par lots.

En ouvrant l'un des PDF, on peut voir un segment de date « April 13, 2017 » sur la couverture. Dans la capture d'écran, les cadres rouges indiquent April et 2017, ces deux parties étant le contenu à supprimer cette fois-ci. Comme April est un nom de mois et 2017 une année sur quatre chiffres, on peut utiliser respectivement différentes règles de correspondance floue pour les traiter.

Le point clé ici est que nous ne voulons pas supprimer tout le contenu de la date entière, mais seulement les parties ciblées par des règles spécifiques. En d'autres termes, 13, n'a pas besoin d'être supprimé, mais le mois et l'année si. Grâce à une configuration par règles, on peut faire en sorte que le logiciel cible précisément le contenu à nettoyer.
Effet après traitement : le texte correspondant dans le PDF est vidé
Une fois le traitement par lots terminé, en consultant à nouveau la page du PDF, l'emplacement qui affichait précédemment April est devenu vide, l'emplacement de 2017 est également devenu vide, tandis que le 13, du milieu subsiste toujours. Ce résultat est conforme aux attentes, indiquant que la suppression floue par lots a bien pris effet.

D'après le résultat, la logique de traitement exécutée par le logiciel est « rechercher et remplacer par rien ». Tant que la règle de gauche peut correspondre au texte du PDF et que le contenu de remplacement de droite est vide, on obtient l'effet de suppression. Pour de nombreux scénarios nécessitant de nettoyer des mots-clés dans les PDF, cette méthode est plus stable et réutilisable qu'une modification manuelle une par une.
Étape 1 : Ouvrir la fonction Rechercher et remplacer dans l'outil PDF
Après avoir lancé HeSoft Doc Batch Tool , sélectionnez d'abord « Outils PDF » dans la classification des outils à gauche. On peut voir dans l'interface plusieurs fonctions par lots liées aux PDF, y compris ajouter un filigrane, supprimer des pages, convertir le format, etc. Cette fois, nous devons traiter le texte dans le contenu PDF, il faut donc choisir la 1ère fonction « Rechercher et remplacer des mots-clés dans le PDF ».

Cette fonction sert à rechercher et remplacer en masse des mots-clés dans le contenu des fichiers PDF. Bien que le nom comprenne « remplacer », lorsque le contenu après remplacement n'est pas renseigné, cela permet également de supprimer. En d'autres termes, supprimer des mots-clés de PDF peut être compris comme un type de remplacement spécial : remplacer le texte correspondant par un contenu vide.
Après être entré dans cette fonction, le logiciel guidera l'opération selon un processus qui comprend : sélectionner les enregistrements à traiter, définir les options de traitement, définir l'emplacement de sauvegarde, commencer le traitement. Cette conception de flux est adaptée au traitement par lots, car elle sépare la sélection des fichiers, le paramétrage des règles et l'enregistrement de la sortie, facilitant la confirmation étape par étape par l'utilisateur.
Étape 2 : Importer plusieurs PDF et vérifier la liste de traitement
Après être entré dans la page « Rechercher et remplacer des mots-clés dans le PDF », il faut d'abord importer les PDF. En haut à droite de l'interface se trouvent deux entrées courantes « Ajouter des fichiers » et « Importer des fichiers d'un dossier ». Si le nombre de PDF est faible, on peut utiliser « Ajouter des fichiers » ; si tous les PDF sont dans le même dossier, utiliser « Importer des fichiers d'un dossier » est généralement plus efficace.

Dans la capture d'écran, 4 enregistrements ont été importés avec succès. Le tableau liste le nom du fichier, le chemin, l'extension, la date de création et de modification, et le résumé en bas affiche un nombre d'enregistrements de 4. Grâce à cette liste, on peut confirmer si les fichiers à traiter cette fois sont corrects, évitant d'inclure des PDF non pertinents dans la tâche par lots.
Il est recommandé de vérifier attentivement deux points à cette étape : premièrement, si les extensions de fichier sont toutes pdf ; deuxièmement, si le chemin correspond bien au répertoire que vous préparez à traiter. L'efficacité du traitement par lots est très élevée, mais cela signifie aussi qu'une erreur de paramétrage peut affecter plusieurs fichiers, il est donc très important de confirmer la liste avant de passer à l'étape suivante.
Après confirmation, cliquez sur « Suivant » en bas pour accéder à la page de configuration des règles de recherche et remplacement de mots-clés.
Étape 3 : Choisir d'utiliser la recherche floue de texte par formule
Sur la page « Définir les options de traitement », il faut d'abord définir le « Mode de recherche ». L'interface propose « Recherche exacte de texte » et « Recherche floue de texte par formule ». S'il s'agit simplement de supprimer un mot fixe, par exemple supprimer le même nom dans tous les PDF, on peut choisir la recherche exacte ; mais comme le mois et l'année à traiter dans cet article ont une variation régulière, il faut choisir « Recherche floue de texte par formule ».

Dans la capture d'écran, « Recherche floue de texte par formule » est déjà coché. Cette approche peut être comprise comme la recherche de texte PDF par règle, adaptée à la suppression par lots de mots-clés avec jokers. Elle permet de fusionner plusieurs contenus possibles en une seule règle et de trouver des textes formatés comme des chiffres, des années, etc.
Dans les « Options supplémentaires », on peut voir « Ignorer la casse des lettres ». La nécessité de le cocher dépend des fichiers réels. Si le PDF peut contenir à la fois april, APRIL, etc., ignorer la casse peut améliorer le taux de couverture ; si la casse a une importance distinctive, son usage doit être prudent.
Étape 4 : Remplir les règles de mots-clés à supprimer et laisser le contenu de remplacement vide
Dans la « Liste des mots-clés à rechercher », remplissez deux lignes selon l'exemple de la capture d'écran :
- April|May : signifie correspondre à April ou May. Convient pour supprimer simultanément plusieurs mois possibles en anglais.
- \d{4} : signifie correspondre à une séquence de quatre chiffres. Pour un contenu de type année, comme 2017, 2020, 2026, on peut utiliser ce type de règle pour une recherche unifiée.
La zone de droite est la « Liste des mots-clés après remplacement ». Le cadre rouge dans la capture indique la mention « ne pas remplir signifie supprimer ». Ainsi, si l'objectif est de supprimer le mot-clé, inutile de remplir le contenu après remplacement, il suffit de garder le côté droit vide.
Cette étape est le cœur de toute l'opération. La gauche détermine quoi chercher, la droite détermine par quoi remplacer ; lorsque la droite est vide, le logiciel efface le texte correspondant à gauche. De cette manière, on peut supprimer en masse des segments de date, des chiffres d'année ou des mots spécifiques dans plusieurs PDF.
Il faut noter que plus la règle est large, plus la portée de correspondance est grande. Par exemple, \d{4} correspondra à toutes les séquences de quatre chiffres, pas seulement les années. Si le PDF contient aussi des numéros à quatre chiffres, ils pourraient également être supprimés. Dans le travail réel, il faut donc concevoir les règles avec prudence en fonction du contenu du document, et d'abord tester avec un petit nombre de fichiers.
Étape 5 : Définir l'emplacement de sauvegarde et démarrer le traitement
Une fois les règles de mots-clés configurées, cliquez sur « Suivant » en bas de page. Selon le flux de l'interface, cela mènera ensuite à « Définir l'emplacement de sauvegarde », puis à « Démarrer le traitement ». Pour le traitement par lots de PDF, il est conseillé de ne pas écraser directement les fichiers originaux, mais d'enregistrer les résultats dans un répertoire séparé. Ainsi, même si les règles nécessitent un ajustement, on peut revenir aux fichiers originaux pour retraiter.
Une fois le traitement démarré, le logiciel exécute la recherche et le remplacement un par un sur les PDF de la liste importée. Pour les 4 PDF de l'exemple, le logiciel recherche April ou May, ainsi que tout texte correspondant à la règle des quatre chiffres, et remplace ces correspondances par rien. Une fois le traitement terminé, en ouvrant le PDF de sortie pour vérifier, on peut voir que le mois et l'année ont bien été supprimés.
Si le nombre de fichiers à traiter est important, on peut d'abord vérifier par sondage quelques fichiers typiques : contenant April, contenant May, avec des années différentes, avec des mises en page différentes. Une fois la stabilité des règles de correspondance confirmée, on peut appliquer la même méthode à un lot de fichiers plus volumineux.
Questions fréquentes et points d'attention
1. Quelle est la différence entre la suppression floue par joker et la suppression par recherche simple ?
La recherche simple exige généralement une correspondance exacte du mot-clé, par exemple rechercher uniquement April. La recherche floue par joker ou formule permet de trouver par règle, par exemple April|May peut correspondre à deux mots, \d{4} aux séquences de quatre chiffres. Pour plusieurs PDF au contenu non strictement identique, la recherche floue fait gagner du temps.
2. Pourquoi ne reste-t-il que 13, après le traitement ?
Parce que la règle de recherche de cet exemple ne couvre que April, May et les nombres à quatre chiffres, et n'a pas inclus 13, dans la règle de suppression. Le logiciel ne traite que le texte correspondant aux règles, il ne supprime pas activement le contenu non correspondant, c'est pourquoi 13, est conservé. Cela montre également que le paramétrage des règles est ciblé.
3. Que faire si l'on veut supprimer la date complète ?
On peut concevoir une règle de recherche plus complète basée sur le format réel de la date. Mais avant un traitement formel, il est impératif de valider avec des fichiers échantillons pour éviter de supprimer ensemble des chiffres ou mots qui ne devraient pas l'être. Cet article explique la méthode de suppression du mois et de l'année selon les règles montrées dans les captures, sans détailler d'autres boutons ou fonctions avancées non apparents.
4. Que faire si le texte du PDF ne peut pas être supprimé ?
Si le contenu du PDF est sous forme d'image et non de texte sélectionnable et copiable, la recherche et le remplacement risquent de ne rien trouver. Il est conseillé d'essayer d'abord de sélectionner le texte avec un lecteur PDF. S'il est impossible de le sélectionner, cela signifie probablement qu'il ne s'agit pas d'une couche de texte ordinaire, et il faut envisager une autre approche selon le type de fichier.
5. Le traitement par lots affecte-t-il la mise en page originale ?
Après le remplacement par rien, l'emplacement du texte original devient vide, le reste du contenu de la page reste généralement à sa place. La mise en page des PDF étant complexe, l'effet peut varier selon les fichiers, il est donc nécessaire de vérifier les pages par sondage après traitement, en particulier les couvertures, en-têtes, pieds de page et les zones proches des tableaux.
Résumé : confiez le nettoyage répétitif de texte PDF à l'outil de traitement par lots
Pour supprimer en masse des mots-clés dans plusieurs PDF, l'essentiel n'est pas comment modifier un fichier, mais comment appliquer de manière stable un même ensemble de règles à un lot de fichiers. La fonction « Rechercher et remplacer des mots-clés dans le PDF » fournie par HeSoft Doc Batch Tool permet de réaliser une correspondance de type joker via la « recherche floue de texte par formule », puis de réaliser la suppression en laissant le contenu de remplacement vide.
Dans l'exemple de cet article, on importe d'abord 4 PDF, puis on remplit les deux règles de recherche April|May et \d{4}, et enfin on laisse la liste des mots-clés après remplacement vide, ce qui permet de supprimer en masse le mois et les années à quatre chiffres dans les PDF. Pour les utilisateurs traitant fréquemment des rapports, contrats, archives ou PDF destinés à la publication, cette méthode peut réduire significativement le temps consacré aux ouvertures répétitives et aux éditions manuelles.
Nous vous suggérons, lors de l'utilisation, de préparer d'abord une sauvegarde des fichiers originaux, de choisir un petit nombre de PDF pour tester les règles de jokers, et une fois l'exactitude confirmée, de traiter le dossier complet par lots. Cela permet d'exploiter l'efficacité du traitement par lots du logiciel bureautique tout en réduisant le risque de suppression erronée.