De nombreux fichiers PDF contiennent fréquemment des dates, des numéros, des mois, des noms ou des codes de projet. Supprimer manuellement ces éléments en ouvrant chaque PDF un par un est non seulement chronophage, mais aussi source d'omissions. Cet article prend HeSoft Doc Batch Tool comme exemple pour montrer comment utiliser des formules de recherche floue de texte, via des motifs similaires aux caractères génériques ou aux expressions régulières, afin de faire correspondre en masse des mots-clés variables dans plusieurs PDF et de laisser le contenu de remplacement vide, réalisant ainsi une suppression par lots du texte dans les PDF.
Lors de la mise en ordre de contrats, de rapports, de documents d'archivage ou de publications, on rencontre souvent ce problème : de nombreux fichiers PDF contiennent des textes à supprimer, mais ces textes ne sont pas tous identiques. Par exemple, certains fichiers affichent le mois, d'autres l'année, certains comportent une numérotation continue, d'autres contiennent une partie d'une date. Ouvrir les PDF un par un, rechercher manuellement avec un lecteur puis supprimer, est non seulement inefficace, mais avec des dizaines ou des centaines de fichiers à traiter, il est très facile d'oublier des suppressions, de faire des erreurs de suppression ou de s'embrouiller dans les sauvegardes.
Cet article vise à résoudre ce type de scénario de traitement par lots : utiliser HeSoft Doc Batch Tool pour effectuer une recherche floue basée sur le principe des caractères génériques dans plusieurs PDF, et supprimer par lots les mots-clés correspondants. Le nom de cette fonction dans l'interface est « Rechercher et remplacer le mot-clé dans le PDF », dans laquelle l'option « Utiliser la formule pour la recherche floue de texte » est adaptée aux situations où « le mois n'est pas fixe », « l'année n'est pas fixe », ou « le nombre de chiffres du numéro est fixe mais son contenu varie ». Il suffit de laisser la liste des mots-clés de remplacement vide pour obtenir l'effet de suppression du texte correspondant.
Scénarios applicables : quels contenus PDF se prêtent à la suppression par lots avec des caractères génériques
La suppression par lots de mots-clés PDF avec des caractères génériques est adaptée au traitement des textes PDF qui suivent une règle, mais dont le contenu spécifique varie. Par exemple, un même lot de pages de couverture de rapports comporte des dates au format « April 13, 2017 », « May 13, 2020 » ; ou bien des fichiers contiennent une année à quatre chiffres, un numéro de longueur fixe, un numéro de lot, un numéro de version, un numéro de série, etc. Leur point commun est qu'il n'est pas approprié de saisir un seul mot fixe pour une suppression précise, mais qu'il est possible de les identifier de manière unifiée à l'aide d'une règle.
Dans l'exemple illustré, les fichiers à traiter sont 4 PDF, nommés respectivement 1.pdf, 2.pdf, 3.pdf et 4.pdf. Chaque PDF contient du contenu lié à une date à nettoyer. La liste des fichiers avant traitement est la suivante :

En ouvrant l'un d'entre eux, on peut voir qu'il contient une date comme « April 13, 2017 ». L'exemple encadré en rouge montre les parties à supprimer : le mois « April » et l'année « 2017 ». Comme les mois ou les années peuvent varier d'un fichier à l'autre, utiliser une recherche précise simple nécessiterait de saisir plusieurs mots fixes ; avec la recherche floue par formule, on peut utiliser « April|May » pour correspondre à plusieurs mois possibles, et « \d{4} » pour correspondre à une année à quatre chiffres.

Il est important de noter que cet article traite de la recherche et de la suppression par lots de texte dans le contenu des fichiers PDF, et non de la suppression des noms de fichiers PDF ou de pages entières. Si vous souhaitez modifier des noms de fichiers en bloc, supprimer des pages de PDF, ou convertir des documents Word/docx/doc ou des tableurs Excel, cela relève d'autres scénarios d'outils ; l'accent est mis ici sur le traitement par lots des mots-clés dans le corps du texte PDF.
Aperçu des résultats : comparaison avant/après de la suppression de mots-clés PDF
Avant le traitement, la date complète, le mois et l'année sont visibles sur la page du PDF. Après avoir configuré la fonction de recherche et de remplacement par lots, le logiciel exécute la même règle fichier PDF importé par fichier PDF importé : rechercher le texte conforme à la formule, et définir le contenu de remplacement comme vide. Ainsi, le texte correspondant est supprimé du PDF.
L'effet ainsi obtenu est visible dans l'exemple qui suit. On constate que l'emplacement du mois d'origine est devenu vide, et que l'année à quatre chiffres a également été supprimée, ne laissant que les parties non ciblées par la suppression, telles que « 13, » au milieu, qui restent présentes. Cela démontre que le logiciel n'efface pas simplement une zone de coordonnées fixes, mais localise le texte correspondant selon les règles de recherche saisies, puis le remplace et le supprime.

L'avantage de cette méthode est très clair : lorsque les mois, années ou numéros diffèrent d'un PDF à l'autre, mais que leur format répond à une même logique, il n'est plus nécessaire de vérifier et traiter manuellement chaque fichier, page par page. Si la règle est correctement définie, il est possible de traiter tout le lot de PDF en une seule fois, ce qui est particulièrement adapté aux tâches telles que l'anonymisation de données, le nettoyage préalable à la publication de rapports, l'archivage de fichiers historiques, ou la suppression de contenu de modèles.
Procédure opérationnelle : utiliser HeSoft Doc Batch Tool pour supprimer par lots des mots-clés PDF
Le flux opérationnel complet est présenté ci-dessous, en suivant l'ordre des captures d'écran. L'ensemble du processus peut être divisé en quatre étapes : choisir la fonction, importer les PDF, configurer les règles de recherche floue et de suppression, et définir l'emplacement de sauvegarde avant de lancer le traitement. Il est essentiel de vérifier à chaque étape que les paramètres correspondent à vos attentes, en particulier pour les caractères génériques ou les règles de formule. Il est conseillé de tester d'abord avec un petit nombre de fichiers avant de traiter l'ensemble par lots.
Étape 1 : Accéder aux outils PDF et sélectionner « Rechercher et remplacer le mot-clé dans le PDF »
Après avoir ouvert HeSoft Doc Batch Tool , sélectionnez « Outils PDF » dans la classification des outils à gauche. Plusieurs cartes de fonction de traitement par lots PDF s'affichent à droite, y compris l'ajout de filigrane PDF, la suppression de pages, la conversion en Word, la conversion en TXT, etc. Ce que vous devez sélectionner ici est la 1ère option « Rechercher et remplacer le mot-clé dans le PDF ».

Le but de cette étape est d'entrer dans le flux de travail de recherche et de remplacement de texte dans les PDF. Puisque nous souhaitons supprimer des mots-clés du contenu du PDF, il ne faut pas choisir « Supprimer des pages dans le PDF » ou « Convertir PDF en Word ». Après avoir choisi la bonne fonction, le logiciel affiche une interface guidée dont les étapes sont visibles en haut : sélectionner les enregistrements à traiter, définir les options de traitement, définir l'emplacement de sauvegarde, et lancer le traitement.
Étape 2 : Ajouter plusieurs fichiers PDF et confirmer les enregistrements à traiter
Une fois dans la page de la fonction, importez d'abord les fichiers PDF à traiter. Les boutons « Ajouter un fichier » et « Importer les fichiers d'un dossier » sont disponibles en haut à droite de l'interface. Pour ne traiter que quelques PDF spécifiques, vous pouvez cliquer sur « Ajouter un fichier » ; si un dossier entier ne contient que les PDF à traiter, vous pouvez utiliser « Importer les fichiers d'un dossier » pour un import groupé. Dans la capture d'écran, 4 fichiers PDF ont été importés, et la liste affiche leurs numéro d'ordre, nom, chemin, extension, date de création et date de modification.

Le but de cette étape est de confirmer « quels PDF seront traités par lots ». Après l'importation, veuillez vérifier le nombre de fichiers, leurs chemins et leurs extensions. Dans l'exemple, le nombre d'enregistrements est 4, ce qui signifie que 1.pdf, 2.pdf, 3.pdf et 4.pdf participeront tous à la suppression des mots-clés. Si un fichier n'a pas besoin d'être traité, vous pouvez le retirer dans la colonne des opérations ; si l'importation est erronée, vous pouvez également utiliser le bouton « Vider » de l'interface pour tout recommencer. Après confirmation, cliquez sur « Suivant » en bas de la page.
Étape 3 : Choisir « Utiliser la formule pour la recherche floue de texte » et saisir les règles de suppression
Sur la page « Définir les options de traitement », il est essentiel de configurer les options de mots-clés. Dans la capture d'écran, la « Méthode de recherche » sélectionnée est « Utiliser la formule pour la recherche floue de texte ». C'est la clé pour réaliser une suppression floue par lots avec des caractères génériques. Comparée à la « Recherche précise de texte », la recherche floue par formule est adaptée pour saisir des expressions basées sur des règles, permettant de faire correspondre un type de texte avec une seule règle.

Dans la « Liste de mots-clés à rechercher », chaque ligne peut contenir un contenu ou une règle à trouver. Dans l'exemple, la 1ère ligne est « April|May », ce qui peut être interprété comme correspondant à April ou May ; la 2ème ligne est « \d{4} », qui correspond à un nombre à quatre chiffres, comme 2017, 2020, etc. Ainsi, le logiciel recherche les noms de mois et les années à quatre chiffres dans le PDF, au lieu de rechercher une chaîne de caractères fixe unique.
À droite se trouve la « Liste des mots-clés de remplacement ». La note dans la capture d'écran, « Laisser vide signifie supprimer », est très importante. Si vous voulez remplacer un mot-clé par un nouveau contenu, remplissez le texte de remplacement à droite ; si l'objectif est de supprimer le mot-clé du PDF, gardez le contenu de remplacement correspondant vide. L'objectif de cet article étant la suppression floue par lots, il faut donc laisser le contenu à droite vide, pour que le logiciel remplace le texte trouvé par du vide.
Lors du paramétrage, il est conseillé de suivre un principe : définissez clairement la portée de la suppression avant de décider de l'organisation sur plusieurs lignes. Par exemple, si vous devez supprimer les mois et les années, vous pouvez le faire sur deux lignes comme dans l'exemple ; si vous ne supprimez que l'année à quatre chiffres, inscrivez seulement « \d{4} ». Évitez de définir des règles trop larges, car cela pourrait supprimer accidentellement d'autres nombres normaux dans le PDF. Par exemple, « \d+ » correspondrait à une séquence continue de chiffres, ce qui est plus large que l'année à quatre chiffres, et nécessite de la prudence avant utilisation.
Étape 4 : Passer à l'étape suivante, définir l'emplacement de sauvegarde et lancer le traitement par lots
Une fois les règles de mots-clés configurées, cliquez sur « Suivant » en bas de la page. Conformément au flux en haut de la page, les étapes suivantes consistent à « Définir l'emplacement de sauvegarde » puis à « Démarrer le traitement ». Le but de ces deux étapes est respectivement de déterminer où les PDF traités seront sauvegardés, et d'exécuter officiellement le remplacement par lots. Pour faciliter la vérification des résultats, il est recommandé de ne pas écraser les fichiers originaux, mais de les enregistrer dans un nouveau répertoire de sortie. Ainsi, même si la règle doit être ajustée, le traitement peut être relancé à partir des PDF originaux.
Une fois le traitement lancé, le logiciel traite les PDF un par un selon la liste d'importation. Une fois terminé, ouvrez les PDF dans le dossier de sortie pour vérifier les résultats. Vous pouvez d'abord consulter la première page ou l'emplacement contenant la date ou le numéro cible, pour confirmer que le mois, l'année ou tout autre contenu correspondant a bien été supprimé, avant de poursuivre la vérification sur d'autres fichiers. Si un grand nombre de PDF sont traités, il est conseillé de vérifier par échantillonnage différents fichiers, en particulier ceux dont le format de contenu peut légèrement différer.
Notes sur l'écriture des caractères génériques et des formules : Comment éviter les suppressions accidentelles dans le PDF
De nombreux utilisateurs confondent les notions de « caractères génériques », « correspondance floue » et « formules régulières ». En pratique, il n'est pas nécessaire de maîtriser une théorie complexe, il suffit de savoir que leur objectif est de faire correspondre un type de texte à l'aide de règles. Le « Utiliser la formule pour la recherche floue de texte » de la capture d'écran permet d'exprimer le contenu à rechercher avec une formule, par exemple « April|May » pour un choix entre deux, et « \d{4} » pour un nombre à quatre chiffres.
Si le contenu à supprimer est un mot fixe, comme l'ancien nom d'une entreprise, un nom de projet fixe ou un texte de filigrane uniforme, vous pouvez utiliser la recherche précise ; si vous souhaitez supprimer un contenu variable, comme des années, des numéros, des mois ou des numéros de lot, la recherche floue par formule est alors plus appropriée. Pour les nouveaux utilisateurs, il est conseillé de traiter d'abord 1 ou 2 PDF pour validation. Une fois l'effet de suppression conforme aux attentes confirmé, importez l'intégralité du dossier pour un traitement par lots.
Notez également que le texte dans un PDF n'est pas toujours du texte modifiable. Certains documents scannés semblent contenir du texte, mais sont essentiellement des images. Si le PDF ne possède pas de couche de texte reconnaissable, la recherche et le remplacement ordinaires peuvent ne pas aboutir. Dans ce cas, il faut d'abord vérifier si le contenu du PDF peut être sélectionné, copié ou recherché. Dans l'exemple de cet article, le texte du PDF peut être mis en correspondance, ce qui permet de réaliser la suppression par lots.
Questions fréquentes et points d'attention
1. Pourquoi laisser la liste des mots-clés de remplacement vide ?
Parce que l'objectif ici est la suppression, et non le remplacement. L'interface indique déjà que « Laisser vide signifie supprimer ». Par conséquent, en ne saisissant rien dans la liste de remplacement à droite, le logiciel remplace le texte trouvé par du vide, ce qui visuellement donne l'impression que le mot-clé a été supprimé.
2. Est-il possible de traiter un grand nombre de PDF en une seule fois ?
Oui. Cet outil est conçu pour le traitement par lots de documents bureautiques, adapté au traitement groupé de fichiers PDF pour réduire le travail répétitif. Vous pouvez sélectionner plusieurs PDF via « Ajouter un fichier » ou importer en une fois les PDF d'un dossier via « Importer les fichiers d'un dossier ». Après l'importation, vérifiez le nombre d'enregistrements et les chemins pour éviter d'inclure des fichiers non désirés dans la tâche.
3. Que faire en cas d'erreur dans la règle ?
Si la règle est trop large, elle peut supprimer du contenu qui ne devrait pas l'être ; si elle est trop étroite, des oublis de suppression sont possibles. Il est donc conseillé de sauvegarder d'abord les fichiers originaux, ou de spécifier un nouveau dossier comme emplacement de sauvegarde. Après le traitement, vérifiez le résultat. S'il ne correspond pas à vos attentes, ajustez la règle de recherche et relancez le traitement.
4. Quelle est la différence entre cette méthode et une conversion en Word suivie d'une suppression ?
Convertir un PDF en Word, docx ou doc avant de rechercher et supprimer est également une approche, mais elle peut entraîner des changements de mise en page, des sauts de page, et nécessiter une nouvelle exportation en PDF. La recherche et le remplacement directs de mots-clés dans le PDF par lots sont préférables pour les scénarios où l'on souhaite uniquement nettoyer une partie du texte du PDF tout en conservant au maximum sa mise en forme d'origine.
Résumé : Utiliser un outil de traitement par lots pour réduire les tâches répétitives de nettoyage de PDF
Lorsque plusieurs fichiers PDF contiennent des mots-clés similaires mais pas totalement identiques, les supprimer un par un manuellement n'est pas une solution efficace. En utilisant la fonction « Rechercher et remplacer le mot-clé dans le PDF » de HeSoft Doc Batch Tool , en sélectionnant « Utiliser la formule pour la recherche floue de texte » et en laissant le contenu de remplacement vide, il est possible d'effectuer une suppression floue par lots de type caractère générique. Qu'il s'agisse de dates, d'années, de numéros ou de tout texte variable à format fixe, ils peuvent être ciblés de manière unifiée par une règle.
Si vous traitez actuellement un lot de PDF nécessitant une anonymisation, un nettoyage de dates ou une suppression de numéros, il est conseillé de préparer d'abord des fichiers de test, de suivre les étapes de cet article pour importer les PDF, de configurer les règles de recherche floue, de les exporter vers un nouveau dossier et de vérifier les résultats. Une fois que vous êtes sûr de la stabilité de la règle, confiez le traitement de l'ensemble du lot au logiciel, ce qui peut réduire considérablement le temps d'opérations répétitives et améliorer l'efficacité de la mise en ordre et du traitement préalable à la publication de PDF.