Ce document s'adresse aux utilisateurs bureautiques ayant besoin de nettoyer en masse le contenu de PDF, expliquant comment utiliser HeSoft Doc Batch Tool pour ajouter plusieurs PDF à la liste de traitement, puis sélectionner la recherche de texte floue par formule dans "Rechercher et remplacer des mots-clés dans les PDF". En saisissant April|May et une règle d'année à quatre chiffres, puis en laissant vide la liste de mots-clés après remplacement, vous pouvez supprimer en masse le texte correspondant dans plusieurs PDF, ce qui convient au nettoyage de contenu tel que des dates, numéros, années, etc.
De nombreux employés de bureau rencontrent des tâches similaires lorsqu'ils traitent des PDF : la direction demande de supprimer les dates d'un lot de rapports PDF, le service juridique exige de nettoyer certains numéros dans les contrats, et les archivistes doivent retirer les années ou identifiants des documents destinés au public. Un seul fichier est gérable, mais s'il y a beaucoup de PDF et que le texte est légèrement différent d'un fichier à l'autre, la suppression manuelle devient très fastidieuse.
Cet article présente une méthode plus efficace : utiliser HeSoft Doc Batch Tool pour rechercher en masse du texte conforme à des règles dans plusieurs PDF et le remplacer par du vide, réalisant ainsi une suppression par lot. Dans l'exemple, la date de couverture du PDF est « April 13, 2017 ». Nous allons supprimer le mois « April » et l'année à quatre chiffres « 2017 ». Si d'autres PDF contiennent « May » ou d'autres années à quatre chiffres, une correspondance peut également être trouvée via une recherche floue par formule.
Scénarios d'application : Suppression en masse de dates, numéros, années et termes sensibles dans les PDF
La suppression par lot de mots-clés PDF convient à de nombreux scénarios de bureau réels. Par exemple, il faut supprimer la date de publication avant de diffuser un rapport ; lors de l'archivage de fichiers historiques, il faut supprimer les anciens numéros de version ; avant d'envoyer des documents à un client, il faut masquer les numéros de projet internes ; après avoir organisé des PDF numérisés et océrisés, il faut éliminer certains identifiants répétitifs. Tant que le texte dans le PDF peut être recherché, on peut envisager un traitement par recherche et remplacement.
Comparé à un logiciel d'édition de PDF individuel, HeSoft Doc Batch Tool met davantage l'accent sur le traitement par lots. Sa valeur réside dans le traitement d'un ensemble de fichiers comme une seule tâche, plutôt que de faire répéter à l'utilisateur les actions d'ouverture, de recherche, de suppression et de sauvegarde. Pour ceux qui traitent des documents quotidiennement, cette méthode de traitement par lots réduit considérablement les opérations répétitives.
Bien que cet article prenne le PDF comme exemple, la logique de traitement par lots au bureau s'applique également à d'autres formats de fichiers, tels que les documents Word (docx, doc), les feuilles de calcul Excel (xlsx, xls) ou les présentations PowerPoint (pptx, ppt). On utilise l'outil correspondant pour chaque format, mais l'objectif principal reste de réduire le travail répétitif et d'améliorer l'efficacité du traitement.
Aperçu du résultat : Avant le traitement, des mots-clés à supprimer existent dans le PDF
Regardons d'abord les fichiers à traiter. La capture d'écran montre 4 fichiers PDF, nommés 1.pdf, 2.pdf, 3.pdf, 4.pdf. Cela indique que cette tâche ne consiste pas à éditer un seul fichier, mais à appliquer le même ensemble de règles de suppression à plusieurs PDF.

En ouvrant le contenu du PDF, « April 13, 2017 » apparaît sur la couverture. Les cadres de surbrillance rouges entourent « April » et « 2017 », les textes cibles à supprimer dans cet exemple. Dans un contexte professionnel réel, ces cibles pourraient être des mois, des années, des numéros de client ou d'employé, ou d'autres chaînes de caractères présentant une certaine régularité.

Il est important de comprendre ici la signification de la « suppression floue ». La suppression floue n'est pas une suppression arbitraire, mais une suppression basée sur des règles. Par exemple, « \d{4} » représente quatre chiffres consécutifs, ce qui convient pour faire correspondre une année ; « April|May » correspond à April ou May, ce qui est utile pour traiter simultanément plusieurs mois anglais possibles. Plus la règle est précise, plus le résultat de la suppression est fiable.
Effet après le traitement : Le texte correspondant est supprimé, le contenu non correspondant est conservé
En ouvrant le PDF après le traitement, on observe que la zone de date a changé. « April » et « 2017 » ne sont plus affichés, seul « 13, » subsiste. Cela montre que le logiciel n'a supprimé que le contenu ciblé par la règle, sans toucher aux chiffres et à la virgule de la date qui ne correspondaient pas.

Ce résultat est très important pour le traitement bureautique. Il signifie que l'utilisateur peut contrôler la portée de la suppression via des règles : pour supprimer uniquement l'année, on fait correspondre une année à quatre chiffres ; pour supprimer seulement le mois, on fait correspondre le mois ; si l'on souhaite supprimer la date entière, il est nécessaire de configurer une règle de correspondance plus complète. L'exemple de cet article se concentre sur la façon d'utiliser des caractères génériques pour supprimer des mots-clés par lots, et non sur la suppression de toute une ligne de date en une seule opération.
Étape 1 : Ouvrir la fonction PDF de HeSoft Doc Batch Tool
Après avoir ouvert le logiciel, l'interface affiche le nom du produit « HeSoft Doc Batch Tool » en haut à gauche. Sélectionnez « Outils PDF » dans la barre latérale, puis trouvez « Rechercher et remplacer des mots-clés dans le PDF » dans la liste des fonctions. Dans la capture d'écran, cette fonction est en première position, avec la description « Rechercher et remplacer par lot des mots-clés dans le contenu des fichiers PDF ».

Cette fonction est choisie ici car la « suppression de mots-clés » peut être réalisée par un « remplacement par du vide ». C'est-à-dire qu'on laisse le logiciel trouver le texte spécifié dans le PDF, puis on définit le texte de remplacement comme vide. Le résultat du traitement sera la suppression de ce texte.
Si vous aviez l'habitude d'utiliser un lecteur PDF pour chercher fichier par fichier, l'outil par lots peut sembler comporter quelques étapes supplémentaires. Mais lorsque le nombre de fichiers augmente, l'avantage de l'outil par lots devient évident : la règle n'est définie qu'une seule fois et le logiciel peut traiter toute la liste des PDF.
Étape 2 : Ajouter des fichiers PDF ou importer depuis un dossier
Une fois dans la fonction, la première étape consiste à sélectionner les enregistrements à traiter. En haut de l'interface se trouvent les boutons « Ajouter des fichiers » et « Importer des fichiers depuis un dossier ». Pour un petit nombre de fichiers, on peut utiliser « Ajouter des fichiers » ; pour un grand nombre de PDF dans le même dossier, l'importation depuis le dossier est plus efficace.

La capture d'écran montre que 4 PDF ont été importés. La liste affiche des informations telles que le nom, le chemin, l'extension, la date de création et de modification. Le chemin d'accès aux fichiers mène aux fichiers 1.pdf à 4.pdf dans le répertoire test du disque D. La zone de résumé en bas indique 4 enregistrements, ce qui signifie que les règles suivantes seront appliquées à ces 4 fichiers.
Avant de cliquer sur « Suivant », il est conseillé de vérifier trois points : le nombre de fichiers est-il correct ? Le chemin d'accès aux fichiers est-il correct ? L'extension est-elle bien .pdf ? Si des fichiers non désirés ont été importés par erreur, ils peuvent être retirés via l'icône de suppression dans la colonne des opérations. Bien que simple, cette vérification évite de supprimer accidentellement du contenu lors du traitement par lots.
Étape 3 : Configurer la recherche floue de texte par formule
Cliquez sur « Suivant » pour accéder aux « Options de traitement ». Sous « Mode de recherche », sélectionnez « Recherche floue de texte par formule ». Cette option est adaptée au traitement de contenus variant de manière régulière, comme différentes années, mois, numéros, etc.

Dans la « Liste des mots-clés à rechercher » à gauche, entrez le contenu à faire correspondre. L'exemple de capture d'écran comporte deux lignes : la première est « April|May » pour correspondre à April ou May ; la seconde est « \d{4} » pour correspondre à quatre chiffres consécutifs. Une fois configuré, le logiciel recherchera ces cibles dans chaque PDF.
Si vos fichiers contiennent d'autres mois, vous pouvez étendre la règle en fonction de la situation réelle ; si vous supprimez un mot fixe unique, vous pouvez simplement entrer ce mot. La clé est de s'assurer que la règle de recherche correspond précisément à la cible de suppression. Il ne faut pas écrire une règle trop large par simplicité, car elle risquerait d'atteindre un contenu qui ne devrait pas être supprimé.
Étape 4 : Laisser le champ de remplacement vide pour une suppression en masse
À droite se trouve la « Liste des mots-clés de remplacement », avec une note « Si non rempli, cela signifie suppression ». C'est le cœur de ce tutoriel : pour supprimer un mot-clé PDF, il n'est pas nécessaire de saisir un nouveau terme de remplacement ; il suffit de laisser le champ de droite vide.
Par exemple, si l'on saisit « April|May » à gauche et qu'on laisse le champ de droite vide, toute occurrence d'April ou May dans le PDF sera supprimée. Si l'on saisit « \d{4} » à gauche et qu'on laisse vide à droite, les groupes de quatre chiffres correspondants seront supprimés. Après traitement, l'emplacement du texte original peut apparaître comme une zone vierge, l'effet exact dépendant de la mise en page du PDF et de l'objet texte.
Une fois la configuration terminée, cliquez sur « Suivant » pour paramétrer l'emplacement de sauvegarde. Il est recommandé de choisir un dossier séparé pour éviter de confondre avec les fichiers originaux. Enfin, passez à « Démarrer le traitement ». Le logiciel effectuera la recherche et la suppression en masse sur les PDF de la liste.
Questions fréquentes et remarques
1. Quelle est la différence entre laisser le champ vide à droite et y mettre un espace ?
Laisser vide signifie supprimer le texte correspondant ; entrer un espace pourrait remplacer le texte cible par un caractère espace. Pour obtenir un véritable effet de suppression, il est conseillé de ne rien saisir, comme indiqué dans l'interface.
2. Faire correspondre quatre chiffres supprimera-t-il d'autres nombres en dehors de l'année ?
C'est possible. Si le PDF contient également d'autres chaînes de quatre chiffres comme des numéros de rapport, des numéros de page ou des identifiants, ils pourraient aussi être ciblés. Par conséquent, lorsque vous utilisez une règle comme « \d{4} », effectuez d'abord un test avec un échantillon de PDF pour confirmer qu'il n'y aura pas de suppressions involontaires.
3. Pourquoi certains PDF ne montrent-ils aucun changement après le traitement ?
Les raisons possibles incluent : le texte du PDF n'est pas un texte interrogeable, la règle n'a pas trouvé de correspondance avec le contenu réel, une différence de casse, ou le contenu fait partie d'une image. L'interface de capture d'écran dispose d'une option « Ignorer la casse des lettres » ; si des différences de casse en anglais sont en jeu, vous pouvez la cocher selon vos besoins.
4. Peut-on traiter tout un dossier par lot ?
On peut voir le bouton « Importer des fichiers depuis un dossier » dans l'interface. Placer tous les PDF d'un même lot dans un dossier puis les importer est la méthode recommandée pour traiter un grand nombre de fichiers.
5. Comment s'assurer de la fiabilité du résultat du traitement ?
Une fois le traitement terminé, ne vous contentez pas de vérifier si les fichiers ont été générés. Ouvrez quelques PDF typiques pour inspecter les emplacements clés. Surtout avec des règles de recherche floue, vérifiez s'il y a eu des suppressions incorrectes ou des oublis. Une fois la règle stabilisée et confirmée, utilisez-la pour des lots de fichiers plus importants.
Résumé : Utiliser une approche basée sur des règles pour améliorer l'efficacité du nettoyage PDF en masse
L'idée centrale derrière la suppression par lot de mots-clés PDF est simple : ajoutez plusieurs PDF à la liste de traitement, définissez les mots-clés ou les règles de formule à rechercher, puis laissez le contenu de remplacement vide. HeSoft Doc Batch Tool transforme ce processus en un flux guidé, où l'utilisateur suit l'ordre : « Sélectionner les fichiers », « Définir les options de traitement », « Définir l'emplacement de sauvegarde », « Démarrer le traitement ».
Pour les utilisateurs qui ont besoin de supprimer régulièrement des dates, années, numéros et champs sensibles dans les PDF, cette méthode est plus efficace que l'édition manuelle fichier par fichier et facilite la création d'un processus standard. Il est recommandé de commencer par tester les règles sur un petit échantillon. Une fois que l'effet avant/après traitement est conforme aux attentes, importez le dossier complet pour lancer la tâche. Cela permet à la fois de gagner du temps et de rendre le processus de suppression par lot de mots-clés PDF plus sûr et mieux contrôlé.