De nombreux rapports PDF, contrats ou documents d'archivage contiennent des informations répétitives comme des dates, des années et des mois. Si la publication ou une anonymisation uniforme est nécessaire, la suppression manuelle fichier par fichier est très inefficace. Cet article présente comment utiliser HeSoft Doc Batch Tool et la fonction « Rechercher et remplacer des mots-clés dans le PDF » avec l'option « Recherche floue de texte par formule » pour cibler April, May et les années à quatre chiffres, en laissant le champ de remplacement vide, afin de supprimer par lot les dates dans plusieurs PDF. L'article couvre les contextes d'application, les résultats avant et après traitement, les étapes détaillées et les précautions, aidant les utilisateurs à nettoyer efficacement et en toute sécurité le contenu des PDF.
Lors de la mise en forme de rapports PDF, de dossiers d'audit, de documents de projet ou de documents destinés à une diffusion externe, on rencontre souvent le problème suivant : de nombreux PDF contiennent des informations telles que des dates, des années, des mois, des numéros de série, etc. Il est maintenant nécessaire de supprimer uniformément une partie de ce contenu. Par exemple, la couverture comporte « April 13, 2017 », alors qu'on souhaite en réalité ne conserver que le « 13, » de la date, et supprimer le mois en anglais et l'année. S'il n'y a qu'un seul fichier, une édition manuelle est encore acceptable ; mais s'il y a des dizaines, voire des centaines de PDF, cela devient un travail très répétitif et sujet aux erreurs.
Cet article se concentre sur le scénario « comment supprimer par lots des textes de date dans un PDF », en présentant comment utiliser le logiciel de bureau « HeSoft Doc Batch Tool » pour effectuer des opérations par lots. Il se positionne comme un outil de traitement par lots orienté vers les documents de bureau, idéal pour réduire le travail répétitif et améliorer l'efficacité lors du traitement de fichiers PDF, Word, Excel, PowerPoint, etc. L'exemple de cet article se concentre sur le PDF : via la fonctionnalité « Rechercher et remplacer des mots-clés dans un PDF », en utilisant des caractères génériques ou des règles de correspondance floue par formules, on supprime par lots les mois et les années dans plusieurs PDF.
Scénarios applicables : Nettoyer par lots les dates, années et mots-clés similaires dans un PDF
Les informations de date dans un PDF présentent souvent une certaine régularité, mais ne sont pas strictement identiques d'un fichier à l'autre. Par exemple, certains fichiers contiennent « April 13, 2017 », d'autres « May 20, 2018 », et d'autres encore diffèrent par l'année ou le mois. Si l'on utilise une recherche exacte ordinaire, il faut écrire une règle pour chaque date complète, ce qui engendre un coût de maintenance élevé. Utiliser une recherche floue par formule permet de faire correspondre une règle à une catégorie de contenus.
Les scénarios suivants sont adaptés à la méthode décrite dans cet article :
- Supprimer par lots les mois en anglais sur les couvertures de plusieurs PDF, comme April, May.
- Supprimer par lots les années à quatre chiffres dans le corps du texte ou sur la couverture des PDF, comme 2017, 2024, 2026.
- Effectuer un traitement de masquage par lots sur les champs de date dans les rapports PDF, en ne conservant qu'une partie de l'information de date.
- Nettoyer par lots des mots-clés fixes, des numéros de lots, des numéros de version ou une partie des codes de projet dans des PDF.
- Traiter plusieurs fichiers modèles PDF de structure similaire, en supprimant uniformément certains textes qu'il n'est pas nécessaire d'afficher.
Le cœur de cette méthode est la « recherche et remplacement par lots ». Lorsque le contenu de remplacement est vide, cela équivaut à supprimer le texte trouvé. Comparé à la recherche page par page, l'outil de traitement par lots est plus adapté aux tâches de bureau répétitives et aux règles claires.
Effet avant traitement : Plusieurs PDF nécessitent le nettoyage d'un même type de texte
Le dossier d'exemple contient 4 fichiers PDF, nommés respectivement 1.pdf, 2.pdf, 3.pdf, 4.pdf. Ils constituent un lot de documents à traiter. La première étape du traitement par lots consiste à déterminer clairement quels fichiers participeront au traitement, afin d'éviter des oublis ou des sélections erronées.

En ouvrant l'un des PDF, on peut voir que la couverture du document affiche le titre et la date. Dans la zone de date, « April » et « 2017 » sont mis en évidence, indiquant que ces deux parties sont le contenu à supprimer cette fois-ci. Le « 13, » central doit être conservé. Par conséquent, ce traitement ne consiste pas à supprimer simplement la date entière, mais à supprimer le mois et l'année qu'elle contient selon des règles.

Si le traitement était manuel, il faudrait ouvrir 1.pdf, trouver la date, supprimer April et 2017 ; puis ouvrir 2.pdf, 3.pdf, 4.pdf et répéter les mêmes étapes. Plus il y a de fichiers, plus le travail répétitif est évident. Plus important encore, le traitement manuel risque d'oublier une page, un fichier ou une variante d'écriture de mois. C'est pourquoi ce type de nettoyage basé sur des règles est plus approprié à un logiciel de bureau par lots.
Effet après traitement : Les mois et années correspondants ont été supprimés
Une fois le traitement par lots terminé, en ouvrant le PDF pour vérification, on peut voir que dans la position de la date d'origine, le mois en anglais et l'année à quatre chiffres ont disparu, seul « 13, » a été conservé. La zone marquée par un cadre rouge est vide, ce qui indique que le texte correspondant a été supprimé.

Cet effet montre deux choses : premièrement, la règle de correspondance floue a bien trouvé le texte cible ; deuxièmement, lorsque le contenu de remplacement est vide, le logiciel supprime ces textes du PDF. Pour un ensemble de PDF de structure similaire, cette méthode permet un gain de temps significatif.
Étapes opérationnelles : Utiliser la correspondance floue pour supprimer par lots les dates dans un PDF
Étape 1 : Ouvrir la fonction de recherche et remplacement dans l'outil PDF
Après avoir lancé « HeSoft Doc Batch Tool », on peut voir à gauche plusieurs catégories d'outils, incluant les outils Word, les outils Excel, les outils PowerPoint, les outils PDF, etc. Sélectionnez ici « Outils PDF », puis dans la liste des fonctionnalités à droite, cliquez sur « Rechercher et remplacer des mots-clés dans le PDF ». La description sous la carte de cette fonctionnalité indique « Rechercher et remplacer par lots le contenu des mots-clés dans des fichiers PDF ».

L'objectif du choix de cette fonctionnalité est de laisser le logiciel effectuer une recherche et un remplacement unifiés sur le contenu des PDF. Comme le but de cet article est de supprimer les mots-clés, on laissera par la suite le champ « mot-clé de remplacement » vide. Cela permet de supprimer le contenu trouvé du PDF, sans le remplacer par un autre texte.
Étape 2 : Importer les fichiers PDF à traiter par lots
Une fois sur la page « Rechercher et remplacer des mots-clés dans le PDF », on trouve en haut les deux entrées usuelles « Ajouter des fichiers » et « Importer des fichiers d'un dossier ». Si le nombre de PDF est faible, on peut cliquer sur « Ajouter des fichiers » ; si les fichiers sont déjà regroupés dans un dossier, utiliser « Importer des fichiers d'un dossier » est plus pratique.
Dans l'exemple, 4 PDF ont déjà été importés, la liste affiche le nom du fichier, le chemin, l'extension, la date de création et la date de modification. Le résumé en bas indique un nombre d'enregistrements de 4, signifiant que ces 4 fichiers participeront tous au traitement suivant.

À cette étape, il est recommandé de vérifier attentivement la liste des fichiers. Les points de vérification incluent : le nombre de fichiers est-il correct, l'extension est-elle bien pdf, le chemin est-il bien le dossier cible, et n'a-t-on pas importé par erreur des PDF à ne pas traiter. Si une erreur est constatée, on peut supprimer un fichier individuel via la colonne d'actions à droite, ou utiliser le bouton « Effacer » en haut pour tout réimporter. Après avoir confirmé l'exactitude des fichiers, cliquez sur « Suivant » en bas.
Étape 3 : Définir la méthode de recherche sur « Utiliser une formule floue pour rechercher le texte »
En passant à la deuxième étape « Définir les options de traitement », l'interface présente « Définir les options de mots-clés ». Dans la zone « Méthode de recherche », on peut voir « Recherche exacte du texte » et « Recherche floue du texte par formule ». Les textes de date à traiter dans cet exemple présentent une variabilité, on choisit donc « Recherche floue du texte par formule ».

Si l'on choisissait uniquement la « Recherche exacte du texte », cela conviendrait généralement pour supprimer des termes fixes strictement identiques ; tandis que les dates, années, mois, etc., peuvent varier d'un fichier à l'autre, la recherche floue est donc plus appropriée. Elle permet de faire correspondre un ensemble de textes via une règle, réduisant ainsi le nombre de règles et améliorant l'efficacité du traitement par lots.
Étape 4 : Saisir les règles de correspondance dans la liste des mots-clés à rechercher
Ensuite, dans la « Liste des mots-clés à rechercher » à gauche, saisissez les règles de suppression. La capture d'écran de l'exemple montre deux lignes :
- April|May : correspond à April ou May. Convient pour supprimer simultanément plusieurs mois susceptibles d'apparaître.
- \d{4} : correspond à une séquence de quatre chiffres consécutifs, souvent utilisé pour trouver l'année, par exemple 2017.
Ces deux règles correspondent aux deux cibles de l'image avant traitement : la première supprime le mois en anglais, la seconde supprime l'année. Ainsi, que April ou May apparaisse dans le PDF, cela pourra être trouvé ; toute année en quatre chiffres le sera également.
Il faut particulièrement noter que \d{4} trouve « quatre chiffres », cela ne se limite pas aux années. Si le PDF contient d'autres nombres à quatre chiffres, ils seront également trouvés. Par conséquent, avant de traiter un grand nombre de fichiers, il est préférable de tester d'abord avec un petit échantillon. Si le document comporte de nombreux codes à quatre chiffres et que l'on souhaite uniquement supprimer l'année dans les dates, il faut évaluer avec prudence si la règle n'est pas trop large.
Étape 5 : Laisser la liste des mots-clés de remplacement vide pour effectuer la suppression
La zone de droite est la « Liste des mots-clés de remplacement ». La capture d'écran montre l'indication « Laissez vide pour supprimer ». Ainsi, il n'est pas nécessaire de remplir quoi que ce soit dans la partie droite cette fois-ci. On écrit la règle à rechercher à gauche, on laisse la droite vide, et le logiciel supprimera le texte trouvé.
Si votre objectif n'est pas la suppression mais le remplacement de « April » par un texte uniforme, c'est à ce moment-là qu'il faudrait saisir le contenu de remplacement à droite. L'objectif de cet article étant la suppression par lots de mots-clés dans un PDF, laisser ce champ vide est la bonne approche.
Étape 6 : Continuer avec le paramétrage de l'emplacement de sauvegarde et lancer le traitement
Après avoir configuré les règles de mots-clés, cliquez sur le bouton « Suivant » en bas de la page. La barre de progression montre qu'il reste ensuite les étapes « Définir l'emplacement de sauvegarde » et « Démarrer le traitement ». Suivez les indications de l'interface pour choisir le dossier de sortie, puis passez à la phase de démarrage du traitement.
Afin de garantir la sécurité des données, il est conseillé d'enregistrer les PDF traités dans un nouveau dossier, sans écraser directement les fichiers originaux. En particulier lors de la première utilisation de la correspondance floue ou des caractères génériques, il est plus sûr de conserver les originaux. Une fois le traitement terminé, vous pouvez ouvrir quelques PDF au hasard pour vérifier que les mois et les années ont bien été supprimés comme prévu, avant de procéder à l'archivage, à l'envoi ou à la publication.
Questions fréquentes : Précautions à prendre lors de la suppression de texte PDF avec des caractères génériques
1. Pourquoi le 13, est-il conservé au milieu de la date après la suppression ?
Parce que les règles de cet exemple ne ciblaient que April, May et les nombres à quatre chiffres, sans inclure « 13, ». Ainsi, dans « April 13, 2017 », le mois et l'année ont été supprimés, mais le chiffre de la date « 13, » a été conservé. C'est précisément l'avantage du traitement basé sur des règles : seule la partie correspondante est supprimée, sans affecter le contenu qui ne correspond pas.
2. Que faire si le PDF contient des mois comme June, July ?
Vous pouvez continuer à ajouter les mois à faire correspondre dans la règle de recherche. La capture d'écran d'exemple ne montre que April|May, indiquant une correspondance avec April ou May. Si les fichiers réels contiennent d'autres mois, il faut compléter les règles en fonction de la situation des documents. Avant de définir les règles, il est recommandé de vérifier un échantillon de documents et de répertorier toutes les variantes d'écriture possibles.
3. Faut-il cocher « Ignorer la casse des lettres » ?
Si la casse des mois dans le PDF n'est pas uniforme, par exemple si April, APRIL, april peuvent tous apparaître, vous pouvez envisager de cocher « Ignorer la casse des lettres ». Si vous souhaitez ne faire correspondre qu'une forme de casse spécifique, ne la cochez pas. La décision dépend du format de texte réel dans le PDF.
4. Pourquoi certains PDF peuvent-ils ne pas voir leur texte supprimé ?
Si le PDF est un document numérisé à partir d'une image, le texte visible à l'écran peut en réalité faire partie de l'image, et ne pas être un texte éditable ou interrogeable. Dans ce cas, la fonction de recherche et remplacement de texte peut ne pas être en mesure de l'identifier. Vous pouvez d'abord essayer de sélectionner le texte ou de le copier dans un lecteur PDF ; si la sélection est impossible, cela signifie qu'une reconnaissance de caractères préalable peut être nécessaire.
5. Utiliser \d{4} risque-t-il de supprimer des numéros par erreur ?
C'est possible. Cette règle trouve toute séquence de quatre chiffres, sans déterminer automatiquement s'il s'agit d'une année. Si le PDF contient des numéros de rapport, des codes de projet ou des données tabulaires à quatre chiffres, ils pourraient également être supprimés. Il est conseillé de tester d'abord sur un périmètre réduit, pour confirmer que le contenu important n'est pas affecté avant le traitement par lots.
Petits conseils pour améliorer l'efficacité
Afin de rendre le traitement par lots plus sûr et plus efficace, vous pouvez procéder comme suit : copiez d'abord un dossier de test, en n'y plaçant qu'un petit nombre de PDF ; lancez une première exécution après avoir configuré les règles ; ouvrez les PDF traités pour vérifier les positions clés ; après confirmation, exécutez le traitement par lots sur le dossier complet. Cela permet d'exploiter l'efficacité du traitement de fichiers par lots du logiciel de bureau, tout en réduisant les risques liés à une erreur de paramétrage des règles.
De plus, il est conseillé de consigner les règles courantes. Par exemple, si vous devez souvent supprimer les années à quatre chiffres, vous pouvez conserver la description de la règle \d{4} ; si vous nettoyez souvent les mois en anglais, compilez un ensemble de règles de correspondance des mois. La prochaine fois que vous rencontrerez une tâche similaire de suppression par lots de mots-clés dans un PDF, vous pourrez les réutiliser rapidement.
Résumé : Nettoyer le texte de nombreux PDF avec une seule configuration de règle
Les étapes clés pour supprimer par lots les dates dans un PDF sont : allez dans « Outils PDF », sélectionnez « Rechercher et remplacer des mots-clés dans le PDF » ; importez plusieurs fichiers PDF ; dans les options de traitement, choisissez « Recherche floue du texte par formule » ; saisissez à gauche les règles à faire correspondre, comme April|May et \d{4} ; laissez vide le contenu de remplacement à droite ; enfin, définissez l'emplacement de sauvegarde et lancez le traitement.
Pour les personnels de bureau qui doivent fréquemment traiter des rapports, contrats ou documents d'archivage PDF, cette méthode permet de transformer une grande quantité de travail de suppression manuel répétitif en une seule configuration de règle. Il est conseillé de tester d'abord les règles avec des fichiers échantillons, puis d'appliquer le traitement par lots au dossier complet. Cela permet à la fois d'augmenter l'efficacité et de garantir la précision du nettoyage du contenu des PDF.