In diesem Artikel wird erläutert, wie Sie mit der Such- und Ersetzungsfunktion für PDF-Schlüsselwörter in Bürosoftware mehrere PDF-Dateien stapelweise löschen können, z. B. Daten, Jahre, Monate und andere nicht festgelegte Texte, die über Platzhalter oder Formeln unscharf abgeglichen werden. Im Beispiel müssen insgesamt 4 PDFs von 1.pdf bis 4.pdf verarbeitet werden. Die Originaldateien enthalten Inhalte wie April und 2017. Nach der Verarbeitung werden diese übereinstimmenden Schlüsselwörter gelöscht, und nur die Texte, die nicht bereinigt werden müssen, bleiben erhalten. Geeignet zum stapelweisen Bereinigen vertraulicher Informationen und sich wiederholender Felder in Berichten, Verträgen und Datenpaketen.
Bei der Bereinigung von PDF-Berichten, Verträgen, Prüfunterlagen oder extern zu veröffentlichenden Dateien tritt häufig ein lästiges Problem auf: Der zu löschende Text ist nicht vollständig festgelegt. Beispielsweise steht in manchen PDFs "April 13, 2017", in anderen "May 20, 2018", und wieder andere Dateien haben unterschiedliche Jahre, Monate und Nummern. Wenn man jede PDF einzeln öffnet, manuell sucht und löscht, ist das nicht nur zeitaufwendig, sondern man übersieht auch leicht etwas. Dieser Artikel befasst sich genau mit dieser Art von Problem: die Verwendung von Platzhaltern oder formelbasierten unscharfen Suchen, um Schlüsselwörter in vielen PDF-Dateien stapelweise zu löschen.
Wie im Screenshot zu sehen, wird die Software " HeSoft Doc Batch Tool " verwendet. Es handelt sich um eine Software zur Stapelverarbeitung von Dokumenten für den Bürobereich, deren Kernwert darin besteht, sich wiederholende Dateiverarbeitungsaktionen in einem einzigen Arbeitsablauf zusammenzufassen. Für die Bereinigung von Schlüsselwörtern in PDF-Dateien bietet sie die Funktion "Suchen und Ersetzen von Schlüsselwörtern in PDFs". Man fügt einfach mehrere PDFs zur Aufgabenliste hinzu, legt die Regeln für die zu suchenden Schlüsselwörter fest und lässt den Ersetzungstext leer, um eine Stapellöschung von PDF-Textinhalten zu erreichen.
Anwendungsszenarien: Welche PDFs eignen sich für die stapelweise Löschung von Schlüsselwörtern mit Platzhaltern
Diese Anforderung, Schlüsselwörter stapelweise aus PDFs zu löschen, ist im täglichen Büroalltag sehr häufig. Beispielsweise muss ein Unternehmen eine Reihe von PDF-Berichten extern versenden und dabei Monat und Jahr aus dem Berichtsdatum entfernen; die Rechtsabteilung muss Kundennamen, Ausweisnummern oder Beträge aus Vertrags-PDFs löschen; Verwaltungsmitarbeiter müssen alte Daten einheitlich aus mehreren PDF-Mitteilungen löschen; bei der Archivierung von Materialien müssen wiederholt auftretende Versionsnummern, Projektcodes oder Chargennummern aus dem Textkörper entfernt werden.
Wenn der zu löschende Text genau gleich ist, reicht ein normales exaktes Suchen und Ersetzen aus. Wenn die Schlüsselwörter jedoch variieren, ist eine unscharfe Suche erforderlich. Beispielsweise kann der Monat "April" oder "May" sein, das Jahr könnte eine vierstellige Zahl wie 2017, 2018 oder 2026 sein. In solchen Fällen kann man durch Schreibweisen ähnlich wie Platzhalter, Formeln oder reguläre Ausdrücke die Software eine Textklasse finden lassen, anstatt nur ein festes Wort. Im Screenshot wird die Option "Unscharfe Textsuche mit Formel" verwendet und in der Schlüsselwortliste "April|May" und "\d{4}" eingegeben, um April oder Mai sowie vierstellige Jahreszahlen zu finden.
Zu beachten ist, dass das Ziel darin besteht, Text-Schlüsselwörter in PDFs zu löschen, nicht ganze Seiten oder die PDF-Datei selbst. Die Software lokalisiert passende Texte im PDF-Inhalt anhand der Suchregeln und führt die eingestellte Ersetzung aus. Wenn die Ersetzungsschlüsselwortliste leer ist, entspricht dies dem Löschen des gefundenen Inhalts.
Ergebnisvorschau: Vor der Verarbeitung mehrere PDFs mit zu bereinigenden Schlüsselwörtern im Text
Vor der Verarbeitung befinden sich 4 PDF-Dateien im Ordner: 1.pdf, 2.pdf, 3.pdf, 4.pdf. Bei einer solchen Aufgabenstellung mit mehreren Dateien steigt der Arbeitsaufwand für das manuelle Öffnen und Durchsuchen nach Inhalten wie April, Mai und Jahreszahlen mit der Dateianzahl rapide an.

Nach dem Öffnen einer der PDFs sieht man ein Datumselement auf der Seite: April 13, 2017. Im Screenshot sind April und 2017 rot umrandet, und Pfeile zeigen auf die zu bearbeitenden Stellen. Das Bearbeitungsziel ist hier nicht das Löschen des gesamten Datums, sondern das Löschen von Monat und Jahr mittels unscharfer Regeln, wobei der mittlere Teil wie "13," erhalten bleibt.

Dieses Beispiel veranschaulicht gut den Wert der "stapelweisen unscharfen Löschung von PDF-Schlüsselwörtern mit Platzhaltern". Da Monat und Jahr in verschiedenen PDFs unterschiedlich sein können, würde die Eingabe von nur April oder 2017 nur festen Text löschen. Mit der formelbasierten unscharfen Suche kann man jedoch April, Mai und beliebige vierstellige Jahre in einem Durchgang abdecken, was für mehr ähnliche Dateien geeignet ist.
Ergebnisvorschau: Nach der Verarbeitung wurden passende Monats- und Jahresangaben gelöscht
Nach Abschluss der Verarbeitung öffnet man die PDF-Ergebnisse erneut. Man sieht, dass die Stelle, an der ursprünglich "April" stand, nun leer ist, ebenso die Stelle von "2017", während "13," dazwischen erhalten bleibt. Dies zeigt, dass die Software gemäß Einstellung nur die Inhalte gelöscht hat, die von den Suchregeln erfasst wurden, ohne den gesamten Seiteninhalt oder anderen Text zu entfernen.

Betrachtet man die Verarbeitungsergebnisse, eignet sich die stapelweise unscharfe Löschung von PDF-Text für klar definierte Textbereinigungen. Zum Beispiel das Löschen englischer Monatsnamen, vierstelliger Jahreszahlen, fester Format-IDs oder einer Kategorie sensibler Begriffe. Solange die Schlüsselwortregeln genau eingestellt sind, kann man viele sich wiederholende manuelle Vorgänge wie PDF öffnen, suchen, bearbeiten und speichern reduzieren.
Schritt 1: PDF-Werkzeug öffnen und "Suchen und Ersetzen von Schlüsselwörtern in PDFs" wählen
Nach dem Start von HeSoft Doc Batch Tool wählt man im linken Funktionsbereich "PDF Werkzeuge". Der Hauptbereich zeigt mehrere stapelverarbeitungsbezogene PDF-Funktionen an. Laut Screenshot ist die zu verwendende Option die erste: "Suchen und Ersetzen von Schlüsselwörtern in PDFs", beschrieben als "Stapelweises Suchen und Ersetzen von Schlüsselwörtern in PDF-Dateiinhalten".

Ziel dieses Schrittes ist es, das Funktionsmodul zur spezifischen Bearbeitung von PDF-Text-Schlüsselwörtern aufzurufen. Es unterscheidet sich von Funktionen wie PDF mit Wasserzeichen versehen, PDF-Passwort hinzufügen oder PDF in Word konvertieren und konzentriert sich auf das Suchen und Ersetzen von Text im PDF-Inhalt. Da wir Schlüsselwörter löschen möchten, wird die "Ersetzungsschlüsselwortliste" später leer gelassen, sodass der gefundene Inhalt durch nichts ersetzt wird.
Schritt 2: Die zu verarbeitenden PDF-Dateien hinzufügen
Nach dem Aufrufen der Funktion sieht man oben auf der Seite Schaltflächen wie "Dateien hinzufügen", "Dateien aus Ordner importieren", "Leeren" und "Mehr". Der erste Schritt des Aufgabenablaufs ist "Zu verarbeitende Einträge auswählen". Wenn es nicht viele PDF-Dateien sind, kann man "Dateien hinzufügen" klicken und einzeln auswählen; befinden sich die Dateien im selben Ordner, kann man "Dateien aus Ordner importieren" verwenden, um mehrere PDFs auf einmal hinzuzufügen.

Im Screenshot wurden bereits 4 Einträge hinzugefügt, mit den Namen 1.pdf, 2.pdf, 3.pdf, 4.pdf, alle mit der Endung pdf, Pfad im Verzeichnis D:\test. Die Liste zeigt auch Erstellungsdatum, Änderungsdatum und eine Aktionsspalte. Nach Überprüfung der Einträge klickt man unten auf "Weiter", um die Verarbeitungsoptionen einzustellen.
Das erwartete Ergebnis dieses Schrittes ist: Alle zu bereinigenden PDFs erscheinen in der Liste, und Anzahl, Dateiname sowie Pfad entsprechen den Erwartungen. Vor der Stapelverarbeitung sollte man die Dateiliste überprüfen, um zu vermeiden, dass unerwünschte PDFs zur Aufgabe hinzugefügt werden. Wurden versehentlich Dateien hinzugefügt, kann man sie über das Löschsymbol in der Aktionsspalte entfernen oder "Leeren" verwenden, um neu auszuwählen.
Schritt 3: Unscharfe Formelsuche auswählen und die zu löschenden Schlüsselwortregeln eingeben
Im zweiten Schritt "Verarbeitungsoptionen einstellen" sieht man den Abschnitt "Schlüsselwortoptionen einstellen". Bei "Suchmodus" bietet die Oberfläche "Exakte Textsuche" und "Unscharfe Textsuche mit Formel". Da in diesem Beispiel variable Inhalte gelöscht werden sollen, wählt man "Unscharfe Textsuche mit Formel".

In der "Liste der zu suchenden Schlüsselwörter" wurden im Screenshot zwei Regeln eingegeben: Die erste ist "April|May", die zweite "\d{4}". "April|May" passt auf April oder Mai; "\d{4}" passt auf vier aufeinanderfolgende Ziffern, häufig verwendet für Jahreszahlen wie 2017, 2018, 2026 usw. Mit diesen beiden Regeln kann man englische Monatsnamen und vierstellige Jahre in verschiedenen PDFs gemeinsam suchen.
Rechts ist die "Liste der Ersetzungsschlüsselwörter", der Hinweis lautet: "Leerlassen bedeutet Löschung". Wenn das Ziel also die stapelweise Löschung dieser Schlüsselwörter in PDFs ist, muss man rechts keinen Ersetzungstext eingeben, sondern lässt es leer. So ersetzt die Software den links gefundenen Inhalt durch Leerraum und erzielt so den Löschungseffekt.
Dieser Schritt ist sehr kritisch. Es wird empfohlen, die Regeln zuerst mit einer kleinen Auswahl an Beispieldateien zu testen. Zum Beispiel zuerst nur eine PDF verarbeiten, bestätigen, dass April, Mai und vierstellige Jahre korrekt gelöscht werden, und dann die Stapelverarbeitung für den gesamten Ordner auszuführen. Für komplexere Inhalte wie IDs, Daten, Handynummern, Vertragsnummern usw. kann man ebenfalls entsprechende unscharfe Suchregeln basierend auf der Textstruktur erstellen.
Schritt 4: Speicherort festlegen und Verarbeitung starten
Nach Abschluss der Einstellung der Verarbeitungsoptionen klickt man unten auf der Seite auf "Weiter". Der Fortschrittsbalken zeigt, dass die folgenden Schritte "Speicherort festlegen" und "Verarbeitung starten" beinhalten. Obwohl der Screenshot die Details dieser beiden Seiten nicht zeigt, lässt der logische Ablauf der Oberfläche darauf schließen, dass im nächsten Schritt bestätigt werden muss, wohin die verarbeiteten PDFs gespeichert werden sollen, bevor die Verarbeitung beginnt.
Es wird empfohlen, wichtige Originaldateien nicht direkt zu überschreiben, besonders bei der erstmaligen Verwendung von Platzhaltern oder Formelregeln. Eine sicherere Vorgehensweise ist es, die verarbeiteten PDFs in einem neuen Ordner zu speichern, nach Abschluss einige Dateien stichprobenartig zu öffnen und das Ergebnis zu überprüfen. Erst wenn sicher ist, dass die Schlüsselwörter gelöscht und keine Texte versehentlich entfernt wurden, sollten sie für die formelle Archivierung oder den externen Versand verwendet werden.
Sobald die Aufgabe startet, führt die Software das Suchen und Ersetzen nacheinander für jede PDF in der Liste aus. Der Vorteil der Stapelverarbeitung liegt auf der Hand: Im Vergleich zum manuellen Öffnen von 4, 40 oder gar 400 PDFs und dem einzelnen Löschen von Schlüsselwörtern müssen die Regeln nur einmal festgelegt werden, und die Software wendet sie automatisch auf alle Dateien an.
Häufige Fragen und Hinweise
1. Warum kann die Liste der Ersetzungsschlüsselwörter leer bleiben? Der Hinweis im Screenshot zeigt: "Leerlassen bedeutet Löschung". Daher wird, wenn die rechte Ersetzungsliste leer ist, die Software den gefundenen Inhalt durch Leerraum ersetzen und so den Effekt der Löschung des PDF-Schlüsselworts erreichen.
2. Was ist der Unterschied zwischen exakter Suche und unscharfer Formelsuche? Die exakte Suche eignet sich zum Löschen von genau identischen Texten, z. B. festen Firmennamen, festen Wasserzeichentexten, festen Projektnamen. Die unscharfe Formelsuche eignet sich zum Löschen von Inhalten mit Regelmäßigkeit, aber nicht identischen Inhalten, wie verschiedenen Jahren, verschiedenen Monaten, aufeinanderfolgenden Ziffern, Nummernfragmenten usw.
3. Löscht \d{4} alle vierstelligen Zahlen? Es findet alle vierstelligen Zahlen, die der Regel entsprechen. Wenn es also in der PDF andere vierstellige Zahlen gibt, die nicht gelöscht werden sollen, ist Vorsicht geboten, und es sollte zuerst getestet werden. Je allgemeiner die Regel, desto höher das Risiko versehentlicher Löschungen; je präziser die Regel, desto kontrollierbarer das Ergebnis.
4. Können gescannte PDFs verarbeitet werden? Wenn die PDF-Seiten im Wesentlichen Bilder sind und der Text keine auswählbare oder kopierbare Textebene hat, kann die normale Textsuche und -ersetzung möglicherweise nichts finden. Solche Dateien müssen in der Regel zuerst einer OCR-Erkennung unterzogen werden, bevor sie je nach tatsächlicher Textebene verarbeitet werden können.
5. Sollte vor der Stapelverarbeitung eine Sicherung erstellt werden? Es wird eine Sicherung empfohlen. Bei der Stapeländerung von Dateien ist es am besten, das Original-PDF zu behalten oder die Ausgabe in einem neuen Verzeichnis zu speichern. So kann man auch bei ungeeigneter Regelauswahl schnell wieder zurückgehen.
Fazit: Ersetzen Sie das wiederholte manuelle Öffnen von PDFs durch eine einzige Regel
Dank der Funktion "Suchen und Ersetzen von Schlüsselwörtern in PDFs" von HeSoft Doc Batch Tool lässt sich die ursprünglich sich wiederholende, ineffiziente Arbeit der PDF-Schlüsselwortlöschung in einen standardisierten Prozess umwandeln. In dem hier gezeigten Beispiel wurden zuerst 1.pdf bis 4.pdf importiert, dann die unscharfe Formelsuche gewählt, "April|May" und "\d{4}" eingegeben und die Ersetzungsschlüsselwortliste leer gelassen, um so schließlich die stapelweise Löschung von Monaten und vierstelligen Jahren in PDFs zu erreichen.
Wenn Sie häufig Daten, IDs, sensible Wörter oder andere regelmäßige Texte in PDF-Berichten, Verträgen, Archiven oder Informationspaketen bereinigen müssen, können Sie gemäß den Schritten in diesem Artikel zuerst mit wenigen Dateien testen und dann auf die gesamte Dateiverarbeitung ausweiten. So lassen sich sowohl sich wiederholende Arbeit als auch die Wahrscheinlichkeit manueller Übersehungsfehler reduzieren, was die PDF-Stapelverarbeitung effizienter und kontrollierbarer gestaltet.