Dieser Artikel beschreibt, wie Sie mit HeSoft Doc Batch Tool Schlüsselwörter in mehreren PDF-Dateien durch Platzhalter- oder Formelsuche batchweise löschen können. Im Beispiel müssen 4 PDFs verarbeitet werden, wobei die Monatswörter und vierstelligen Jahreszahlen im Datum einheitlich gelöscht und nur die mittleren Tageszahlen beibehalten werden. Der Artikel zeigt anhand von Vorher-Nachher-Effekten und Screenshots der Software-Oberfläche, wie man PDFs importiert, die Funktion „Suchen und Ersetzen“ auswählt, Fuzzy-Matching-Regeln einrichtet und den Ersatzinhalt leer lässt, um eine Löschung zu erreichen. Zudem wird auf wichtige Aspekte wie PDF-Textlayer, Groß-/Kleinschreibung und Datensicherung hingewiesen.
Beim Sortieren von Verträgen, Berichten, Forschungsarbeiten, öffentlichen Dokumenten oder archivierten Dateien stößt man häufig auf eine sehr repetitive Aufgabe: Viele PDF-Dateien enthalten ähnliche Daten, Nummern, Namen, Versionsnummern oder standardisierte Beschreibungstexte, die einheitlich gelöscht oder unkenntlich gemacht werden müssen. Wenn beispielsweise in einem Ordner Dutzende oder Hunderte von PDFs liegen und jedes Deckblatt ein Datum wie April 13, 2017 enthält, ist das manuelle Öffnen jeder PDF, Auswählen des Textes, Löschen und erneute Speichern nicht nur zeitaufwendig, sondern es passieren auch leicht Fehler wie Übersehen oder Löschen an der falschen Stelle.
In diesem Artikel geht es genau um die Lösung dieses Stapelverarbeitungsproblems: Wir verwenden die Funktion „Suchen und Ersetzen von Schlüsselwörtern in PDFs“ in der Bürosoftware „ HeSoft Doc Batch Tool “, um mithilfe von Platzhaltern/regulären Ausdrücken Schlüsselwörter in mehreren PDF-Dateien stapelweise zu löschen. Im Beispiel verarbeiten wir gleichzeitig 4 PDF-Dateien und löschen die Monatsnamen April oder May sowie die vierstellige Jahreszahl, um das Ziel einer stapelweisen Bereinigung variabler Texte zu erreichen.
Es ist wichtig zu betonen, dass „Löschen“ hier weder das Entfernen der gesamten PDF-Seite noch das Zuschneiden der Seite bedeutet, sondern das stapelweise Suchen und Ersetzen von bestimmtem Text innerhalb des PDF-Inhalts. Wenn die Liste der zu ersetzenden Schlüsselwörter leer bleibt, wird der Effekt „Finden und Löschen“ erzielt. Für Inhalte mit Regelmäßigkeiten, aber nicht identischen Inhalten wie Daten oder Nummern ist die unscharfe Suche mit Platzhaltern oder regulären Ausdrücken effizienter als die Auflistung fester Schlüsselwörter.
Anwendungsszenarien: Für welche PDFs eignet sich die stapelweise Schlüsselwortlöschung mit Platzhaltern?
Die „stapelweise, unscharfe Löschung vieler Schlüsselwörter in PDF-Dateien mit Platzhaltern“ eignet sich für die Verarbeitung von PDFs, bei denen die Textregeln relativ klar sind, sich der konkrete Inhalt aber ändert. Häufige Szenarien sind:
- Stapelweise Löschung von Daten auf PDF-Deckblättern, z. B. April 13, 2017, May 5, 2020 usw.
- Stapelweise Löschung von Jahreszahlen, Nummern, Berichtsversionsnummern, laufenden Nummern und anderen formatgebundenen Inhalten im PDF-Textkörper.
- Stapelweise Bereinigung bestimmter englischer Wörter, Abteilungsnamen, alter Projektnamen oder temporärer Markierungen in mehreren PDFs.
- Stapelweises Ersetzen oder Löschen sensibler Felder in PDFs zur vorbereitenden Anonymisierung vor dem externen Versand.
- Verarbeitung einer großen Anzahl von PDFs, die mit derselben Vorlage erstellt wurden, wie z. B. Berichte, Zertifikate, Benachrichtigungen, Checklisten, Auditunterlagen usw.
Wenn der zu löschende Inhalt völlig identisch ist, kann die exakte Textsuche verwendet werden; weist der zu löschende Inhalt Regelmäßigkeiten auf, wie vierstellige Ziffern, verschiedene Monate oder unterschiedliche Nummern, eignet sich besser die „Unscharfe Textsuche mit regulären Ausdrücken“. Das Beispiel im Screenshot nutzt einen regulären Ausdruck, um April oder May zu finden, und \d{4}, um vierstellige Jahreszahlen zu finden, um ähnliche Texte in mehreren PDFs auf einmal zu bearbeiten.
Diese Art von Anforderung verdeutlicht den Kernwert der Stapelverarbeitung von Dateien durch Bürosoftware: Die manuell wiederholten Arbeitsschritte Öffnen, Suchen, Löschen und Speichern werden in eine einmalige Regelkonfiguration und Stapelausführung umgewandelt, was die monotone Arbeit erheblich reduziert.
Vorschau auf das Ergebnis: Vor der Verarbeitung mehrere PDFs mit zu löschenden Datums-Schlüsselwörtern
Vor der Verarbeitung befinden sich vier PDF-Dateien im Ordner, mit den Dateinamen 1.pdf, 2.pdf, 3.pdf und 4.pdf. Sie sind die Objekte dieser Stapelverarbeitung. Im realen Büroalltag kann diese Anzahl viel höher sein, vielleicht Dutzende von Kundendaten, Hunderte von Berichten oder eine Reihe von PDFs in einem nach Datum archivierten Ordner.

Öffnet man eine der PDFs, sieht man auf dem Deckblatt die Datumsangabe April 13, 2017. Im Screenshot sind die beiden zu bearbeitenden Teile rot umrandet: das Monatswort April und die vierstellige Jahreszahl 2017. Das 13, dazwischen fällt nicht in den Löschbereich und sollte daher nach der Bearbeitung erhalten bleiben.

Müsste man nur eine PDF bearbeiten, wäre manuelles Löschen vielleicht noch akzeptabel; verteilen sich diese Daten aber auf mehrere PDFs und sind Monate und Jahre nicht völlig identisch, wird es sehr mühsam. Insbesondere die Jahreszahl kann eine beliebige vierstellige Ziffer sein, eine Auflistung aller Jahre ist unrealistisch. Hier ermöglicht die unscharfe Suche mit Platzhaltern oder regulären Ausdrücken die einheitliche Identifikation von „Texten, die der Regel entsprechen“.
Ergebnis nach der Verarbeitung: Monat und vierstellige Jahreszahl wurden gelöscht, nur nicht übereinstimmender Inhalt bleibt
Nach Abschluss der Stapelverarbeitung öffnet man die PDF erneut und sieht, dass die Stelle, an der zuvor April stand, gelöscht wurde, ebenso die Stelle mit 2017, während das 13, in der Mitte erhalten bleibt. Die rot umrandete Stelle im Screenshot ist leer, was zeigt, dass die entsprechenden Schlüsselwörter erfolgreich bereinigt wurden.

Dieses Ergebnis verdeutlicht zwei Punkte: Erstens löscht die Software nicht einfach die gesamte Zeile, sondern lokalisiert den angegebenen Text anhand der eingestellten Suchregeln. Zweitens kann der Effekt der stapelweisen Löschung von Schlüsselwörtern erzielt werden, wenn der Ersetzungsinhalt leer bleibt. Bei datumsähnlichen Inhalten kann man nur Monat und Jahr löschen oder die Regel je nach Bedarf auf die Löschung des vollständigen Datums, von Nummern, bestimmten Wörtern usw. ausweiten.
Schritt 1: PDF-Werkzeug aufrufen und Such- und Ersetzungsfunktion wählen
Öffnen Sie „ HeSoft Doc Batch Tool “. In der oberen linken Ecke des Screenshots sind Name und Versionsinformationen der Software zu sehen. Die Software ist als Bürosoftware zur Stapelverarbeitung von Dokumenten positioniert und bietet auf der linken Seite Kategorien wie Dateiname, Ordnername, Dateiordnung, Word-Werkzeuge, Excel-Werkzeuge, PowerPoint-Werkzeuge, PDF-Werkzeuge, Textwerkzeuge, Bildwerkzeuge, Videowerkzeuge, Audiowerkzeuge usw. Die Aufgabe dieses Artikels ist die Bearbeitung von PDF-Textinhalten, daher muss man links zu den „PDF-Werkzeugen“ navigieren.
Wählen Sie in der Liste der PDF-Werkzeuge den ersten Punkt „Suchen und Ersetzen von Schlüsselwörtern in PDFs“. Die Funktionsbeschreibung lautet stapelweises Suchen und Ersetzen von Schlüsselwörtern in PDF-Dateiinhalten, was genau der Anforderung dieser stapelweisen PDF-Schlüsselwortlöschung entspricht.

Der Zweck dieser Auswahl ist der Einstieg in den Stapel-Such- und Ersetzungsprozess. Anders als bei einem gewöhnlichen PDF-Reader öffnet man hier nicht eine Datei zur manuellen Bearbeitung, sondern wählt zunächst einen Stapel PDFs aus, legt dann einheitliche Such- und Ersetzungsregeln fest und führt die Verarbeitung schließlich einmalig aus.
Schritt 2: Hinzufügen der stapelweise zu verarbeitenden PDF-Dateien
Nach dem Aufrufen der Oberfläche „Suchen und Ersetzen von Schlüsselwörtern in PDFs“ besteht der erste Schritt darin, die „zu verarbeitenden Datensätze auszuwählen“. Oben rechts in der Oberfläche befinden sich Schaltflächen wie „Dateien hinzufügen“, „Dateien aus Ordner importieren“, „Leeren“, „Mehr“ usw. Für wenige PDFs kann man auf „Dateien hinzufügen“ klicken und sie einzeln auswählen; befinden sich die PDFs bereits zentral in einem Ordner, ist die Verwendung von „Dateien aus Ordner importieren“ bequemer.
Im Screenshot wurden bereits 4 PDF-Dateien importiert. Die Liste zeigt Nummer, Name, Pfad, Erweiterung, Erstellungszeit, Änderungszeit und eine Aktionsspalte. Man sieht, dass die 4 Datensätze D:\test\1.pdf, D:\test\2.pdf, D:\test\3.pdf, D:\test\4.pdf entsprechen, alle mit der Erweiterung pdf. Unten wird die Gesamtzahl der Datensätze mit 4 angegeben.

Das erwartete Ergebnis dieses Schritts ist: Alle zu verarbeitenden PDFs erscheinen in der Liste. Wurden versehentlich Dateien zu viel ausgewählt, können sie über die Löschen-Schaltfläche in der Aktionsspalte entfernt werden. Ist die Liste nicht korrekt, kann man „Leeren“ verwenden und erneut importieren. Nachdem die Dateien bestätigt wurden, klickt man unten auf „Weiter“, um die Verarbeitungsoptionen einzustellen.
Schritt 3: Aktivieren der unscharfen Textsuche mit regulären Ausdrücken und Ausfüllen der Platzhalter-Regeln
Im zweiten Schritt „Verarbeitungsoptionen einstellen“ sieht man den Bereich „Schlüsselwort-Optionen einstellen“. Am wichtigsten ist hier die „Suchmethode“. Die Oberfläche bietet die beiden Methoden „Exakte Textsuche“ und „Unscharfe Textsuche mit regulären Ausdrücken“. Da in diesem Beispiel regelmäßige Inhalte und nicht ein einzelner fester Begriff verarbeitet werden sollen, sollte „Unscharfe Textsuche mit regulären Ausdrücken“ gewählt werden.

In der „Liste der zu suchenden Schlüsselwörter“ sind im Screenshot-Beispiel zwei Regelzeilen eingetragen:
- April|May: Wird verwendet, um April oder May zu finden. Der senkrechte Strich steht für eine Auswahl zwischen mehreren Kandidatenwörtern und eignet sich für die stapelweise Löschung verschiedener Monatsnamen.
- \d{4}: Wird verwendet, um eine vierstellige Ziffernfolge zu finden, oft genutzt für die Suche nach Jahreszahlen wie 2017, 2020, 2026 usw.
Rechts daneben befindet sich die „Liste der zu ersetzenden Schlüsselwörter“ mit dem deutlichen Hinweis „Leer lassen bedeutet Löschen“. Wenn das Ziel also die stapelweise Löschung von Schlüsselwörtern in PDFs ist, sollte man im rechten Feld keinen Ersetzungstext eintragen. So ersetzt die Software den gefundenen, mit der linken Regel übereinstimmenden Text durch nichts, was einer Löschung entspricht.
Der Zweck dieses Schritts ist es, „was gelöscht werden soll“ mithilfe von Regeln klar zu beschreiben. Im Gegensatz zur einzelnen Eingabe von April, May, 2017, 2018, 2019 kann die unscharfe Suche mit regulären Ausdrücken eine ganze Klasse von Texten auf einmal abdecken. Beispielsweise deckt \d{4} alle vierstelligen Jahreszahlen ab und eignet sich für die Verarbeitung vieler PDFs mit uneinheitlichen Jahreszahlen.
Schritt 4: Speicherort festlegen und Stapelverarbeitung starten
Nachdem die Such- und Ersetzungsregeln eingestellt sind, klickt man unten auf der Seite auf „Weiter“. In der Prozessleiste sieht man, dass die folgenden Schritte „Speicherort festlegen“ und „Verarbeitung starten“ umfassen. Bei der Stapeländerung von PDF-Inhalten wird empfohlen, die verarbeiteten Dateien in einem neuen Ordner zu speichern, um sie von den Originaldateien zu unterscheiden und die Verarbeitungsergebnisse leichter zu überprüfen.
Obwohl der Screenshot nicht die spezifischen Optionen der Seite „Speicherort“ zeigt, geht aus dem Ablauf klar hervor, dass die Software den Benutzer zunächst auffordert, den Speicherort zu bestätigen, bevor die Verarbeitung ausgeführt wird. Nach Abschluss der Verarbeitung kann man die ausgegebenen PDFs zur Stichprobenprüfung öffnen, wobei der Schwerpunkt darauf liegt, ob die zu löschenden Schlüsselwörter entfernt wurden und die nicht zum Löschen vorgesehenen Inhalte unverändert geblieben sind.
Für dieses Beispiel ist das erwartete Ergebnis: In den 4 PDFs wurde der Monatstext, der April oder May entspricht, gelöscht, die Jahreszahl, die der Regel für vierstellige Ziffern entspricht, wurde gelöscht, während 13,, das nicht der Regel entspricht, erhalten bleibt. Damit ist die stapelweise, unscharfe Löschung mehrerer PDF-Dateien abgeschlossen.
Häufige Fragen und Hinweise
1. Warum sollte man eine unscharfe Suche mit regulären Ausdrücken anstelle einer exakten Suche verwenden?
Wenn nur exakt gleiche Wörter gelöscht werden sollen, z. B. April in allen Dateien, reicht die exakte Suche aus. Wenn der zu löschende Inhalt jedoch variiert, z. B. die Jahreszahl 2017, 2018, 2020 sein kann oder der Monat April, May, ist die unscharfe Suche mit regulären Ausdrücken besser geeignet. Sie kann eine Klasse von Inhalten nach Regeln finden und reduziert den Aufwand für die Eingabe einzelner Schlüsselwörter.
2. Warum soll die Liste der zu ersetzenden Schlüsselwörter leer bleiben?
Der Hinweis auf der rechten Seite der Benutzeroberfläche lautet: „Leer lassen bedeutet Löschen“. Das heißt, wenn es für den links gefundenen Inhalt keinen entsprechenden Ersetzungstext gibt, wird er durch nichts ersetzt. Das Ziel dieses Artikels ist das Löschen von Schlüsselwörtern in PDFs, daher bleibt die rechte Seite einfach leer. Wenn man alte Wörter in neue ändern möchte, muss man den Ersetzungstext auf der rechten Seite eintragen.
3. Könnte \d{4} versehentlich andere vierstellige Zahlen löschen?
Diese Möglichkeit besteht. \d{4} findet jede vierstellige Ziffernfolge, wenn es im PDF andere vierstellige Nummern, Seitenzahlen oder Codes gibt, könnten diese ebenfalls getroffen werden. Daher wird empfohlen, vor der offiziellen Stapelverarbeitung einen Test mit wenigen Dateien durchzuführen, um zu bestätigen, dass die Regel nur den gewünschten Inhalt abdeckt. Bei Bedarf kann die Regel präziser formuliert werden, um Fehllöschungen zu vermeiden.
4. Kann man auf diese Weise Text aus gescannten PDFs löschen?
Wenn der Text in der PDF im Wesentlichen ein Bild ist und nicht ausgewählt oder kopiert werden kann, kann die normale Textsuche und -ersetzung ihn in der Regel nicht direkt erfassen. Der PDF-Text in diesem Beispiel ist als identifizierbarer Text vorhanden und kann daher gesucht und ersetzt werden. Vor der Verarbeitung kann man versuchsweise die PDF öffnen und Text auswählen, um zu beurteilen, ob eine Textebene vorhanden ist.
5. Ist vor der Stapelverarbeitung eine Sicherung notwendig?
Eine Sicherung wird empfohlen. Der Vorteil der Stapelverarbeitung ist die Geschwindigkeit, aber wenn die Regel falsch eingestellt ist, kann dies auch stapelweise Auswirkungen auf viele Dateien haben. Die beste Vorgehensweise ist, die Original-PDFs zu behalten, die Ausgabedateien in einem neuen Verzeichnis zu speichern und die Originale erst zu ersetzen, wenn das Ergebnis geprüft und für korrekt befunden wurde.
Fazit: Stapelweise Löschung von PDF-Schlüsselwörtern mit Platzhaltern reduziert wiederholte Bearbeitungsarbeit
Mit der Funktion „Suchen und Ersetzen von Schlüsselwörtern in PDFs“ von „ HeSoft Doc Batch Tool “ können feste und regelmäßige Texte in mehreren PDFs einheitlich gelöscht werden. In diesem Artikelbeispiel wurden zuerst 4 PDFs importiert, dann „Unscharfe Textsuche mit regulären Ausdrücken“ gewählt, in die Liste der zu suchenden Schlüsselwörter April|May und \d{4} eingetragen und die Liste der zu ersetzenden Schlüsselwörter leer gelassen, um schließlich den Effekt der stapelweisen Löschung von Monat und Jahr zu erzielen.
Für Benutzer, die häufig PDF-Berichte, Verträge, Benachrichtigungen oder archivierte Unterlagen bearbeiten, kann diese Methode der stapelweisen Suche und Ersetzung die Effizienz deutlich steigern und die monotone Arbeit des einzelnen Öffnens, seitenweisen Durchsuchens und manuellen Löschens vermeiden. Es wird empfohlen, vor der endgültigen Verarbeitung einer großen Anzahl von Dateien die Regeln an einigen PDF-Musterdateien zu testen, das Ergebnis zu bestätigen und dann die Stapelverarbeitung durchzuführen. Dies erhöht sowohl die Geschwindigkeit als auch die Genauigkeit der Dateiverarbeitung.