Viele PDF-Berichte, Verträge oder Archivdateien enthalten wiederkehrende Informationen wie Daten, Jahre oder Monate. Wenn diese veröffentlicht oder einheitlich anonymisiert werden müssen, ist das manuelle Löschen in jeder Datei sehr ineffizient. Dieser Artikel erklärt, wie Sie mit HeSoft Doc Batch Tool die Funktion „Schlüsselwörter in PDF suchen und ersetzen“ in PDF-Tools nutzen, um über die Option „Text mit Formel unscharf suchen“ April, Mai und vierstellige Jahreszahlen zu finden und das Ersetzungsfeld leer zu lassen, um Datumsangaben in mehreren PDFs stapelweise zu löschen. Der Artikel behandelt Anwendungsszenarien, Vorher-Nachher-Effekte, detaillierte Arbeitsschritte und Hinweise, um Benutzern eine sichere und effiziente Bereinigung von PDF-Inhalten zu ermöglichen.
Bei der Aufbereitung von PDF-Berichten, Prüfungsunterlagen, Projektdokumenten oder extern zu veröffentlichenden Dokumenten tritt häufig folgendes Problem auf: Viele PDFs enthalten Informationen wie Datum, Jahr, Monat und Nummern, von denen nun einige Inhalte einheitlich gelöscht werden müssen. Enthält das Deckblatt beispielsweise „April 13, 2017“, soll tatsächlich nur die „13,“ im Datum erhalten bleiben, während der englische Monat und das Jahr entfernt werden. Ist nur eine Datei betroffen, ist die manuelle Bearbeitung noch akzeptabel; bei Dutzenden oder Hunderten von PDFs wird dies jedoch zu einer äußerst repetitiven und fehleranfälligen Aufgabe.
Dieser Artikel zeigt am Beispiel „Wie man PDF-Datumstext stapelweise löscht“, wie man die Bürosoftware „ HeSoft Doc Batch Tool “ für Stapelverarbeitungen einsetzt. Sie ist als Stapelverarbeitungswerkzeug für Bürodateien positioniert und eignet sich dazu, repetitive Arbeit zu reduzieren und die Effizienz bei der Bearbeitung von PDF-, Word-, Excel-, PowerPoint- und anderen Dateien zu steigern. Der Schwerpunkt dieses Artikels liegt auf PDF: Durch die Funktion „Schlüsselwörter in PDFs suchen und ersetzen“ werden Monate und Jahre in mehreren PDFs mithilfe von Platzhaltern oder formelbasierten Fuzzy-Matching-Regeln stapelweise gelöscht.
Anwendungsszenario: Stapelbereinigung von PDF-Datum, -Jahr und ähnlichen Schlüsselwörtern
Datumsangaben in PDFs folgen oft gewissen Regelmäßigkeiten, sind aber nicht in jeder Datei völlig identisch. So erscheint in manchen Dateien „April 13, 2017“, in anderen „May 20, 2018“, und wieder andere Dateien haben unterschiedliche Jahre und Monate. Bei einer gewöhnlichen exakten Suche müsste für jedes vollständige Datum eine eigene Regel erstellt werden, was einen hohen Pflegeaufwand bedeutet. Mithilfe der formelbasierten Fuzzy-Textsuche kann man dagegen eine ganze Inhaltskategorie mit einer Regel abdecken.
Die folgenden Szenarien eignen sich alle zur Anwendung der in diesem Artikel beschriebenen Methode:
- Stapelweises Löschen englischer Monate wie April, May auf PDF-Deckblättern.
- Stapelweises Löschen vierstelliger Jahreszahlen wie 2017, 2024, 2026 im Textkörper oder auf Deckblättern von PDFs.
- Stapelweise Anonymisierung von Datumsfeldern in PDF-Berichten, sodass nur ein Teil der Datumsinformation erhalten bleibt.
- Stapelbereinigung fester Schlüsselwörter, Losnummern, Versionsnummern oder Teilprojektcodes in PDFs.
- Bearbeitung mehrerer ähnlich strukturierter PDF-Vorlagen zur einheitlichen Löschung bestimmter, nicht anzuzeigender Texte.
Der Kern dieser Methode ist das „stapelweise Suchen und Ersetzen“. Wenn der ersetzende Inhalt leer ist, entspricht dies dem Löschen des gefundenen Textes. Gegenüber einer seitenweisen Suche eignen sich Stapelverarbeitungswerkzeuge besser für wiederkehrende, regelbasierte Büroaufgaben.
Ausgangszustand vor der Verarbeitung: Mehrere PDFs, bei denen dieselbe Art von Text bereinigt werden muss
Der Beispielordner enthält vier PDF-Dateien, namentlich 1.pdf, 2.pdf, 3.pdf und 4.pdf. Sie gehören zu einem Stapel zu verarbeitender Dokumente. Der erste Schritt der Stapelverarbeitung besteht darin, genau festzulegen, welche Dateien verarbeitet werden sollen, um Auslassungen oder falsche Auswahlen zu vermeiden.

Öffnet man eine dieser PDFs, sieht man, dass das Deckblatt Titel und Datumsinformationen anzeigt. Im Datumsbereich sind „April“ und „2017“ markiert, was kennzeichnet, dass diese beiden Teile im aktuellen Durchlauf gelöscht werden sollen. Die dazwischenliegende „13,“ muss erhalten bleiben. Es geht bei dieser Verarbeitung also nicht um das einfache Löschen des gesamten Datums, sondern um das regelbasierte Entfernen lediglich des Monats und des Jahres.

Würde man dies manuell tun, müsste man 1.pdf öffnen, das Datum finden und April und 2017 löschen; dann denselben Schritt für 2.pdf, 3.pdf, 4.pdf wiederholen. Je mehr Dateien es sind, desto deutlicher wird die repetitive Arbeit. Schwerwiegender noch: Bei manueller Bearbeitung übersieht man leicht eine Seite, eine Datei oder eine bestimmte Monatsschreibweise. Daher eignet sich eine solche regelbasierte Bereinigung besser zur Erledigung durch eine Stapel-Bürosoftware.
Ergebnis nach der Verarbeitung: Gefundene Monate und Jahre wurden gelöscht
Nach Abschluss der Stapelverarbeitung öffnet man die PDF zur Prüfung und stellt fest, dass an der ursprünglichen Datumsposition der englische Monat und die vierstellige Jahreszahl verschwunden sind und nur noch „13,“ übrig ist. Die mit dem roten Kasten markierte Stelle ist leer, was zeigt, dass der gefundene Text gelöscht wurde.

Dieses Ergebnis verdeutlicht zweierlei: Erstens haben die Fuzzy-Matching-Regeln den Zieltext erfolgreich gefunden; zweitens, wenn der Ersetzungstext leer ist, entfernt die Software diesen Text aus der PDF. Für einen Stapel ähnlich strukturierter PDFs kann diese Methode erheblich Zeit sparen.
Vorgehensweise: Batch-Löschung von PDF-Datumstext durch Fuzzy Matching
Schritt 1: Suchen-und-Ersetzen-Funktion im PDF-Werkzeug öffnen
Nach dem Start von „ HeSoft Doc Batch Tool “ sieht man links mehrere Werkzeugkategorien, darunter Word-Werkzeuge, Excel-Werkzeuge, PowerPoint-Werkzeuge, PDF-Werkzeuge etc. Hier wählt man „PDF-Werkzeuge“ und klickt dann in der rechten Funktionsliste auf „Schlüsselwörter in PDFs suchen und ersetzen“. Die Beschreibung unter dieser Funktionskarte lautet „Stapelweises Suchen und Ersetzen von Schlüsselwörtern in PDF-Dateiinhalten“.

Ziel der Auswahl dieser Funktion ist es, die Software eine einheitliche Suche und Ersetzung im PDF-Inhalt durchführen zu lassen. Da das Ziel dieses Artikels das Löschen von Schlüsselwörtern ist, wird das Feld „Ersetztes Schlüsselwort“ später leer gelassen. So wird der gefundene Inhalt aus der PDF gelöscht und nicht durch anderen Text ersetzt.
Schritt 2: Stapelweise zu verarbeitende PDF-Dateien importieren
Auf der aufgerufenen Seite „Schlüsselwörter in PDFs suchen und ersetzen“ gibt es oben die beiden üblichen Einstiegspunkte „Dateien hinzufügen“ und „Dateien aus Ordner importieren“. Sind es nur wenige PDFs, kann man auf „Dateien hinzufügen“ klicken; befinden sich die Dateien bereits gesammelt in einem Ordner, ist „Dateien aus Ordner importieren“ bequemer.
Im Beispiel wurden bereits 4 PDFs importiert, und die Liste zeigt Dateiname, Pfad, Erweiterung, Erstellungszeit und Änderungszeit. Die Zusammenfassung unten zeigt eine Anzahl von 4 Datensätzen an, was bedeutet, dass diese 4 Dateien alle im weiteren Prozess verarbeitet werden.

In diesem Schritt empfiehlt es sich, die Dateiliste sorgfältig zu prüfen. Zu den Prüfpunkten gehören: Ist die Dateianzahl korrekt, ist die Erweiterung pdf, ist der Pfad der Zielordner und wurden versehentlich PDFs importiert, die nicht verarbeitet werden sollen? Werden Fehler entdeckt, kann man einzelne Dateien über die Spalte mit den Operationen auf der rechten Seite löschen oder mit „Leeren“ oben neu importieren. Stimmen die Dateien, klickt man unten auf „Weiter“.
Schritt 3: Suchmodus auf Formelbasierte Fuzzy-Textsuche einstellen
Im zweiten Schritt „Verarbeitungsoptionen festlegen“ gibt es den Bereich „Schlüsselwortoptionen festlegen“. Im Bereich „Suchmodus“ sieht man „Exakte Textsuche“ und „Formelbasierte Fuzzy-Textsuche“. Da der zu verarbeitende Datumstext im Beispiel variabel ist, wählt man „Formelbasierte Fuzzy-Textsuche“.

Wählt man nur „Exakte Textsuche“, eignet sich dies meist zum Löschen völlig identischer, fester Begriffe; Inhalte wie Datum, Jahr oder Monat können jedoch je nach Datei variieren, daher ist die Fuzzy-Suche besser geeignet. Sie kann mittels Regeln eine Gruppe von Texten abgleichen und reduziert so die Regelanzahl und erhöht die Effizienz der Stapelverarbeitung.
Schritt 4: Abgleichsregeln in die Liste der zu suchenden Schlüsselwörter eintragen
Anschließend trägt man in die linke Liste „Liste der zu suchenden Schlüsselwörter“ die zu löschenden Regeln ein. Der Screenshot zeigt beispielhaft zwei Zeilen:
- April|May: Passt auf April oder May. Geeignet, um gleichzeitig mehrere möglicherweise vorkommende Monatsnamen zu löschen.
- \d{4}: Passt auf vier aufeinanderfolgende Ziffern, häufig verwendet für Jahreszahlen wie 2017.
Diese beiden Regeln entsprechen den beiden Zielen im Screenshot des Ausgangszustands: Die erste löscht englische Monate, die zweite löscht Jahreszahlen. So kann jeder in der PDF vorkommende April oder May und jede vierstellige Jahreszahl gefunden werden.
Wichtig zu beachten: \d{4} passt auf „vier Ziffern“ und ist nicht nur auf Jahreszahlen beschränkt. Gibt es in der PDF noch andere vierstellige Nummern, würden diese ebenfalls gefunden. Vor der Verarbeitung vieler Dateien sollte man daher die Regel zunächst mit einer kleinen Stichprobe testen. Enthält das Dokument viele vierstellige Nummern und man möchte nur die Jahreszahl im Datum löschen, ist sorgfältig abzuwägen, ob die Regel zu breit gefasst ist.
Schritt 5: Liste der ersetzenden Schlüsselwörter für Löschvorgang leer lassen
Die rechte Seite enthält die „Liste der ersetzenden Schlüsselwörter“. Der Screenshot zeigt den Hinweis „Keine Eingabe bedeutet Löschen“. Daher muss hier in diesem Schritt kein Inhalt eingetragen werden. Links stehen die Suchregeln, rechts bleibt es leer – die Software löscht dann den gefundenen Text.
Wäre das Ziel nicht Löschen, sondern etwa April durch einen einheitlichen Text zu ersetzen, müsste man den Ersetzungstext rechts eintragen. Da das Ziel dieses Artikels das stapelweise Löschen von PDF-Schlüsselwörtern ist, ist das Leerlassen hier die korrekte Vorgehensweise.
Schritt 6: Speicherort festlegen und Verarbeitung starten
Nach Festlegung der Schlüsselwortregeln klickt man unten auf der Seite auf „Weiter“. Wie im Fortschrittsbalken zu sehen, folgen danach noch „Speicherort festlegen“ und „Verarbeitung starten“. Man wählt gemäß den Bildschirmanweisungen den Ausgabeort und gelangt dann in die Phase des Verarbeitungsstarts.
Um Datensicherheit zu gewährleisten, sollte man die verarbeiteten PDFs in einem neuen Ordner speichern und nicht die Originaldateien direkt überschreiben. Insbesondere bei erstmaliger Nutzung von Fuzzy-Matching- oder Platzhalterregeln ist es sicherer, die Originale aufzubewahren. Nach Abschluss der Verarbeitung kann man einige PDFs stichprobenartig öffnen und prüfen, ob Monate und Jahre wie erwartet gelöscht wurden, bevor man die Dateien weiter archiviert, versendet oder veröffentlicht.
Häufig gestellte Fragen: Worauf beim Löschen von PDF-Text mit Platzhaltern zu achten ist
1. Warum bleibt nach dem Löschen noch „13,“ im Datum stehen?
Weil die Regeln in diesem Beispiel nur April, May und vierstellige Ziffern abgeglichen haben, nicht jedoch „13,“. Daher wurden im „April 13, 2017“ der Monat und das Jahr gelöscht, die Datumszahl „13,“ blieb jedoch erhalten. Genau das ist der Vorteil der regelbasierten Verarbeitung: Es wird nur der abgeglichene Teil gelöscht, nicht abgeglichene Inhalte bleiben unverändert.
2. Was tun, wenn in der PDF Monate wie June, July vorkommen?
Man kann die zu suchenden Monate in der Suchregel ergänzen. Der gezeigte Screenshot zeigt nur April|May und bedeutet Abgleich von April oder May. Enthalten die tatsächlichen Dateien weitere Monate, müssen die Regeln entsprechend dem Dokument ergänzt werden. Vor dem Erstellen der Regeln empfiehlt sich die stichprobenartige Prüfung von Beispieldokumenten, um alle möglichen Schreibweisen zu erfassen.
3. Sollte die Option „Groß-/Kleinschreibung ignorieren“ aktiviert werden?
Wenn die Groß-/Kleinschreibung der Monate in der PDF uneinheitlich ist, z. B. April, APRIL, april vorkommen können, kann man erwägen, „Groß-/Kleinschreibung ignorieren“ zu aktivieren. Möchte man nur eine bestimmte Schreibweise abgleichen, sollte man es nicht aktivieren. Ob die Option aktiviert wird, hängt vom tatsächlichen Textformat in der PDF ab.
4. Warum kann bei manchen PDFs der Text möglicherweise nicht gelöscht werden?
Handelt es sich bei der PDF um einen Bildscan, kann der auf der Seite sichtbare Text im Wesentlichen ein Bild sein und kein bearbeitbarer oder durchsuchbarer Text. In diesem Fall kann die Textsuch- und -ersetzungsfunktion den Text möglicherweise nicht erkennen. Man kann zunächst versuchen, im PDF-Reader Text auszuwählen oder zu kopieren. Ist dies nicht möglich, deutet dies darauf hin, dass zuerst eine Texterkennungsverarbeitung erforderlich sein könnte.
5. Könnte \d{4} fälschlicherweise auch Nummern löschen?
Das ist möglich. Denn diese Regel passt auf alle vier aufeinanderfolgenden Ziffern und stellt nicht automatisch fest, ob es sich um eine Jahreszahl handelt. Gibt es in der PDF vierstellige Berichtsnummern, Projektcodes oder Tabellendaten, könnten diese ebenfalls gelöscht werden. Es empfiehlt sich, zuerst im kleinen Rahmen zu testen und erst dann die Stapelverarbeitung durchzuführen, wenn sichergestellt ist, dass keine wichtigen Inhalte betroffen sind.
Kleine Tipps zur Effizienzsteigerung
Um die Stapelverarbeitung sicherer und effizienter zu gestalten, kann man folgendermaßen vorgehen: Zuerst einen Testordner mit nur wenigen PDFs als Kopie anlegen; nach dem Einrichten der Regeln einen Probelauf durchführen; die verarbeitete PDF öffnen und die kritischen Stellen prüfen; nach Bestätigung der Korrektheit die Stapelverarbeitung für den gesamten Ordner ausführen. So kann man die Effizienz der Stapelverarbeitungssoftware für Bürodokumente nutzen und gleichzeitig das Risiko von Fehlern durch falsche Regeleinstellungen verringern.
Darüber hinaus empfiehlt es sich, häufig genutzte Regeln zu dokumentieren. Muss man beispielsweise oft vierstellige Jahreszahlen löschen, kann man Regelerklärungen wie \d{4} speichern; bereinigt man häufig englische Monate, kann man eine Sammlung von Monatsabgleichsregeln anlegen. Beim nächsten ähnlichen Auftrag zum stapelweisen Löschen von PDF-Schlüsselwörtern kann man diese dann schnell wiederverwenden.
Fazit: Mit einer einzigen Regeleinstellung die Textbereinigung mehrerer PDFs erledigen
Die Schlüsselschritte zum stapelweisen Löschen von PDF-Datumstext sind: „PDF-Werkzeuge“ aufrufen, „Schlüsselwörter in PDFs suchen und ersetzen“ wählen; mehrere PDF-Dateien importieren; in den Verarbeitungsoptionen „Formelbasierte Fuzzy-Textsuche“ auswählen; auf der linken Seite die zu suchenden Regeln eingeben, z. B. April|May und \d{4}; den Ersetzungstext auf der rechten Seite leer lassen; abschließend den Speicherort festlegen und die Verarbeitung starten.
Für Büroangestellte, die häufig PDF-Berichte, Verträge oder Archivmaterialien bearbeiten müssen, kann diese Methode eine große Menge manueller, repetitiver Löscharbeit in eine einmalige Regelkonfiguration umwandeln. Es wird empfohlen, die Regeln zuerst mit Beispieldateien zu testen und dann die Stapelverarbeitung für den gesamten Ordner auszuführen. So kann man sowohl die Effizienz steigern als auch die Genauigkeit der PDF-Inhaltsbereinigung sicherstellen.