In vielen PDF-Dateien tauchen immer wieder Inhalte wie Daten, Nummern, Monate, Namen oder Projektcodes auf. Wenn man jede PDF einzeln öffnet und manuell löscht, ist das nicht nur zeitaufwendig, sondern man übersieht auch leicht etwas. Dieser Artikel zeigt am Beispiel von HeSoft Doc Batch Tool , wie man mit Formeln unscharf nach Texten sucht, durch Schreibweisen ähnlich wie Platzhalter oder reguläre Ausdrücke stapelweise veränderliche Schlüsselwörter in mehreren PDFs abgleicht und den Ersatzinhalt leer lässt, um so den Effekt des massenhaften Löschens von PDF-Texten zu erzielen.
Beim Ordnen von Verträgen, Berichten, Archivierungsmaterialien oder öffentlich zugänglichen Dokumenten tritt häufig ein Problem auf: Viele PDF-Dateien enthalten Texte, die entfernt werden müssen, aber diese Texte sind nicht alle genau gleich. Beispielsweise zeigen manche Dateien Monate an, andere Jahre, an manchen Stellen stehen fortlaufende Nummern, an anderen Teile eines Datums. Wenn man jedes PDF einzeln öffnet, mit dem Reader durchsucht und manuell löscht, ist das nicht nur ineffizient, sondern bei Dutzenden oder Hunderten von Dateien passieren auch leicht Fehler wie Auslassungen, falsche Löschungen oder Durcheinander beim Speichern.
Dieser Artikel befasst sich genau mit solchen Szenarien der Stapelverarbeitung: Mit HeSoft Doc Batch Tool wird in mehreren PDFs durch die Verwendung von Platzhalterkonzepten unscharf gesucht und die gefundenen Schlüsselwörter werden stapelweise gelöscht. Der Funktionsname in der Benutzeroberfläche lautet „Schlüsselwörter in PDF suchen und ersetzen“, wobei die Option „Text mit Formel unscharf suchen“ für Fälle wie „Monat variabel“, „Jahr variabel“ oder „Nummernstellen fest, aber Inhalt variabel“ geeignet ist. Erreicht wird das Löschen passender Texte, indem man die Liste der zu ersetzenden Schlüsselwörter einfach leer lässt.
Anwendungsszenarien: Welche PDF-Inhalte eignen sich für das stapelweise Löschen mit Platzhaltern
Das stapelweise Löschen von PDF-Schlüsselwörtern mit Platzhaltern eignet sich für PDF-Texte, die „eine Regelmäßigkeit aufweisen, deren konkreter Inhalt sich aber ändert“. Beispielsweise steht auf dem Deckblatt eines Berichtssatzes ein Datum, dessen Format „April 13, 2017“ oder „May 13, 2020“ sein könnte; oder es gibt in einer Datei vierstellige Jahreszahlen, Nummern mit fester Länge, Chargennummern, Versionsnummern, laufende Nummern usw. Sie alle haben gemeinsam, dass sie sich nicht durch die Eingabe eines festen Wortes exakt löschen lassen, wohl aber durch eine Regel vereinheitlicht herausgefiltert werden können.
Im Beispiel-Screenshot handelt es sich um 4 zu verarbeitende PDF-Dateien mit den Namen 1.pdf, 2.pdf, 3.pdf und 4.pdf. In jedem PDF gibt es datumsbezogene Inhalte, die bereinigt werden müssen. Die Dateiliste vor der Verarbeitung sieht wie folgt aus:

Öffnet man eines der PDFs, sieht man auf der Seite ein Datum wie „April 13, 2017“. Im Beispiel ist der zu löschende Teil rot umrandet: der Monat „April“ und das Jahr „2017“. Da sich Monat oder Jahr in verschiedenen Dateien ändern können, müsste man bei einer gewöhnlichen exakten Suche mehrere feste Begriffe eingeben; mit der unscharfen Formelsuche hingegen kann man mit „April|May“ mehrere mögliche Monate finden und mit „\d{4}“ eine vierstellige Jahreszahl.

Zu beachten ist, dass es in diesem Artikel um das stapelweise Suchen und Löschen von Text innerhalb des PDF-Inhalts geht, nicht um das Löschen von PDF-Dateinamen und auch nicht um das Löschen ganzer Seiten. Wenn Sie stapelweise Dateinamen ändern, PDF-Seiten löschen oder Word-/docx-/doc- oder Excel-Tabellen konvertieren möchten, fallen diese Aufgaben in den Bereich anderer Werkzeuge; der Schwerpunkt dieses Artikels liegt auf der Stapelverarbeitung von Schlüsselwörtern im PDF-Textkörper.
Ergebnisvorschau: Vergleich der PDF-Schlüsselwörter vor und nach dem Löschvorgang
Vor der Verarbeitung ist auf der PDF-Seite das vollständige Datum zu sehen, sowohl Monat als auch Jahr werden auf der Seite angezeigt. Nach der Einrichtung der Stapel-Such- und Ersetzungsfunktion führt die Software für jedes der importierten PDFs dieselbe Regel aus: Sie sucht nach Texten, die der Formel entsprechen, und setzt den Ersetzungstext als leer fest. Dadurch werden die gefundenen Texte aus dem PDF gelöscht.
Das Beispielergebnis nach der Verarbeitung sieht wie folgt aus. Man erkennt, dass die ursprüngliche Position des Monats nun leer ist und auch die vierstellige Jahreszahl gelöscht wurde. Nur der nicht von der Löschregel erfasste Teil, beispielsweise das „13,“ in der Mitte, ist noch vorhanden. Dies zeigt, dass die Software nicht einfach einen festen Koordinatenbereich ausradiert, sondern den entsprechenden Text anhand der eingegebenen Suchregel lokalisiert und ersatzweise löscht.

Der Vorteil dieser Methode liegt auf der Hand: Wenn Monate, Jahre oder Nummern in verschiedenen PDFs unterschiedlich sind, aber dem gleichen Formatmuster folgen, muss man nicht jede Datei und jede Seite einzeln prüfen und manuell bearbeiten. Sobald die Regel korrekt eingerichtet ist, kann der gesamte PDF-Stapel auf einmal verarbeitet werden. Dies eignet sich besonders für Datenanonymisierung, Bereinigung vor der Berichtsveröffentlichung, Archivierung historischer Dateien und das Entfernen von Vorlageninhalten.
Arbeitsschritte: Stapelweises Löschen von PDF-Schlüsselwörtern mit HeSoft Doc Batch Tool
Nachfolgend wird der vollständige Arbeitsablauf in der Reihenfolge der Screenshots beschrieben. Der gesamte Prozess lässt sich in vier Phasen verstehen: Funktion auswählen, PDF importieren, unscharfe Such- und Löschregeln einrichten, Speicherort festlegen und Verarbeitung starten. In jedem Schritt sollte überprüft werden, ob die aktuellen Einstellungen den Erwartungen entsprechen, insbesondere bei Platzhalter- oder Formelregeln empfiehlt es sich, zunächst mit wenigen Testdateien zu arbeiten, bevor alle Dateien im Stapel verarbeitet werden.
Schritt 1: PDF-Werkzeug öffnen und „Schlüsselwörter in PDF suchen und ersetzen“ wählen
Öffnen Sie HeSoft Doc Batch Tool und wählen Sie in der linken Werkzeugkategorie „PDF-Werkzeuge“. Auf der rechten Seite werden mehrere Karten für PDF-Stapelverarbeitungsfunktionen angezeigt, darunter PDF mit Wasserzeichen versehen, Seiten löschen, in Word konvertieren, in TXT konvertieren usw. Wählen Sie hier die erste Option „Schlüsselwörter in PDF suchen und ersetzen“.

Ziel dieses Schritts ist es, in den Prozess zum Suchen und Ersetzen von PDF-Text zu gelangen. Da wir Schlüsselwörter im PDF-Inhalt löschen wollen, dürfen wir nicht „Seiten in PDF löschen“ oder „PDF in Word konvertieren“ wählen. Nach Auswahl der richtigen Funktion gelangt man in eine assistentengeführte Benutzeroberfläche, in der oben die Prozessschritte zu sehen sind: Zu verarbeitende Datensätze auswählen, Verarbeitungsoptionen festlegen, Speicherort festlegen, Verarbeitung starten.
Schritt 2: Mehrere PDF-Dateien hinzufügen und zu verarbeitende Datensätze bestätigen
Importieren Sie auf der Funktionsseite zunächst die zu verarbeitenden PDF-Dateien. Oben rechts in der Oberfläche befinden sich die Schaltflächen „Datei hinzufügen“ und „Dateien aus Ordner importieren“. Wenn nur einige bestimmte PDFs verarbeitet werden sollen, klicken Sie auf „Datei hinzufügen“; wenn ein gesamter Ordner mit zu verarbeitenden PDFs vorliegt, können Sie „Dateien aus Ordner importieren“ für den Stapelimport nutzen. Im Screenshot wurden bereits vier PDF-Dateien importiert, die Liste zeigt Nummer, Name, Pfad, Erweiterung, Erstellungs- und Änderungsdatum an.

Der Zweck dieses Schritts ist die Festlegung, „welche PDFs im Stapel verarbeitet werden“. Prüfen Sie nach dem Import Anzahl, Pfade und Erweiterungen der Dateien auf Richtigkeit. Im Beispiel ist die Datensatzanzahl 4, was bedeutet, dass 1.pdf, 2.pdf, 3.pdf und 4.pdf alle am anschließenden Löschen der Schlüsselwörter teilnehmen. Sollte eine Datei nicht verarbeitet werden müssen, kann sie in der Aktionsspalte entfernt werden; wurde falsch importiert, kann über die Schaltfläche „Leeren“ in der Oberfläche eine neue Auswahl getroffen werden. Klicken Sie nach der Bestätigung unten auf „Weiter“.
Schritt 3: Option „Text mit Formel unscharf suchen“ wählen und zu löschende Regeln eingeben
Auf der Seite „Verarbeitungsoptionen festlegen“ müssen die Schlüsselwortoptionen sorgfältig eingestellt werden. Im Screenshot ist als „Suchmethode“ die Option „Text mit Formel unscharf suchen“ gewählt, dies ist der Schlüssel zum unscharfen Stapellöschen mit Platzhaltern. Im Vergleich zur „Exakten Textsuche“ eignet sich die unscharfe Formelsuche für die Eingabe von Ausdrücken mit Regeln, um mit einer Regel eine Textklasse zu finden.

In der „Liste der zu suchenden Schlüsselwörter“ kann in jede Zeile ein zu findender Inhalt oder eine Regel eingetragen werden. Im Beispiel steht in Zeile 1 „April|May“, was als Suche nach April oder May verstanden werden kann; Zeile 2 enthält „\d{4}“ zum Finden von vierstelligen Zahlen, beispielsweise Jahreszahlen wie 2017, 2020. So kann die Software im PDF nach Monatsnamen und vierstelligen Jahren suchen, anstatt nur einen einzigen festen String zu finden.
Auf der rechten Seite befindet sich die „Liste der zu ersetzenden Schlüsselwörter“. Der Hinweis im Screenshot „Leerlassen bedeutet Löschen“ ist sehr wichtig. Wenn ein Schlüsselwort durch einen neuen Inhalt ersetzt werden soll, tragen Sie den Ersetzungstext rechts ein; ist das Ziel das Löschen des Schlüsselworts aus dem PDF, lassen Sie den entsprechenden Ersetzungstext leer. Da die Anforderung dieses Artikels das unscharfe Stapellöschen ist, wird auf der rechten Seite kein Inhalt eingetragen, damit die Software den gefundenen Text durch Nichts ersetzt.
Beim Einrichten empfiehlt es sich, einem Prinzip zu folgen: Zuerst den zu löschenden Bereich klar definieren, dann entscheiden, ob die Verarbeitung in mehreren Zeilen erfolgen soll. Sollen beispielsweise Monat und Jahr gelöscht werden, kann man wie im Beispiel zwei Zeilen verwenden; soll nur die vierstellige Jahreszahl gelöscht werden, schreibt man nur „\d{4}“. Die Regel sollte nicht zu breit gefasst sein, da sonst andere normale Zahlen im PDF versehentlich gelöscht werden könnten. Beispielsweise würde „\d+“ fortlaufende Ziffern finden, was einen größeren Bereich als vierstellige Jahreszahlen umfasst – dies ist mit Vorsicht zu verwenden.
Schritt 4: Weiter zum nächsten Schritt, Speicherort festlegen und Stapelverarbeitung starten
Sobald die Schlüsselwortregeln eingerichtet sind, klicken Sie unten auf der Seite auf „Weiter“. Wie im oberen Prozessablauf angezeigt, folgen anschließend die Schritte „Speicherort festlegen“ und „Verarbeitung starten“. Der Zweck dieser beiden Schritte ist die Bestimmung des Speicherorts für die verarbeiteten PDFs bzw. die eigentliche Ausführung des Stapel-Suchens und -Ersetzens. Um die Ergebnisse leichter überprüfen zu können, wird empfohlen, die Originaldateien nicht direkt zu überschreiben, sondern in einem neuen Ausgabeverzeichnis zu speichern. So kann man, selbst wenn die Regeln nachjustiert werden müssen, auf die Original-PDFs zurückgreifen und die Verarbeitung erneut durchführen.
Nach dem Start verarbeitet die Software die PDFs der Reihe nach gemäß der Importliste. Öffnen Sie nach Abschluss den Ausgabeordner und überprüfen Sie die PDFs auf die Ergebnisse. Betrachten Sie zuerst die erste Seite oder die Position, die das Zieldatum oder die Nummer enthält, und bestätigen Sie, dass die gefundenen Inhalte wie Monat und Jahr gelöscht wurden, bevor Sie andere Dateien überprüfen. Bei der Verarbeitung einer großen Anzahl von PDFs empfiehlt es sich, stichprobenartig verschiedene Dateien zu prüfen, insbesondere solche mit leicht abweichenden Inhaltsformaten.
Erläuterungen zu Platzhaltern und Formelschreibweise: Wie man versehentliches Löschen von PDF-Inhalt vermeidet
Viele Nutzer verwechseln die Begriffe „Platzhalter“, „unscharfe Suche“ und „reguläre Formel“. In der Praxis muss man keine komplizierte Theorie beherrschen, sondern nur wissen, dass all diese das Ziel haben, eine Textklasse durch Regeln zu finden. Die Option „Text mit Formel unscharf suchen“ im Screenshot unterstützt die Verwendung von Formeln, um den gesuchten Inhalt auszudrücken, z. B. „April|May“ für eine Oder-Auswahl, „\d{4}“ für eine vierstellige Zahl.
Wenn es sich bei dem zu löschenden Inhalt um feste Begriffe handelt, etwa einen alten Firmennamen, einen festen Projektnamen oder einen einheitlichen Wasserzeichentext, können Sie die exakte Textsuche verwenden; handelt es sich um variable Inhalte wie Jahre, Nummern, Monate oder Chargennummern, ist die unscharfe Formelsuche besser geeignet. Nutzern, die diese Funktion neu verwenden, wird empfohlen, zunächst 1 bis 2 PDFs zur Überprüfung zu verarbeiten und nach Bestätigung des gewünschten Löschergebnisses den gesamten Ordner im Stapel zu importieren.
Außerdem ist zu beachten, dass Text in PDFs nicht immer editierbarer Text ist. Einige gescannte Dokumente sehen nach Text aus, sind aber im Wesentlichen Bilder. Wenn das PDF keine erkennbare Textebene hat, kann die normale Such- und Ersetzungsfunktion möglicherweise nichts finden. In diesem Fall muss zunächst überprüft werden, ob der PDF-Inhalt auswählbar, kopierbar oder durchsuchbar ist. Der PDF-Text in den Beispielen dieses Artikels kann gefunden werden, daher konnte die Stapellöschung durchgeführt werden.
Häufige Fragen und wichtige Hinweise
1. Warum muss die Liste der zu ersetzenden Schlüsselwörter leergelassen werden?
Weil die Anforderung diesmal das Löschen ist und nicht das Ersetzen. Die Benutzeroberfläche zeigt bereits den Hinweis „Leerlassen bedeutet Löschen“. Wenn Sie also rechts in der Ersetzungsliste keinen Inhalt eingeben, ersetzt die Software den gefundenen Text durch ein Leerzeichen, was visuell dazu führt, dass das Schlüsselwort gelöscht wurde.
2. Kann man sehr viele PDFs auf einmal verarbeiten?
Ja. Das Tool ist für die Stapelverarbeitung von Bürodokumenten ausgelegt und eignet sich gut, um PDF-Dateien stapelweise zu verarbeiten und wiederkehrende Arbeiten zu reduzieren. Sie können mehrere PDFs über „Datei hinzufügen“ auswählen oder über „Dateien aus Ordner importieren“ alle PDFs eines Ordners auf einmal importieren. Überprüfen Sie nach dem Import die Anzahl der Datensätze und die Pfade, um zu vermeiden, dass nicht benötigte Dateien in die Aufgabe aufgenommen werden.
3. Was ist, wenn die Regel falsch geschrieben ist?
Wenn die Regel zu breit gefasst ist, könnte sie Inhalte löschen, die nicht gelöscht werden sollen; ist sie zu eng, könnte sie Inhalte übersehen. Es wird daher empfohlen, zuerst die Originaldateien zu sichern oder beim Festlegen des Speicherorts in einen neuen Ordner auszugeben. Überprüfen Sie nach Abschluss die Ergebnisse und passen Sie bei Nichterfüllung der Erwartungen die Suchregeln an, bevor Sie die Verarbeitung erneut durchführen.
4. Was ist der Unterschied zwischen dieser Methode und dem Konvertieren in Word und anschließendem Löschen?
Das Konvertieren von PDF in Word, docx oder doc mit anschließendem Suchen und Löschen ist ebenfalls eine Methode, kann aber Layoutänderungen, Seitenumbruchänderungen und das Problem der erneuten PDF-Ausgabe mit sich bringen. Das direkte Suchen und Ersetzen von Schlüsselwörtern im PDF-Stapel eignet sich besser für Szenarien, in denen nur ein Teil des Textes im PDF bereinigt werden soll, während das ursprüngliche PDF-Layout möglichst erhalten bleiben soll.
Zusammenfassung: Weniger sich wiederholende PDF-Bereinigungsarbeit durch Stapelverarbeitungswerkzeug
Wenn in mehreren PDF-Dateien ähnliche, aber nicht identische Schlüsselwörter vorhanden sind, ist das manuelle Löschen jedes einzelnen keine effiziente Lösung. Mit der Funktion „Schlüsselwörter in PDF suchen und ersetzen“ von HeSoft Doc Batch Tool , der Wahl von „Text mit Formel unscharf suchen“ und anschließendem Leerlassen des Ersetzungsinhalts lässt sich ein platzhalterartiges, unscharfes Stapellöschen realisieren. Ob Datum, Jahr, Nummer oder variabler Text mit festem Format – alles kann durch Regeln einheitlich gefunden und verarbeitet werden.
Wenn Sie eine Reihe von PDFs bearbeiten, die anonymisiert, von Datumsangaben bereinigt oder von Nummern befreit werden sollen, empfiehlt es sich, zuerst Testdateien vorzubereiten, PDFs gemäß den Schritten in diesem Artikel zu importieren, unscharfe Suchregeln einzurichten, in einen neuen Ordner auszugeben und das Ergebnis zu überprüfen. Nachdem Sie die Stabilität der Regeln bestätigt haben, können Sie den gesamten Dateistapel von der Software verarbeiten lassen und so die Zeit für sich wiederholende Arbeitsschritte deutlich reduzieren und die Effizienz der PDF-Aufbereitung und -Vorbereitung zur Veröffentlichung steigern.