Viele PDF-Dokumente enthalten Datumsangaben, Nummern, Jahreszahlen usw., die dasselbe Format, aber unterschiedliche Inhalte haben. Das manuelle Löschen ist ineffizient und fehleranfällig. In diesem Artikel wird beschrieben, wie Sie mit HeSoft Doc Batch Tool mehrere PDFs in die Funktion „Suchen und Ersetzen von Schlüsselwörtern in PDF“ importieren, über Formeln unscharf nach April, Mai und vierstelligen Jahreszahlen suchen und den Ersetzungstext leer lassen, um unregelmäßige Texte in PDFs stapelweise zu löschen.
In der täglichen Büroarbeit werden PDFs häufig zum Speichern von Berichten, Richtlinien, Verträgen, Projektdaten und extern veröffentlichten Dokumenten verwendet. Das Problem ist, dass viele PDFs vor der Veröffentlichung oder Archivierung von bestimmten Texten bereinigt werden müssen, wie z. B. Datumsangaben, Jahre, Versionsnummern, Namen, Nummern oder bestimmte sensible Felder. Wenn diese Inhalte völlig identisch sind, ist die Verwendung des normalen Suchen & Ersetzen relativ einfach; aber wenn das Datum und das Jahr in jeder Datei unterschiedlich sind, wird die manuelle Bearbeitung sehr ineffizient.
Am Beispiel „Mehrere Monate und Jahre aus mehreren PDFs stapelweise löschen“ erläutert dieser Artikel, wie man mit Hilfe von HeSoft Doc Batch Tool eine unscharfe Übereinstimmungslöschung in PDFs durchführt. Im Beispiel steht auf der PDF-Titelseite ursprünglich „April 13, 2017“. Wir möchten den englischen Monat und das vierstellige Jahr löschen und nur die Zahl in der Mitte beibehalten. In der Praxis kann man durch „Text mit Formel unscharf suchen“ mehrere mögliche Monate und Jahre abgleichen und dann die Liste der ersetzten Schlüsselwörter leer lassen, um eine Stapellöschung zu realisieren.
Anwendungsszenarien: Regelmäßig wechselnde Inhalte in PDFs müssen stapelweise bereinigt werden
Diese Art von Funktion eignet sich am besten für die Verarbeitung regelmäßiger Texte. Beispielsweise enthalten viele PDFs Daten mit unterschiedlichen Jahren, Nummern mit abweichenden letzten Ziffern, Monate wie April, Mai oder andere englische Monate oder Versionsnummern mit wechselnden Zahlen. Solange sich diese Texte mit Regeln beschreiben lassen, kann die unscharfe Suche in Betracht gezogen werden.
Typische Szenarien sind: das stapelweise Löschen des Veröffentlichungsdatums auf PDF-Berichtsdeckblättern, die Bereinigung von Projektnummern in externen Versionen, das Entfernen von Nummern im festen Format aus Vertrags-PDFs, das Löschen von Jahresinformationen aus archivierten Dateien, die teilweise Desensibilisierung von PDF-Materialien und die einheitliche Bereinigung bestimmter variabler Schlüsselwörter in mehreren PDFs. Im Vergleich zum einzelnen Öffnen und manuellen Ändern von PDFs kann das Stapelverarbeitungstool wiederholte Aktionen zu einer einzigen Aufgabe zusammenfassen.
HeSoft Doc Batch Tool ist als Bürosoftware positioniert, der Schwerpunkt liegt nicht auf der präzisen Bearbeitung einzelner Dateien, sondern auf der Stapelverarbeitung großer Dokumentenmengen, um wiederholte Arbeit zu reduzieren. Für gängige Bürodateien wie PDF, Word, Excel, PowerPoint können derartige Stapelvorgänge erheblich Zeit sparen. In diesem Abschnitt liegt der Schwerpunkt auf der stapelweisen Suche, Ersetzung und Löschung von Schlüsselwörtern in PDFs.
Effekt-Vorschau: Vor der Verarbeitung müssen 4 PDFs einheitlich bereinigt werden
Auf dem Screenshot vor der Verarbeitung ist zu sehen, dass sich im aktuellen Ordner 4 PDF-Dateien befinden, die als 1.pdf, 2.pdf, 3.pdf und 4.pdf benannt sind. Viele praktische Büroaufgaben sind ähnlich gelagert: Die Anzahl der Dateien mag gering sein oder mehrere Dutzend bis Hunderte betragen, aber die Verarbeitungsregeln sind gleich.

Nach dem Öffnen einer der PDFs ist an der Datumsposition auf der Titelseite „April 13, 2017“ zu sehen. „April“ und „2017“ sind rot umrandet und markieren den zu löschenden Zielinhalt. Da es sich bei „2017“ um eine vierstellige Jahreszahl handelt und in anderen PDFs andere Jahre vorkommen können, ist die unscharfe Übereinstimmung hier besser geeignet.

Bei einer dateiweisen Bearbeitung müsste man eine PDF öffnen, den entsprechenden Text suchen, löschen oder überschreiben, speichern und dann die nächste Datei bearbeiten. Je mehr Dateien es sind, desto deutlicher werden die wiederholten Arbeitsschritte und desto wahrscheinlicher ist es, dass durch Ermüdung eine Bearbeitung vergessen wird. Ziel des Einsatzes von Stapelverarbeitungstools ist es, diese mechanischen Aktionen der Software zu überlassen.
Effekt nach der Verarbeitung: Monat und Jahr in den PDFs wurden gelöscht
Betrachtet man nach Abschluss der Verarbeitung die Ausgabe-PDF, wurden „April“ und „2017“ an der ursprünglichen Datumsposition gelöscht, auf der Seite verbleibt nur das nicht gefundene „13,“. Die rote Umrandung zeigt den leeren Bereich nach der Löschung und belegt, dass die Software die Schlüsselwortbereinigung gemäß den Regeln durchgeführt hat.

Dieser Effekt zeigt zweierlei: Erstens kann die Software bestimmte Texte im PDF-Inhalt lokalisieren; zweitens kann gelöscht statt ersetzt werden, wenn der Ersetzungsinhalt leer ist. Für die stapelweise Bereinigung von Daten, Jahren, Nummern und ähnlichen Inhalten ist diese Methode sehr direkt.
Schritt 1: Die Suchen & Ersetzen-Funktion im PDF-Tool öffnen
Nach dem Start von HeSoft Doc Batch Tool sind auf der linken Seite mehrere Werkzeugkategorien zu sehen. Wählt man „PDF-Tools“, zeigt die Hauptoberfläche eine Liste mit PDF-bezogenen Funktionen an. In diesem Beispiel wird „1. Schlüsselwörter in PDF suchen und ersetzen“ verwendet, dessen Beschreibung die stapelweise Suche und Ersetzung von Schlüsselwörtern im PDF-Dateiinhalt ist.

Der Grund für die Wahl dieser Funktion ist: Das Löschen von PDF-Schlüsselwörtern kann im Wesentlichen als spezielle Ersetzungsoperation betrachtet werden, nämlich „Zieltext finden und dann durch nichts ersetzen“. Daher ist kein separater Einstiegspunkt für „Text löschen“ erforderlich, es reicht aus, die Suchregel und den Ersetzungsinhalt in der Suchen & Ersetzen-Funktion korrekt festzulegen.
Vor dem Aufrufen der Funktion wird empfohlen, die zu verarbeitenden PDF-Dateien vorzubereiten und die zu bearbeitenden PDFs im selben Ordner abzulegen. Dadurch kann der spätere Import über den Ordner die Zeit für die Einzelauswahl der Dateien reduzieren.
Schritt 2: Mehrere PDFs importieren und die Verarbeitungsliste überprüfen
Nach dem Aufrufen der Funktionsoberfläche besteht der erste Schritt darin, „die zu verarbeitenden Datensätze auszuwählen“. Oben rechts befinden sich die beiden häufig verwendeten Einstiegspunkte „Dateien hinzufügen“ und „Dateien aus Ordner importieren“. Sollen nur einige bestimmte PDFs bearbeitet werden, klickt man auf „Dateien hinzufügen“; soll der gesamte Ordnerinhalt an PDFs verarbeitet werden, wählt man „Dateien aus Ordner importieren“.

Im Screenshot wurden bereits 4 Datensätze importiert, die Dateinamen lauten 1.pdf, 2.pdf, 3.pdf, 4.pdf, alle Pfade befinden sich im Ordner „test“ auf Laufwerk D:. Die Liste zeigt zudem die Erweiterung pdf sowie das Erstellungs- und Änderungsdatum. Nach dem Import zeigt der Zusammenfassungsbereich unten „Anzahl der Datensätze: 4“ an, was die Überprüfung der korrekten Importanzahl erleichtert.
Bei diesem Schritt sind zwei Dinge zu beachten: Erstens ist zu bestätigen, dass sich keine überflüssigen Dateien in der Liste befinden, um eine fehlerhafte Bearbeitung zu vermeiden; zweitens ist zu bestätigen, dass alle zu bearbeitenden Dateien zur Liste hinzugefügt wurden, um eine unterlassene Bearbeitung zu vermeiden. Sollte eine Datei nicht in die Verarbeitung einbezogen werden, kann das Löschsymbol in der Aktionsspalte verwendet werden, um sie aus der Liste zu entfernen. Nach der Bestätigung klickt man unten auf „Weiter“.
Schritt 3: Unscharfe Formelsuche zum Abgleichen nicht fester Texte
Im zweiten Schritt „Verarbeitungsoptionen einstellen“ ist zunächst die „Suchmethode“ zu betrachten. Die Oberfläche bietet „Text exakt suchen“ und „Text mit Formel unscharf suchen“. In diesem Beispiel sollen Monat und Jahr verarbeitet werden, wobei das Jahr variabel ist, daher wird „Text mit Formel unscharf suchen“ gewählt.

In der „Liste der zu suchenden Schlüsselwörter“ wurden im Beispiel zwei Regeln eingegeben. Die erste Regel „April|May“ wird verwendet, um April oder May zu finden, sie eignet sich zur Verarbeitung verschiedener möglicher englischer Monate. Die zweite Regel „\d{4}“ wird verwendet, um vier aufeinanderfolgende Ziffern zu finden, eine häufige Anwendung ist der Abgleich von Jahreszahlen wie 2017, 2018, 2026 usw.
Der Grundgedanke dabei ist: Alle zu löschenden Ziele werden in die linke Suchliste geschrieben. Feste Wörter können direkt geschrieben werden, für mehrere Kandidatenwörter sind Regeln möglich, und Jahreszahlen lassen sich durch Formeln darstellen. So sucht die Software in jeder PDF nach Inhalten, die diesen Regeln entsprechen.
Rechts befindet sich die „Liste der Schlüsselwörter nach dem Ersetzen“. Da in diesem Beispiel Text gelöscht werden soll, bleibt die rechte Seite leer. Der Hinweis auf der Oberfläche „Freilassen bedeutet Löschen“ ist genau die entscheidende Einstellung für die stapelweise Löschung von Schlüsselwörtern in PDFs. Bitte keine Leerzeichen oder andere Ersatzwörter eingeben, sondern direkt leer lassen.
Schritt 4: An neuem Speicherort speichern und Verarbeitung starten
Nachdem die Such- und Löschregeln eingestellt wurden, klickt man auf „Weiter“. Der Prozessbalken zeigt, dass die folgenden Schritte „Speicherort festlegen“ und „Verarbeitung starten“ umfassen. Obwohl der Screenshot die Seite für den Speicherort nicht zeigt, ist es anhand des Ablaufs ersichtlich, dass der Ausgabeort vor der eigentlichen Verarbeitung festgelegt werden muss.
Es wird empfohlen, die verarbeiteten PDFs in einem neuen Ordner zu speichern, anstatt sie direkt im ursprünglichen Dateiverzeichnis zu belassen. Dies hat drei Vorteile: Erstens bleiben die Original-PDFs für einen möglichen Rückfall erhalten; zweitens ist ein einfacher Vergleich des Zustands vor und nach der Verarbeitung möglich; drittens werden Fehleinschätzungen durch gleichnamige Dateien vermieden. Bei wichtigen Daten sollte die Regel am besten zuerst mit 1 bis 2 Beispieldateien getestet werden, um den korrekten Löschbereich zu bestätigen, bevor die gesamte Verarbeitung für alle Dateien gestartet wird.
Nach dem Klicken auf „Verarbeitung starten“ bearbeitet die Software die mehreren PDFs in der Reihenfolge der Liste. Nach Abschluss der Verarbeitung öffnet man die Ausgabedatei, um die Seite zu überprüfen. Im Beispiel wurde aus dem ursprünglichen „April 13, 2017“ nur noch „13,“ beibehalten, was zeigt, dass Monat und Jahr gemäß der Regel gelöscht wurden.
Häufige Fragen und Hinweise
1. Ist die unscharfe Formelsuche dasselbe wie ein Platzhalter?
In der Praxis bezeichnen viele Benutzer solche Regeln als Platzhalter oder Fuzzy-Matching. Die Bezeichnung im Screenshot „Text mit Formel unscharf suchen“ beschreibt ihre Funktionsweise genauer: Es wird eine Klasse von Text durch eine Formelregel abgeglichen, nicht nur eine feste Zeichenfolge.
2. Muss man eine Formel verwenden, wenn nur ein fester Begriff gelöscht werden soll?
Nicht unbedingt. Soll in allen PDFs nur dasselbe feste Wort gelöscht werden, kann man „Text exakt suchen“ wählen. Wenn an derselben Position jedoch verschiedene Monate, Jahre oder Nummern vorkommen können, ist die unscharfe Formelsuche einfacher.
3. Warum blieb nach der Verarbeitung „13,“ übrig?
Weil die Beispielregel nur „April“ und vierstellige Jahre gefunden hat, nicht aber das dazwischenliegende „13,“. Die Software löscht nur den gefundenen Inhalt, nicht automatisch Zeichen, die nicht von der Regel erfasst wurden. Wenn auch die Tageszahl oder das Komma gelöscht werden sollen, müssen diese als entsprechende Treffer in die Suchregel aufgenommen werden.
4. Wie vermeidet man versehentliche Löschungen bei der Stapelverarbeitung?
Die Regeln sollten nicht zu weit gefasst sein. Wenn zum Beispiel alle vierstelligen Ziffern gefunden werden, könnten auch vierstellige Zahlen an anderer Stelle in der PDF getroffen werden. Vor der eigentlichen Stapelverarbeitung wird empfohlen, die Regeln zuerst mit Beispieldateien zu testen und die Ausgabeergebnisse zu überprüfen.
Zusammenfassung: Wiederkehrende PDF-Bereinigungsarbeiten einem Stapelverarbeitungsprogramm überlassen
Der Schlüssel zur stapelweisen Löschung nicht fester Texte in PDF-Dateien liegt in der Suche nach passenden Abgleichsregeln. HeSoft Doc Batch Tool verknüpft über die Funktion „Schlüsselwörter in PDF suchen und ersetzen“ den Dateiimport, die Regeleinstellung, die Ausgabespeicherung und den Verarbeitungsstart zu einem vollständigen Arbeitsablauf. Benutzer müssen lediglich den abzugleichenden Inhalt in die Suchliste schreiben und die Ersetzungsliste leer lassen, um die Stapellöschung abzuschließen.
Wenn Sie häufig PDF-Daten, Jahre, Nummern, sensible Felder und ähnliche Inhalte verarbeiten müssen, empfiehlt es sich, den in diesem Artikel beschriebenen Ablauf als Referenz zu speichern: Zuerst die PDFs ordnen, die Dateiliste importieren, dann unscharfe Formelsuche wählen, die Regeln eingeben, den Ersetzungsinhalt leer lassen, abschließend in einem neuen Verzeichnis speichern und das Ergebnis kontrollieren. Dies reduziert wiederholte Arbeitsschritte deutlich und macht die PDF-Bereinigung stabiler und effizienter.