Wenn mehrere PDFs ähnliche Daten, Jahreszahlen, Nummern oder feste Schlüsselwörter enthalten, ist es sehr ineffizient, sie einzeln zu öffnen und zu löschen. In diesem Artikel wird am Beispiel der Massenlöschung von Monaten und vierstelligen Jahreszahlen in PDF-Deckblättern erläutert, wie Sie mit HeSoft Doc Batch Tool eine unscharfe PDF-Suche und Massenlöschung durchführen. Der Arbeitsablauf umfasst die Auswahl eines PDF-Tools, das Aufrufen der Funktion zum Suchen und Ersetzen von PDF-Schlüsselwörtern, den Import mehrerer PDFs, das Aktivieren der unscharfen Textsuche mittels Formel, das Ausfüllen der Regel April|May mit vierstelligen Zahlen und das Leerlassen des Ersetzungstextes zur Löschung.
In vielen Büroszenarien werden PDFs nicht einzeln, sondern stapelweise verarbeitet: ein Stapel Prüfberichte, ein Stapel Projektdokumente, ein Stapel öffentlicher Unterlagen, ein Stapel gescannter Vertragsarchive oder mehrere PDFs, die aus derselben Vorlage exportiert wurden. Wenn in diesen PDFs identische oder ähnliche Texte vorkommen, kann ein Bedarf an Stapelbereinigung entstehen. Beispielsweise enthalten alle PDF-Deckblätter ein Datum, bei dem der Monat oder das Jahr unterschiedlich sein kann, Sie diese Informationen jedoch einheitlich entfernen möchten.
Bei manueller Bearbeitung durchläuft man normalerweise den Kreislauf: PDF öffnen, Textstelle finden, bearbeiten oder verdecken, speichern, schließen und die nächste Datei öffnen. Bei wenigen Dateien ist das noch akzeptabel, bei vielen wird es zur typischen repetitiven Arbeit. Erschwerend kommt hinzu, dass Texte wie Daten, Nummern oder Jahreszahlen oft nicht vollständig identisch sind und eine einfache Suche nicht alle Fälle auf einmal abdecken kann.
Dieser Artikel stellt eine besser für die Stapelverarbeitung im Büro geeignete Methode vor: Verwenden Sie " HeSoft Doc Batch Tool ", um in mehreren PDFs eine unscharfe Suche mit Platzhaltern/Formeln durchzuführen und den Ersetzungstext leer zu lassen, um so PDF-Schlüsselwörter stapelweise zu löschen. Im Beispiel befinden sich 4 PDFs in einem Ordner, aus deren Deckblatt-Datum die Monatswörter und die vierstelligen Jahreszahlen gelöscht werden sollen, z. B. April und 2017 löschen, das mittige 13, aber beibehalten.
Anwendungsszenario: Stapelweises Löschen von regelmäßigen, aber nicht völlig identischen Texten in PDFs
Die unscharfe Löschung mit Platzhaltern eignet sich nicht nur für das Datumsbeispiel in diesem Artikel, sondern generell für die Verarbeitung von PDF-Texten mit „regelmäßigen Änderungen“. Die folgenden Situationen sind häufig anzutreffen:
- PDF-Deckblätter oder Kopf-/Fußzeilen enthalten Daten, und Monate, Jahre oder vollständige Daten müssen stapelweise gelöscht werden.
- Mehrere PDFs enthalten Berichtsnummern, Projektnummern oder Kundennummern, und formatierte Nummern müssen gelöscht werden.
- PDF-Inhalte enthalten alte Firmennamen, alte Abteilungsnamen oder alte Projektcodes, die einheitlich bereinigt werden müssen.
- Dokumente enthalten statistische Zeiträume verschiedener Jahre, z. B. 2017, 2018, 2021, die nach der Regel für vierstellige Zahlen verarbeitet werden müssen.
- Aus derselben Vorlage exportierte PDFs enthalten Platzhaltertexte, die stapelweise durch Leerzeichen ersetzt werden müssen.
Wenn der Zieltext völlig identisch ist, reicht eine exakte Suche aus; wenn der Zieltext mehrere mögliche Werte hat oder einem bestimmten Format folgt, ist die Option „Text unscharf mit Formel suchen“ besser geeignet. Ihr Wert liegt darin, dass der Benutzer nicht jedes mögliche konkrete Wort auflisten muss, sondern eine Textkategorie durch eine Regel beschreibt und die Software dann alle PDFs stapelweise verarbeitet.
HeSoft Doc Batch Tool ist ein Tool zur Stapeldokumentverarbeitung in Bürosoftware, dessen Schwerpunkt nicht auf der detaillierten Bearbeitung einzelner Dateien liegt, sondern darauf, Benutzern zu helfen, einheitliche Regeln auf eine große Anzahl von Dateien anzuwenden, mechanische Vorgänge zu reduzieren und die Verarbeitungseffizienz zu steigern.
Effektvorschau: PDF-Dateien und zu löschende Inhalte vor der Stapelverarbeitung
Vor der Verarbeitung befinden sich im Beispielordner 4 PDF-Dateien, nämlich 1.pdf, 2.pdf, 3.pdf, 4.pdf. Sie alle werden als Objekte dieser Stapelsuche und -ersetzung behandelt.

Beim Öffnen einer der PDFs sieht man auf dem Deckblatt das Datum April 13, 2017. Im Screenshot sind die zu löschenden Teile April und 2017 rot umrandet dargestellt. Da April ein Monatswort und 2017 eine vierstellige Jahreszahl ist, können sie jeweils mit unterschiedlichen unscharfen Übereinstimmungsregeln verarbeitet werden.

Der entscheidende Punkt hier ist: Wir möchten nicht den gesamten Inhalt des Datums löschen, sondern nur die Teile, die von den festgelegten Regeln erfasst werden. Mit anderen Worten, 13, soll nicht gelöscht werden, Monat und Jahr jedoch schon. Durch die regelbasierte Einstellung kann die Software den zu bereinigenden Inhalt präzise verarbeiten.
Ergebnis nach der Verarbeitung: Der übereinstimmende Text in der PDF wurde geleert
Nach Abschluss der Stapelverarbeitung und erneuter Ansicht der PDF-Seite ist die Stelle, an der zuvor April stand, nun leer, ebenso die Stelle von 2017, während das mittige 13, weiterhin vorhanden ist. Dieses Ergebnis entspricht den Erwartungen und zeigt, dass die unscharfe Stapellöschung wirksam war.

Vom Effekt her führt die Software eine Logik „Suchen und durch Nichts ersetzen“ aus. Solange die linke Regel einen Text im PDF findet und der rechte Ersetzungstext leer ist, wird der Löschungseffekt erzielt. Für viele Szenarien, in denen PDF-Schlüsselwörter bereinigt werden müssen, ist dies stabiler als manuelles, einzelnes Ändern und auch einfacher wiederverwendbar.
Bedienungsschritt 1: Suchen-und-Ersetzen-Funktion im PDF-Tool öffnen
Nach dem Start von HeSoft Doc Batch Tool wählen Sie zunächst links in der Werkzeugkategorie „PDF Werkzeuge“. In der Oberfläche sind mehrere stapelbezogene PDF-Funktionen sichtbar, darunter Wasserzeichen hinzufügen, Seiten löschen, Format konvertieren usw. Da es diesmal um Text in PDF-Inhalten geht, wählen Sie die erste Funktion „Schlüsselwörter in PDF suchen und ersetzen“.

Der Zweck dieser Funktion ist das stapelweise Suchen und Ersetzen von Schlüsselwörtern in PDF-Dateiinhalten. Obwohl der Name „Ersetzen“ enthält, kann sie auch zum Löschen verwendet werden, wenn das Feld für den ersetzten Inhalt leer bleibt. Das bedeutet, das Löschen von PDF-Schlüsselwörtern kann als spezielle Form des Ersetzens verstanden werden: den übereinstimmenden Text durch leeren Inhalt ersetzen.
Nach Aufruf der Funktion führt die Software durch den Prozess: Auswahl der zu verarbeitenden Datensätze, Einstellen der Verarbeitungsoptionen, Festlegen des Speicherorts, Verarbeitung starten. Dieses Prozessdesign eignet sich für die Stapelverarbeitung, da es Dateiauswahl, Regeleinstellungen und Ausgabespeicherung trennt und dem Benutzer so eine schrittweise Bestätigung ermöglicht.
Bedienungsschritt 2: Mehrere PDFs importieren und Verarbeitungsliste prüfen
Auf der Seite „Schlüsselwörter in PDF suchen und ersetzen“ müssen zunächst PDFs importiert werden. Oben rechts befinden sich die beiden gängigen Optionen „Dateien hinzufügen“ und „Dateien aus Ordner importieren“. Bei wenigen PDFs kann „Dateien hinzufügen“ verwendet werden; befinden sich alle PDFs im selben Ordner, ist „Dateien aus Ordner importieren“ in der Regel effizienter.

Im Screenshot wurden erfolgreich 4 Datensätze importiert. Die Tabelle listet Dateiname, Pfad, Erweiterung, Erstellungs- und Änderungsdatum auf, und die Zusammenfassung unten zeigt die Anzahl von 4 Datensätzen. Anhand dieser Liste kann überprüft werden, ob die zu verarbeitenden Dateien korrekt sind, um zu vermeiden, dass irrelevante PDFs in die Stapelaufgabe aufgenommen werden.
In diesem Schritt wird empfohlen, zwei Punkte sorgfältig zu prüfen: Erstens, ob die Dateierweiterungen alle pdf sind; zweitens, ob der Pfad dem Verzeichnis entspricht, das Sie verarbeiten möchten. Die Effizienz der Stapelverarbeitung ist hoch, bedeutet aber auch, dass fehlerhafte Einstellungen mehrere Dateien betreffen. Daher ist die Bestätigung der Liste vor dem nächsten Schritt sehr wichtig.
Klicken Sie nach der Bestätigung auf „Weiter“, um zur Einrichtungsseite für die Schlüsselwort-Such- und Ersetzungsregeln zu gelangen.
Bedienungsschritt 3: „Text unscharf mit Formel suchen“ auswählen
Auf der Seite „Verarbeitungsoptionen einstellen“ muss zunächst die „Suchmethode“ festgelegt werden. Die Oberfläche bietet „Text exakt suchen“ und „Text unscharf mit Formel suchen“. Soll nur ein fester Begriff gelöscht werden, z. B. in allen PDFs denselben Namen löschen, kann die exakte Suche gewählt werden. Da die Monate und Jahre in diesem Artikel jedoch Änderungsmuster aufweisen, muss „Text unscharf mit Formel suchen“ gewählt werden.

Im Screenshot ist „Text unscharf mit Formel suchen“ bereits aktiviert. Diese Methode kann als regelbasiertes Suchen von PDF-Text verstanden werden und eignet sich für das stapelweise Löschen von Schlüsselwörtern mit Platzhaltern. Sie kann mehrere mögliche Inhalte in einer Regel zusammenfassen und formatierte Texte wie Zahlen oder Jahreszahlen abgleichen.
Unter „Zusätzliche Optionen“ ist „Groß-/Kleinschreibung ignorieren“ sichtbar. Ob diese Option aktiviert wird, hängt von den tatsächlichen Dateien ab. Wenn in den PDFs Formen wie April, april, APRIL vorkommen können, erhöht das Ignorieren der Groß-/Kleinschreibung die Abdeckungsrate; wenn die Groß-/Kleinschreibung selbst eine unterscheidende Bedeutung hat, sollte sie mit Vorsicht verwendet werden.
Bedienungsschritt 4: Die zu löschenden Schlüsselwortregeln eintragen und Ersetzungsinhalt leer lassen
Tragen Sie in der „Liste der zu suchenden Schlüsselwörter“ gemäß dem Screenshot-Beispiel zwei Zeilen ein:
- April|May: bedeutet, dass April oder May gesucht wird. Geeignet, wenn mehrere mögliche Monatswörter gleichzeitig gelöscht werden sollen.
- \d{4}: bedeutet, dass vierstellige Zahlen gesucht werden. Für jahresbezogene Inhalte wie 2017, 2020, 2026 können solche Regeln zur einheitlichen Suche verwendet werden.
Der rechte Bereich ist die „Liste der ersetzten Schlüsselwörter“. Der Screenshot zeigt rot umrandet den Hinweis „Leer lassen bedeutet Löschen“. Wenn das Ziel also das Löschen von Schlüsselwörtern ist, muss kein ersetzender Inhalt eingetragen werden, der rechte Bereich bleibt einfach leer.
Dieser Schritt ist der Kern des gesamten Vorgangs. Die linke Seite bestimmt, was gesucht wird, die rechte, durch was ersetzt wird; wenn die rechte Seite leer ist, löscht die Software den links gefundenen Text. Auf diese Weise können Datumsfragmente, Jahreszahlen oder bestimmte Wörter stapelweise aus mehreren PDFs gelöscht werden.
Zu beachten ist: Je breiter die Regel, desto größer der Übereinstimmungsbereich. Beispielsweise erfasst \d{4} alle vierstelligen Zahlen, nicht unbedingt nur Jahreszahlen. Wenn das PDF auch vierstellige Nummern enthält, könnten diese ebenfalls gelöscht werden. Daher sollten Regeln in der Praxis basierend auf dem Dokumentinhalt sorgfältig entworfen und zunächst mit wenigen Dateien getestet werden.
Bedienungsschritt 5: Speicherort festlegen und Verarbeitung starten
Klicken Sie nach Abschluss der Schlüsselwortregeln auf „Weiter“ am Seitenende. Dem Prozess folgend gelangt man anschließend zu „Speicherort festlegen“ und dann zu „Verarbeitung starten“. Bei der Stapelverarbeitung von PDFs wird empfohlen, die Originaldateien nicht direkt zu überschreiben, sondern die Verarbeitungsergebnisse in einem separaten Verzeichnis zu speichern. So kann bei Bedarf an Regelanpassungen auf die Originaldateien zurückgegriffen und neu verarbeitet werden.
Nach dem Start der Verarbeitung führt die Software die Suchen-und-Ersetzen-Operation für jedes PDF in der Importliste einzeln aus. Für die 4 PDFs im Beispiel sucht die Software nach April oder May sowie nach allen Texten, die der Regel für vierstellige Zahlen entsprechen, und ersetzt diese Treffer durch Nichts. Nach Abschluss der Verarbeitung kann das Ausgabe-PDF geöffnet und überprüft werden, um zu sehen, dass Monat und Jahr gelöscht wurden.
Bei einer großen Anzahl von Dateien können Sie zuerst einige typische Dateien stichprobenartig prüfen: solche mit April, mit May, mit unterschiedlichen Jahren oder unterschiedlichem Layout. Nachdem Sie bestätigt haben, dass die Regeln stabil greifen, können Sie dieselbe Methode auf einen größeren Dateistapel anwenden.
Häufige Fragen und Hinweise
1. Was ist der Unterschied zwischen unscharfem Löschen mit Platzhaltern und normalem Suchen-und-Löschen?
Normales Suchen erfordert normalerweise eine vollständige Übereinstimmung des Schlüsselworts, z. B. nur nach April suchen. Unscharfes Suchen mit Platzhaltern oder Formeln ermöglicht dagegen einen regelbasierten Abgleich, z. B. kann April|May zwei Wörter finden, \d{4} findet vierstellige Zahlen. Bei mehreren PDFs mit nicht völlig identischem Inhalt spart die unscharfe Suche Zeit.
2. Warum bleibt nach der Verarbeitung nur 13, übrig?
Weil die Suchregeln in diesem Beispiel nur April, May und vierstellige Zahlen abdecken und 13, nicht in die Löschregeln aufgenommen wurde. Die Software verarbeitet nur übereinstimmende Texte und löscht nicht aktiv nicht übereinstimmende Inhalte, daher bleibt 13, erhalten. Dies zeigt auch die Zielgerichtetheit der Regeleinstellungen.
3. Wie sollte man vorgehen, wenn das vollständige Datum gelöscht werden soll?
Es können umfassendere Suchregeln basierend auf dem tatsächlichen Datumsformat entworfen werden. Vor der eigentlichen Verarbeitung sollte dies jedoch mit Beispieldateien validiert werden, um zu vermeiden, dass Zahlen oder Wörter mitgelöscht werden, die nicht gelöscht werden sollen. Dieser Artikel erläutert nur die im Screenshot gezeigte Methode zum Löschen von Monat und Jahr und geht nicht auf andere Schaltflächen oder erweiterte Funktionen ein, die nicht im Screenshot dargestellt sind.
4. Was tun, wenn sich PDF-Text nicht löschen lässt?
Wenn der Inhalt des PDFs in Bildform vorliegt und kein auswählbarer, kopierbarer Text ist, kann die Suchen-und-Ersetzen-Funktion möglicherweise keine Treffer finden. Es wird empfohlen, zuerst mit einem PDF-Reader zu versuchen, den Text auszuwählen. Lässt er sich nicht auswählen, handelt es sich wahrscheinlich nicht um eine normale Textebene, und es müssen je nach Dateityp andere Verarbeitungsmethoden gewählt werden.
5. Beeinträchtigt die Stapelverarbeitung das ursprüngliche Layout?
Nach dem Suchen und Ersetzen durch Leerzeichen wird die Position des Originaltextes leer, andere Seiteninhalte bleiben in der Regel an ihrer ursprünglichen Position. Da das PDF-Layout komplex ist, können die Ergebnisse je nach Datei variieren. Daher sollten die Seiten nach der Verarbeitung stichprobenartig überprüft werden, insbesondere Deckblatt, Kopf-/Fußzeilen und tabellennahe Bereiche.
Zusammenfassung: Die repetitive PDF-Textbereinigung dem Stapelverarbeitungstool überlassen
Der Schlüssel zum stapelweisen Löschen von Schlüsselwörtern in mehreren PDFs liegt nicht darin, wie eine einzelne Datei geändert wird, sondern wie dieselben Regeln stabil auf einen Stapel Dateien angewendet werden. Die von HeSoft Doc Batch Tool bereitgestellte Funktion „Schlüsselwörter in PDF suchen und ersetzen“ kann durch „Text unscharf mit Formel suchen“ einen platzhalterartigen Abgleich realisieren und durch Leerlassen des Ersetzungsinhalts die Löschung erreichen.
Im Beispiel dieses Artikels wurden zunächst 4 PDFs importiert, dann die zwei Suchregeln April|May und \d{4} eingetragen und schließlich die Liste der ersetzten Schlüsselwörter leer gelassen, um Monate und vierstellige Jahreszahlen stapelweise aus den PDFs zu löschen. Für Benutzer, die häufig Berichte, Verträge, Archivmaterialien oder zur Veröffentlichung bestimmte PDFs verarbeiten, kann diese Methode den Zeitaufwand für wiederholtes Öffnen und manuelles Editieren erheblich reduzieren.
Es wird empfohlen, vor der Anwendung eine Sicherung der Originaldateien zu erstellen, die Platzhalterregeln mit einer kleinen Menge PDFs zu testen und erst nach Bestätigung der Korrektheit den gesamten Ordner stapelweise zu verarbeiten. So können Sie die Effizienz der Stapelverarbeitung der Bürosoftware nutzen und gleichzeitig das Risiko von Fehllöschungen minimieren.