In diesem Artikel wird beschrieben, wie Sie mit HeSoft Doc Batch Tool die Funktion „Suchen und Ersetzen von Schlüsselwörtern in PDFs“ verwenden, um eine Platzhalter-basierte unscharfe Suche in mehreren PDF-Dateien durchzuführen und die gefundenen Inhalte stapelweise zu löschen. Im Beispiel müssen vier PDF-Dateien verarbeitet werden. Ziel ist es, die englischen Monate April oder May sowie vierstellige Jahreszahlen auf den PDF-Seiten zu löschen. Der Artikel kombiniert Screenshots des Zustands vor und nach der Verarbeitung sowie der Bedienschritte und erläutert, wie PDFs importiert, eine Formel für die unscharfe Suche ausgewählt, ein Schlüsselwort-Ausdruck eingegeben und der Ersatzinhalt leer gelassen wird, um die Löschung zu erreichen. Zudem wird der Benutzer an die Datensicherung sowie die Unterschiede zwischen textbasierten und gescannten PDFs erinnert.
Im täglichen Büroalltag werden PDF-Dateien häufig zur Archivierung von Berichten, Verträgen, Mitteilungen, Anleitungen und Projektunterlagen verwendet. Das Problem ist, dass PDFs sich nicht so einfach direkt stapelweise bearbeiten lassen wie Word-, docx- oder doc-Dokumente. Sobald dieselbe Art sensibler Informationen, Datumsfelder, Versionsmarkierungen oder fester Schlüsselwörter in Dutzenden oder sogar Hunderten von PDFs auftaucht, wäre das einzelne Öffnen, Suchen und Löschen sehr zeitaufwändig und zudem anfällig für versehentliches Übersehen.
Dieser Artikel löst ein sehr typisches Problem der Stapelverarbeitung im Büro: die stapelweise Löschung von Schlüsselwörtern in mehreren PDF-Dateien durch Platzhalter oder formelbasierte Fuzzy-Suche. Im Beispiel gibt es 4 PDF-Dateien, die jeweils Datumsinhalte wie „April 13, 2017“ enthalten. Wir möchten die englischen Monatsnamen „April“ oder „May“ sowie die vierstellige Jahreszahl wie „2017“ löschen, aber die mittlere Tageszahl „13,“ beibehalten. Bei manueller Bearbeitung müssten 4 PDFs einzeln geöffnet und die Inhalte lokalisiert werden; bei einer größeren Dateianzahl würde sich die wiederholte Arbeit um ein Vielfaches erhöhen.
Mit der im Screenshot gezeigten Bürosoftware „ HeSoft Doc Batch Tool “ können mehrere PDF-Dateien auf einmal einer Aufgabe hinzugefügt werden. Über die Funktion „Suchen und Ersetzen von Schlüsselwörtern in PDF“ wählt man „Formelbasierte Fuzzy-Textsuche verwenden“ und lässt die Liste der zu ersetzenden Schlüsselwörter leer, um so den Effekt der stapelweisen Löschung übereinstimmender Inhalte zu erzielen. Der Kernnutzen solcher Werkzeuge liegt nicht in der Bearbeitung einzelner Dateien, sondern in der stapelweisen Verarbeitung, die wiederholte Vorgänge reduziert und die Effizienz bei der Bearbeitung von Bürodateien wie PDF, Word, Excel, PowerPoint steigert.
Anwendungsszenarien: Wann ist die stapelweise Fuzzy-Löschung von PDF-Schlüsselwörtern erforderlich?
Die stapelweise Löschung von Schlüsselwörtern in PDFs eignet sich für Szenarien mit regelmäßig formatierten Inhalten, einer großen Anzahl von Dateien und hohem manuellem Änderungsaufwand. Besonders praktisch sind Platzhalter oder formelbasierte Fuzzy-Suche, wenn es sich bei den zu löschenden Inhalten nicht um ein völlig feststehendes Wort, sondern um eine Klasse ähnlicher Texte handelt.
Beispielsweise erscheinen auf vielen PDF-Deckblättern oder in Kopfzeilen Datumsangaben wie „April 13, 2017“ oder „May 08, 2020“. Bei Verwendung einer einfachen exakten Suche müsste man alle möglichen Daten einzeln auflisten; mit einem Ausdruck wie „April|May“ hingegen lassen sich mehrere Kandidatenwörter auf einmal abgleichen. Ähnlich verhält es sich mit Jahreszahlen, die typischerweise vierstellig sind; mit einem Muster wie „\d{4}“ lassen sich vier aufeinanderfolgende Ziffern abgleichen und somit unterschiedliche Jahreszahlen in verschiedenen Dateien löschen.
Diese Art der Operation eignet sich für folgende Büroszenarien:
- Stapelweise Löschung variabler Felder wie Daten, Jahre, Monate auf PDF-Berichtsdeckblättern.
- Stapelweise Bereinigung alter Versionsnummern, alter Projektnummern oder Chargennummern in mehreren PDF-Verträgen.
- Stapelweise Löschung bestimmter fester sensibler Wörter, interner Markierungen oder temporärer Anmerkungen in öffentlichen Materialien.
- Stapelweise Verarbeitung wiederholter Schlüsselwörter in englischen und chinesischen PDFs zur Reduzierung manueller Suche und Änderung.
- Einheitliche Inhaltsbereinigung mehrerer PDF-Dateien vor der Archivierung, dem externen Versand oder der Datenmaskierung.
Wenn Ihre Aufgabe das „Löschen eines festen Wortes“ ist, reicht die exakte Suche aus; wenn Ihre Aufgabe das „Löschen einer Klasse regelmäßiger Texte“ ist, wie z.B. englische Monate, vierstellige Jahreszahlen, Nummern, Betragsformate, Versionsnummern usw., ist die formelbasierte Fuzzy-Suche besser geeignet.
Ergebnisvorschau: Welche Änderungen ergeben sich vor und nach der Verarbeitung?
Vor der Verarbeitung: Mehrere PDF-Dateien müssen einheitlich bereinigt werden.
Vor der Verarbeitung befinden sich im Ordner vier PDF-Dateien: 1.pdf, 2.pdf, 3.pdf und 4.pdf. Sie alle erfordern die gleiche Inhaltsbearbeitung. Würde man jede PDF einzeln öffnen und Monat und Jahr manuell suchen und löschen, wäre dies nicht nur repetitiv, sondern es wäre auch schwer zu gewährleisten, dass jede Datei konsistent bearbeitet wird.

Vom Inhalt der PDF-Seite her enthalten die Beispieldateien Daten wie „April 13, 2017“. Der Screenshot markiert mit roten Rahmen die zwei zu löschenden Inhaltsarten: den englischen Monatsnamen „April“ und die vierstellige Jahreszahl „2017“. Die mittlere „13,“ ist nicht Ziel dieser Löschung, daher wird eine präzisere Regel benötigt, um nur die abgeglichenen Monate und Jahre zu löschen.

Nach der Verarbeitung: Die abgeglichenen Monate und Jahre werden gelöscht.
Nach Abschluss der Verarbeitung öffnet man die PDFs erneut und sieht, dass die Stelle von „April“ nun leer ist und die Stelle von „2017“ ebenfalls bereinigt wurde, während die mittlere „13,“ erhalten bleibt. Dies zeigt, dass diese Stapelverarbeitung nicht das gesamte Datum löscht, sondern gemäß den festgelegten Fuzzy-Matching-Regeln den spezifizierten Texttyp löscht.

Dieser Effekt eignet sich hervorragend für PDF-Stapelverarbeitungsaufgaben, die eine „partielle Löschung“ erfordern. Der Benutzer kann Inhalte mit gemeinsamen Gesetzmäßigkeiten durch Formelabgleich finden und dann durch leeres Ersetzen löschen, wodurch die manuelle Bearbeitung jeder einzelnen Datei vermieden wird.
Bedienungsschritte: Platzhalter zum stapelweisen Löschen von Schlüsselwörtern in mehreren PDFs verwenden
Schritt 1: PDF-Werkzeug aufrufen und „Suchen und Ersetzen von Schlüsselwörtern in PDF“ wählen
Nach dem Öffnen von HeSoft Doc Batch Tool sieht man auf der linken Seite verschiedene Kategorien der Bürobearbeitung, wie z.B. Word-Tools, Excel-Tools, PowerPoint-Tools, PDF-Tools usw. Da es sich diesmal um PDF-Dateien handelt, geht man zunächst in die Kategorie „PDF-Tools“.
In der Liste der PDF-Tools wählt man „Suchen und Ersetzen von Schlüsselwörtern in PDF“. Aus der Oberflächenbeschreibung geht hervor, dass diese Funktion zum stapelweisen Suchen und Ersetzen von Schlüsselwörtern im Inhalt von PDF-Dateien dient. Obwohl das Beispiel in diesem Artikel „Schlüsselwörter löschen“ heißt, wird dies im Wesentlichen durch „Suchen und durch Nichts ersetzen“ erreicht, d.h. nach dem Auffinden des Zielinhalts wird kein neuer Ersetzungstext geschrieben, wodurch der Löscheffekt erzielt wird.

Das Ziel dieses Schrittes ist der Aufruf des korrekten Moduls für die Stapelverarbeitungsfunktion. Das erwartete Ergebnis ist das Öffnen einer geführten Verarbeitungsseite, auf der man anschließend die Aufgabe in der Reihenfolge „Datensätze wählen, Verarbeitungsoptionen festlegen, Speicherort wählen, Verarbeitung starten“ abschließen kann.
Schritt 2: Die zu verarbeitenden PDF-Dateien hinzufügen
Nach dem Aufrufen der Funktionsseite ist der erste Schritt „Wählen der zu verarbeitenden Datensätze“. Oben rechts auf der Oberfläche sieht man Schaltflächen wie „Dateien hinzufügen“, „Dateien aus Ordner importieren“, „Leeren“, „Mehr“ usw. Für wenige PDFs kann man „Dateien hinzufügen“ klicken und sie einzeln auswählen; befinden sich die PDFs alle im selben Ordner, kann man „Dateien aus Ordner importieren“ verwenden, was besser für die Stapelverarbeitung geeignet ist.
Im Beispiel wurden bereits 4 PDF-Dateien importiert, die Liste zeigt Dateiname, Pfad, Erweiterung, Erstellungs- und Änderungsdatum. Die Dateien umfassen 1.pdf, 2.pdf, 3.pdf, 4.pdf, der Pfad befindet sich im Testverzeichnis auf Laufwerk D. Die Zusammenfassung unten zeigt eine Datensatzanzahl von 4, was bedeutet, dass diese Aufgabe diese 4 PDFs gleichzeitig verarbeiten wird.

Das Ziel dieses Schrittes ist es, alle PDFs, bei denen Schlüsselwörter stapelweise gelöscht werden sollen, zur Aufgabenliste hinzuzufügen. Das erwartete Ergebnis ist, dass in der Dateiliste alle Ziel-PDFs sichtbar sind und die Datensatzanzahl korrekt ist. Wurde versehentlich eine Datei hinzugefügt, kann sie über das Löschsymbol rechts in der Liste entfernt werden; bei Bedarf kann man auch „Leeren“ und einen erneuten Import durchführen.
Schritt 3: Verarbeitungsoptionen aufrufen und „Formelbasierte Fuzzy-Textsuche verwenden“ wählen
Nachdem die Dateiliste bestätigt wurde, klickt man unten auf der Seite auf „Weiter“ und gelangt zu „Verarbeitungsoptionen festlegen“. Im Bereich „Schlüsselwortoptionen festlegen“ sieht man die „Suchmethode“. Hier gibt es die Auswahlmöglichkeiten „Exakte Textsuche“ und „Formelbasierte Fuzzy-Textsuche verwenden“.
Da es bei dieser Aufgabe nicht darum geht, nur einen festen Text zu löschen, sondern „April oder May“ sowie beliebige vierstellige Jahreszahlen, muss „Formelbasierte Fuzzy-Textsuche verwenden“ gewählt werden. Diese Option eignet sich für die Verarbeitung von Texten mit bestimmten Gesetzmäßigkeiten, wie z.B. mehreren Kandidatenwörtern, Nummern mit fester Stellenzahl, Jahreszahlen in Daten usw.

Das Ziel dieses Schrittes ist es, die Software anzuweisen, PDF-Inhalte nach flexibleren Regeln zu suchen und nicht nur nach exakt übereinstimmenden Zeichenketten. Das erwartete Ergebnis ist, dass die Software nach dem späteren Ausfüllen von Formeln oder Platzhalterausdrücken in der Schlüsselwortliste den entsprechenden Text gemäß den Regeln abgleichen kann.
Schritt 4: Die zu löschenden Schlüsselwortregeln ausfüllen
In der „Liste der zu suchenden Schlüsselwörter“ wurden im Beispiel zwei Zeilen eingetragen. Die erste Zeile ist „April|May“, die zweite ist „\d{4}“. Aus dem Anwendungskontext verstanden, dient „April|May“ zum Abgleich der beiden englischen Monatsnamen April oder May; „\d{4}“ dient zum Abgleich von vier aufeinanderfolgenden Ziffern, also gängigen Jahresformaten wie 2017, 2020, 2026 usw.
Entscheidend ist hier: Betrachten Sie die Beispieltexte im Screenshot nicht einfach als feste Vorgabe, sondern passen Sie die Regeln an Ihre eigenen PDF-Inhalte an. Wenn in Ihren PDFs January, February, March gelöscht werden sollen, können Sie diese Monate ebenfalls in die Regel schreiben; soll eine bestimmte Art von Nummer gelöscht werden, können Sie einen zur Nummerngesetzmäßigkeit passenden Ausdruck verwenden.
Im Beispiel wurde „Groß-/Kleinschreibung ignorieren“ nicht angekreuzt, was bedeutet, dass die Groß-/Kleinschreibung das Abgleichergebnis beeinflussen kann. Wenn in der PDF sowohl „April“ als auch „april“ vorkommt, muss der Benutzer je nach tatsächlicher Situation entscheiden, ob die Option zum Ignorieren der Groß-/Kleinschreibung aktiviert werden soll oder ob die verschiedenen Schreibweisen separat eingetragen werden.
Schritt 5: Die Liste der zu ersetzenden Schlüsselwörter leer lassen, um die Löschung zu realisieren
Auf der rechten Seite sieht man die „Liste der zu ersetzenden Schlüsselwörter“, daneben den roten Hinweis „Leer lassen bedeutet Löschen“. Genau dies ist die Schlüsseloperation in diesem Artikel: Wenn die gefundenen Inhalte gelöscht werden sollen, muss kein neuer Ersetzungstext eingegeben werden, sondern die rechte Seite kann einfach leer bleiben.
Die Verarbeitungslogik lautet also: Suche in der PDF nach „April oder May“ und ersetze den Fund durch Nichts; suche dann nach vier aufeinanderfolgenden Ziffern und ersetze auch diese durch Nichts. Nach dieser Verarbeitung werden die ursprünglichen englischen Monatsnamen und Jahreszahlen bereinigt, während Inhalte, die nicht den Regeln entsprechen, erhalten bleiben.
Das Ziel dieses Schrittes ist die Umwandlung von „Stapelersetzung“ in „Stapellöschung“. Das erwartete Ergebnis ist, dass in der verarbeiteten PDF alle Texte, die den Regeln entsprechen, nicht mehr angezeigt werden.
Schritt 6: Weiter klicken, Speicherort festlegen und Verarbeitung starten
Nachdem die Suchregeln und die Löschmethode festgelegt wurden, klickt man auf „Weiter“. Im weiteren Ablauf der Benutzeroberfläche folgen noch die Phasen „Speicherort festlegen“ und „Verarbeitung starten“. Auch wenn der Screenshot die Seite für den Speicherort nicht zeigt, kann man anhand der Assistentenschritte logisch schließen, dass der Benutzer den Anweisungen der Oberfläche folgen muss, um den Speicherort für die verarbeiteten Dateien auszuwählen und dann in die Phase des Verarbeitungsstarts zu gelangen.
Es wird empfohlen, vor der eigentlichen Verarbeitung ein neues Ausgabeverzeichnis zu wählen oder zumindest sicherzustellen, dass ein Backup der Originaldateien vorhanden ist. Der Vorteil der Stapelverarbeitung liegt in der gleichzeitigen Verarbeitung mehrerer Dateien, bedeutet aber auch, dass bei fehlerhaften Regeln mehrere Dateien gleichzeitig betroffen sind. Daher sollte man vor der Verarbeitung einer großen Anzahl von PDFs am besten zuerst die Wirkung mit 1 bis 2 Beispieldateien testen und bestätigen, dass der Löschumfang korrekt ist, bevor man die Stapelausführung startet.
Nach Abschluss der Verarbeitung öffnet man die Ausgabe-PDFs zur Überprüfung. Die Ergebnisse im Beispiel zeigen, dass die Positionen von Monat und Jahr nun leer sind, während „13,“ erhalten bleibt, was die Wirksamkeit der Regel belegt.
Häufige Fragen und wichtige Hinweise
1. Warum formelbasierte Fuzzy-Suche statt exakter Suche verwenden?
Die exakte Suche eignet sich zum Löschen völlig identischer Inhalte, z.B. wenn in allen PDFs die vier Zeichen „内部资料“ gelöscht werden sollen. Variieren die zu löschenden Inhalte jedoch, wie z.B. verschiedene Monate, verschiedene Jahre, verschiedene Nummern, müsste man bei exakter Suche viele Texte auflisten. Die formelbasierte Fuzzy-Suche kann eine Klasse von Texten durch Regeln beschreiben und eignet sich daher für die stapelweise Löschung variabler Schlüsselwörter in PDFs.
2. Warum kann die „Liste der zu ersetzenden Schlüsselwörter“ leer bleiben?
Wie der Hinweis im Screenshot zeigt, „bedeutet Leer lassen Löschen“. Das bedeutet, dass die Software nach dem Auffinden des Zieltextes keinen Ersetzungsinhalt schreibt, was einer Leerung des Zieltextes entspricht. Für die stapelweise Löschung von PDF-Schlüsselwörtern ist dies eine sehr direkte Vorgehensweise.
3. Ist die Verarbeitung gescannter PDFs immer effektiv?
Wenn der Text in der PDF selbst auswählbarer und kopierbarer Text ist, funktioniert das Suchen und Ersetzen in der Regel leichter. Handelt es sich bei der PDF um gescannte Bilder, könnten die Zeichen auf der Seite nur Bildinhalte sein, die von der Textsuchfunktion möglicherweise nicht erkannt werden. Bei gescannten Dokumenten empfiehlt es sich, zuerst mit wenigen Dateien zu testen, um zu bestätigen, ob der Zieltext abgeglichen werden kann.
4. Welche Auswirkungen haben fehlerhaft geschriebene Regeln?
Zu breit gefasste Regeln könnten Inhalte löschen, die nicht gelöscht werden sollten. Beispielsweise würde „\d{4}“ alle aufeinanderfolgenden vierstelligen Ziffern abgleichen, die nicht nur Jahreszahlen, sondern auch Teile einer Nummer sein könnten. Daher sollte man vor der Verarbeitung die PDF-Inhalte prüfen und bestätigen, dass solche Regeln nicht versehentlich andere wichtige Informationen beeinträchtigen.
5. Ist vor der Stapelverarbeitung ein Backup erforderlich?
Ein Backup wird empfohlen. Die Effizienz der Stapelverarbeitung ist hoch, dennoch sollte man vorsichtig vorgehen. Insbesondere bei wichtigen Dokumenten wie Verträgen, formellen Berichten, Archivdateien ist es ein sichererer Büroablauf, zuerst die Originaldateien aufzubewahren und dann die neuen, verarbeiteten Dateien auszugeben.
Zusammenfassung: Reduzierung repetitiver PDF-Löschaufgaben mit Stapelverarbeitungswerkzeugen
Der Kerngedanke der stapelweisen Löschung von PDF-Schlüsselwörtern ist nicht kompliziert: Zuerst mehrere PDF-Dateien zur Aufgabe hinzufügen, dann „Suchen und Ersetzen von Schlüsselwörtern in PDF“ verwenden, „Formelbasierte Fuzzy-Textsuche verwenden“ wählen, in der Liste der zu suchenden Schlüsselwörter die Abgleichregeln eintragen und schließlich den Ersetzungsinhalt leer lassen, um die stapelweise Löschung zu realisieren.
Im Beispiel dieses Artikels wurden durch die beiden Regeln „April|May“ und „\d{4}“ die englischen Monatsnamen und vierstelligen Jahreszahlen in mehreren PDFs stapelweise gelöscht. Im Vergleich zum einzelnen Öffnen und manuellen Suchen in jeder PDF kann diese Methode die repetitiven Arbeiten erheblich reduzieren und eignet sich besonders für die Verarbeitung einer großen Anzahl von Bürodateien mit ähnlichem Inhaltsformat.
Wenn Sie häufig wiederholte Inhalte in Dateien wie PDF, docx, doc, xlsx, pptx usw. bereinigen müssen, können Sie vorrangig die Verwendung von Bürosoftware wie HeSoft Doc Batch Tool in Betracht ziehen, um die repetitiven Vorgänge dem Stapelverarbeitungsprozess zu überlassen. Es wird empfohlen, die Regeln zunächst mit Beispieldateien zu testen und dann die Stapelaufgabe für den gesamten Ordner auszuführen. So lässt sich die Effizienz steigern und gleichzeitig das Risiko von Fehllöschungen verringern.