Wenn mehrere PDFs dieselben sensiblen Wörter, Daten, alten Nummern oder Informationen enthalten, die nicht veröffentlicht werden sollen, ist das manuelle Löschen einzeln ineffizient und fehleranfällig. Dieser Artikel stellt die Methode zur Batch-Entfernung von PDF-Text mithilfe von HeSoft Doc Batch Tool vor: Rufen Sie zunächst die Such- und Ersetzungsfunktion im PDF-Tool auf, importieren Sie mehrere PDF-Dateien, geben Sie dann die zu entfernenden Schlüsselwörter zeilenweise ein und lassen Sie den Ersatztext leer. Auf diese Weise können die angegebenen Texte in den PDFs batchweise gelöscht werden. Dies eignet sich für Büroszenarien wie Datenmaskierung in Berichten, Überprüfungen vor der Veröffentlichung und Vorlagenbereinigung.
Vor der externen Versendung von Materialien, der Projektarchivierung, der Vertragsausfertigung oder der Berichtsveröffentlichung tritt häufig ein kniffliges Problem auf: In mehreren PDFs befinden sich Texte, die nicht erhalten bleiben sollen. Dazu gehören beispielsweise feste Daten, interne Codenamen, sensible Wörter, Kundennamen oder alte Versionsjahre. Bei wenigen Dateien mag es noch machbar sein, die PDFs manuell zu öffnen und mit der Suchfunktion zu lokalisieren, um sie dann einzeln zu bearbeiten. Wenn jedoch viele Dateien und viele Seiten betroffen sind, ist das manuelle Löschen von PDF-Text nicht nur zeitaufwendig, sondern es können auch Löschungen übersehen werden, was die Konformität und Lieferqualität der Dateien beeinträchtigt.
Dieser Artikel befasst sich mit dem Thema „Massenbereinigung sensibler Wörter und Daten in PDFs“ und demonstriert, wie Sie mit HeSoft Doc Batch Tool angegebene Texte aus mehreren PDFs massenhaft löschen. Diese Software gehört zu den Büroanwendungen für die Massenverarbeitung von Dateien und eignet sich dafür, sich wiederholende, mechanische und fehleranfällige Dokumentenverarbeitungsaufgaben zentral zu erledigen. In diesem Beispiel werden wir für 4 PDF-Dateien denselben Satz von Schlüsselwörtern löschen und die Wörter „April“ und „2017“ aus den PDF-Seiten entfernen.
Anwendbare Szenarien: PDF-Anonymisierung, Datenbereinigung und Entfernung alter Inhalte
Die Massenlöschung von PDF-Schlüsselwörtern ist nicht nur auf englische Daten im Beispiel beschränkt. Überall dort, wo in mehreren PDFs derselbe Text vorhanden ist und Sie diesen vereinheitlicht bereinigen möchten, lässt sich eine ähnliche Methode anwenden. Häufige Szenarien sind: das Entfernen interner Projektnamen aus externen Materialien; das Entfernen alter Daten aus Berichtstitelseiten oder -fußzeilen; das Entfernen von Testfeldern aus Vertragsanhängen; das Entfernen von persönlichen Namen, Telefonnummern und Kennnummern aus öffentlichen Dokumenten; die vereinheitlichte Bereinigung von wasserzeichenartigen Texten oder festen Hinweisen vor der Archivierung.
Es ist wichtig zu beachten, dass es hier um das Löschen von Text-Schlüsselwörtern in PDFs geht, nicht um das Löschen von PDF-Seiten und auch nicht um das Konvertieren von PDFs in Word, docx oder doc zur anschließenden Bearbeitung. Das Suchen und Ersetzen direkt im Rahmen der PDF-Stapelverarbeitung durchzuführen, ist in der Regel besser geeignet, um das ursprüngliche PDF-Format, das Seitenlayout und die Dateistruktur zu erhalten.
Aus dem Screenshot der Dateien vor der Verarbeitung geht hervor, dass es sich bei den vorbereiteten Dateien um 4 PDFs mit den Namen 1.pdf, 2.pdf, 3.pdf und 4.pdf handelt. Sie gehören zu einer einheitlichen Dateigruppe. Würde man sie einzeln bearbeiten, müsste man sie viermal öffnen, durchsuchen, ändern und speichern; mit einem Massenverarbeitungswerkzeug muss man die Schlüsselwortregeln nur einmal konfigurieren.

Zustand vor der Verarbeitung: Auf den PDF-Seiten befindet sich zu löschender Text
Öffnet man die PDF vor der Verarbeitung, sieht man auf der Seite Datumsangaben wie „April 13, 2017“. Im Screenshot wurden „April“ und „2017“ rot eingerahmt und mit Pfeilen als die Zielwörter markiert, die in diesem Schritt gelöscht werden sollen. Das bedeutet, wir löschen nicht den gesamten Datumsbereich, sondern nur diese beiden angegebenen Schlüsselwörter.
Diese schlüsselwortbasierte Vorgehensweise ist präziser. In manchen Fällen müssen beispielsweise die Tageszahl, Satzzeichen oder andere Texte eines Datums erhalten bleiben, und es sollen nur Monat und Jahr gelöscht werden. Im Beispiel steht „13,“ nicht auf der Schlüsselwortliste und wird daher nach der Verarbeitung beibehalten.

Zustand nach der Verarbeitung: Angegebener Text wurde gelöscht, anderer Inhalt bleibt erhalten
Betrachtet man die PDF nach Abschluss der Verarbeitung, zeigt sich, dass die Stellen, an denen ursprünglich „April“ und „2017“ standen, nun leer sind, während das „13,“ dazwischen weiterhin vorhanden ist. Die rot eingerahmten leeren Bereiche zeigen an, dass die Schlüsselwörter durch leeren Inhalt ersetzt wurden. Dies ist der tatsächliche Effekt der massenhaften Löschung angegebener Texte in PDFs.
Für Benutzer, die PDFs anonymisieren müssen, ist dieses Ergebnis sehr anschaulich: Sensible Wörter wurden entfernt, Nicht-Zielinhalte wurden nicht vollständig entfernt. Im Vergleich zur manuellen Markierung und Löschung oder Abdeckung durch Screenshots eignet sich das massenhafte Ersetzen von Schlüsselwörtern durch leeren Inhalt viel besser für die einheitliche Verarbeitung einer großen Anzahl von Dateien.

Schritt 1: Suchen und Ersetzen in den PDF-Werkzeugen finden
Nach dem Start von HeSoft Doc Batch Tool wählen Sie zunächst im linken Navigationsbereich PDF-Werkzeuge aus. Die Benutzeroberfläche listet nun mehrere Massenverarbeitungsfunktionen für PDFs auf. Da es diesmal um das Löschen angegebener Texte in PDFs geht, wählen Sie den ersten Punkt Schlüsselwörter in PDF suchen und ersetzen.
Ziel dieses Schritts ist es, die Funktionsseite aufzurufen, die PDF-Text erkennen und Ersetzungsregeln darauf anwenden kann. Da das „Löschen von Schlüsselwörtern“ im Wesentlichen einem „Ersetzen der Schlüsselwörter durch nichts“ entspricht, ist die Verwendung der Funktion "Suchen und Ersetzen" hierfür am besten geeignet. Die betreffende Funktionskarte ist im Screenshot hervorgehoben, was zeigt, dass der korrekte Einstieg gefunden wurde.

Schritt 2: Die PDF-Dateien importieren, deren sensible Wörter bereinigt werden sollen
Auf der geöffneten Funktionsseite zeigt die Software oben einen Schritt-für-Schritt-Ablauf: Wählen Sie die zu verarbeitenden Datensätze, legen Sie die Verarbeitungsoptionen fest, legen Sie den Speicherort fest und starten Sie die Verarbeitung. Zuerst importieren Sie die Dateien im 1. Schritt. Oben rechts auf der Benutzeroberfläche sehen Sie die beiden Schaltflächen Dateien hinzufügen und Dateien aus Ordner importieren.
Wenn sich die zu verarbeitenden PDFs an unterschiedlichen Orten befinden, können Sie mit "Dateien hinzufügen" einzeln auswählen; befinden sich die PDFs alle im selben Ordner, ist der Import mit "Dateien aus Ordner importieren" schneller. Nach dem Import zeigt die Dateiliste Details wie Nummer, Name, Pfad, Erweiterung, Erstellungsdatum und Änderungsdatum an. Im Screenshot wurden bereits erfolgreich 4 PDF-Dateien importiert, und die Zusammenfassung unten zeigt 4 Datensätze an.
In diesem Schritt wird empfohlen, die Dateinamen und -pfade in der Liste sorgfältig zu überprüfen, um sicherzustellen, dass keine falschen Dateien importiert wurden. Die Massenverarbeitung ist sehr effizient, bedeutet aber auch, dass die Regeln auf alle Dateien in der Liste angewendet werden. Daher ist die Dateikontrolle vor dem Start sehr wichtig.

Schritt 3: Die zu löschenden PDF-Texte in die Schlüsselwortliste eintragen
Nachdem die Dateien bestätigt sind, klicken Sie unten auf Weiter, um die Seite mit den Verarbeitungsoptionen aufzurufen. Hier sehen Sie die Bereiche „Suchmethode“, „Zusätzliche Optionen“, „Liste der gesuchten Schlüsselwörter“ und „Liste der ersetzenden Schlüsselwörter“.
Im Beispiel wurde als Suchmethode Text genau suchen gewählt, dies eignet sich zum Löschen eindeutiger, fester Textinhalte. In der linken „Liste der gesuchten Schlüsselwörter“ sind zwei Zeilen eingetragen: April und 2017. Die rechte „Liste der ersetzenden Schlüsselwörter“ ist leer, und der Hinweis besagt: „Nichts eingeben bedeutet Löschen“. Die Software wird also bei der Verarbeitung in den PDFs nach „April“ und „2017“ suchen und diese durch leeren Inhalt ersetzen.
Wenn in Ihrem tatsächlichen Bedarf mehrere sensible Wörter gelöscht werden sollen, können Sie diese zeilenweise in die linke Liste schreiben. Tragen Sie beispielsweise in die erste Zeile den Kundennamen, in die zweite die Projektnummer und in die dritte ein Datum ein. Solange die Ersetzungsliste leer bleibt, bedeutet dies, dass all diese Inhalte gelöscht werden sollen. Wenn Sie nicht löschen, sondern durch anderen Text ersetzen möchten, müssen Sie in der rechten Spalte den entsprechenden neuen Inhalt eintragen. Da der Schwerpunkt dieses Tutorials aber auf der Massenlöschung liegt, lassen Sie das Feld einfach leer.

Schritt 4: An neuem Speicherort speichern und Massenlöschung ausführen
Nachdem Sie die Schlüsselwörter festgelegt haben, klicken Sie weiter auf Weiter. Gemäß dem Ablauf in der Benutzeroberfläche müssen Sie anschließend den Speicherort festlegen und dann die Verarbeitung starten. Es wird empfohlen, die Verarbeitungsergebnisse in einem neuen Ausgabeordner zu speichern und nicht direkt mit den ursprünglichen Verzeichnissen zu vermischen. Dies erleichtert den Vergleich der Dateien vor und nach der Verarbeitung und ermöglicht es, die Original-PDFs aufzubewahren, falls Probleme entdeckt werden.
Nach dem Start der Verarbeitung führt HeSoft Doc Batch Tool die Aufgaben nacheinander gemäß der Reihenfolge in der Aufgabenliste aus. Auf jede PDF werden dieselben Schlüsselwort-Löschregeln angewendet. Öffnen Sie nach Abschluss der Verarbeitung die Ausgabe-PDFs und überprüfen Sie, ob die Zielwörter gelöscht wurden. Kontrollieren Sie stichprobenartig verschiedene Dateien und Seiten, um die Stabilität des Massenlöschergebnisses sicherzustellen.
Häufig gestellte Fragen: Was ist vor der Massenlöschung von PDF-Text zu prüfen?
1. Ändert das Löschen von PDF-Schlüsselwörtern das Seitenlayout?
Nach dem im Beispiel gezeigten Ergebnis werden die Positionen der Schlüsselwörter leer, anderer Text bleibt erhalten. Da die Textstruktur je nach PDF unterschiedlich sein kann, wird empfohlen, zunächst mit einer Kopie zu testen und erst dann die offiziellen Dateien stapelweise zu verarbeiten, wenn die Seitendarstellung den Erwartungen entspricht.
2. Was passiert, wenn dasselbe Wort mehrfach in einer PDF vorkommt – wird es dann überall gelöscht?
Operationen vom Typ "Suchen und Ersetzen" werden normalerweise für alle gefundenen Schlüsselwörter ausgeführt. Um versehentliche Löschungen zu vermeiden, wird empfohlen, die Schlüsselwörter so spezifisch wie möglich zu wählen. Das Löschen von „2017“ würde beispielsweise alle Stellen beeinflussen, an denen 2017 vorkommt. Wenn nur ein bestimmter fester Bereich bearbeitet werden soll, muss zuerst geprüft werden, ob der Dateiinhalt für die globale Schlüsselwortlöschung geeignet ist.
3. Was ist mit englischer Groß- und Kleinschreibung?
Auf der Einstellungsseite gibt es eine Option „Groß-/Kleinschreibung ignorieren“. Wenn Sie möchten, dass April, april und APRIL gleichermaßen erkannt werden, können Sie diese Option bei Bedarf aktivieren; wenn nur die exakt übereinstimmende Schreibweise gelöscht werden soll, lassen Sie die Suche auf exakter Übereinstimmung.
4. Warum wird in manchen PDFs der Text nicht gefunden?
Einige PDFs sind gescannte Bilder. Die Seiten scheinen Text zu enthalten, aber in Wirklichkeit gibt es keine editierbare oder durchsuchbare Textebene. Wenn Sie auf solche Dateien stoßen, versuchen Sie zuerst, die Schlüsselwörter in einem PDF-Reader zu suchen. Wenn sie dort nicht gefunden werden können, kann eine massenhafte Suche und Ersetzung möglicherweise auch keine direkten Treffer erzielen.
5. Wäre es besser, zuerst in Word zu konvertieren und dann zu löschen?
Wenn Sie nur feste Schlüsselwörter löschen, ist die massenhafte Suche und Ersetzung direkt in der PDF einfacher und übersichtlicher. Die Konvertierung in Word, docx oder doc und anschließende Bearbeitung könnte zu Layoutveränderungen führen. Nur wenn Sie Inhalte in großem Umfang umschreiben müssen, sollten Sie die Konvertierung zur Bearbeitung in Betracht ziehen.
Zusammenfassung
Der Schlüssel zur massenhaften Entfernung sensibler Wörter, Daten oder alter Kennnummern aus PDFs liegt in der Regelerstellung für sich wiederholende Vorgänge. Bei der Verwendung von HeSoft Doc Batch Tool müssen Sie nur die PDF-Werkzeuge aufrufen, „Schlüsselwörter in PDF suchen und ersetzen“ wählen, mehrere PDFs importieren, die zu löschenden Texte in die Schlüsselwortliste schreiben und die Ersetzungsinhalte leer lassen, um die angegebenen Texte massenhaft zu löschen.
Diese Methode eignet sich besonders für Büroszenarien mit vielen Dateien, feststehenden Schlüsselwörtern und wenn das PDF-Format erhalten bleiben muss. Es wird empfohlen, vor der offiziellen Verarbeitung zuerst eine Schlüsselwortliste zu erstellen und die Methode mit wenigen PDFs zu testen. Erst nachdem Sie das Ergebnis bestätigt haben, führen Sie die Massenverarbeitung für alle Dateien durch. So können Sie die Effizienz steigern und das Risiko von durch manuelle Bearbeitung übersehenen Löschungen verringern.