In den Prozessen des Datenaustauschs, der Testdatenvorbereitung und der Textvorlagenbereinigung ist es oft erforderlich, Zahlen in mehreren TXT-Dateien einheitlich durch Platzhalter zu ersetzen. Dieser Artikel konzentriert sich auf das Szenario der Batch-Anonymisierung von TXT-Dateiinhalten und zeigt, wie man mit dem Textwerkzeug von HeSoft Doc Batch Tool mehrere TXT-Dateien über die Funktion „Schlüsselwörter in Text suchen und ersetzen“ importiert und eine Formel zur unscharfen Textsuche auswählt, um mit \d+ Zahlen zu finden und diese batchweise durch AAA zu ersetzen. Der Artikel bietet Vorher-Nachher-Vergleiche, vollständige Schritte und Hinweise zu den Regeln.
Bevor Textdaten an Kollegen, Kunden oder externe Systeme gesendet werden, führen viele Personen zunächst eine Inhaltsanonymisierung durch. Beispielsweise werden Zahlen, Nummern, statistische Werte, Entfernungen, Beträge oder andere sensible Informationen durch einheitliche Platzhalter ersetzt. Das Problem ist, dass solche Informationen oft über mehrere TXT-Dateien verteilt sind und sich die Zahlen in jeder Datei unterscheiden. Das manuelle Öffnen und Ersetzen in jeder einzelnen Datei ist nicht nur zeitaufwendig, sondern führt auch leicht zu Auslassungen.
Dieser Artikel nimmt ein typisches Beispiel: das batchweise Ersetzen von numerischen Inhalten in mehreren TXT-Textdateien durch AAA. AAA kann hier als Platzhalter verstanden werden, und Sie können es bei Bedarf auch durch Texte wie ***, [Zahlen], {num} ersetzen. Die im Beispiel verwendete Bürosoftware ist HeSoft Doc Batch Tool . Sie ist auf die Stapelverarbeitung von Dokumenten und Dateien ausgerichtet und eignet sich gut, um das Problem sich wiederholender Vorgänge bei einer großen Anzahl von Dateien zu lösen.
Der Artikel erklärt anhand von Screenshots, wie der Zustand vor und nach der Verarbeitung aussieht und wie Sie die einzelnen Schritte in der Software durchführen. Nach der Lektüre können Sie dieselbe Methode für Arbeiten wie die Batch-Anonymisierung von TXT-Inhalten, das massenhafte Ersetzen von Text-Schlüsselwörtern, die Bereinigung von Protokolldateien und die Erstellung von Dokumentvorlagen verwenden.
Anwendungsszenarien: Batch-Anonymisierung, Batch-Bereinigung und Batch-Vorlagenerstellung
In der täglichen Büroarbeit dienen TXT-Dateien oft als Zwischendatenträger oder leichtgewichtige Dokumente. Ihr einfaches Format erleichtert die systemübergreifende Übertragung, bedeutet aber auch, dass sensible Informationen möglicherweise direkt im Klartext vorliegen. Bei einer größeren Anzahl von Dateien ist die Stapelverarbeitung daher unerlässlich.
Die folgenden Situationen eignen sich für die in diesem Artikel beschriebene Methode:
- Anonymisierung vor der Weitergabe von Material: Einheitliches Ersetzen von Zahlen, Nummern und statistischen Daten im Text, um die Offenlegung von Originalinformationen zu vermeiden.
- Vorbereiten von Testbeispielen: Ersetzen echter Daten durch Platzhalter, wobei die Textstruktur erhalten bleibt, aber konkrete Werte verborgen werden.
- Aufbereitung von Lehr- oder Schulungsmaterial: Einheitliches Ersetzen von Zahlen in verschiedenen Fallbeispielen, um die Erstellung allgemeiner Vorlagen zu erleichtern.
- Bereinigung von Systemprotokollen: Protokolle können numerische Informationen wie IDs, Zeitstempel oder Mengen enthalten, die nach Regeln vereinheitlicht verarbeitet werden können.
- Verarbeitung mehrerer englischer TXT-Dokumente: Auch wenn der Haupttext auf Englisch ist, können Inhalte, die den Ersetzungsregeln entsprechen, batchweise verarbeitet werden.
Im Vergleich zum gewöhnlichen Suchen und Ersetzen liegt der Schwerpunkt dieses Artikels auf der batchweisen Ersetzung "gleichartiger Inhalte". Wir ersetzen nicht nur eine einzelne feste Zahl, sondern verwenden reguläre Ausdrücke, um alle Zahlen zu beschreiben, sodass die Software diese automatisch erkennt und verarbeitet.
Ergebnisvorschau: Vorher-Nachher-Vergleich für mehr Anschaulichkeit
Vor der Verarbeitung: Mehrere Textdateien warten auf einheitliche Verarbeitung
Im Screenshot ist zu sehen, dass ein Ordner mehrere TXT-Dateien enthält, darunter big_bang.txt, black_holes.txt, dark_energy.txt, dark_matter.txt und galaxies.txt. Auf alle diese Dateien soll dasselbe Such- und Ersetzungsregelwerk angewendet werden.

Diese Art der Dateiorganisation ist üblich: Ergebnisse desselben Projekts, Themas oder Exports werden im selben Verzeichnis abgelegt. Bei manueller Bearbeitung müsste jede Datei einzeln geöffnet werden; ein Batch-Verarbeitungswerkzeug kann dagegen mehrere Einträge auf einmal importieren und einheitlich ausführen.
Vor der Verarbeitung: Zahlen sind in den Textabschnitten verstreut
Öffnet man black_holes.txt, sieht man, dass im Textinhalt mehrere Zahlen vorkommen. Im Screenshot sind beispielsweise die markierten Zahlen 10 und 30 zu sehen, die in unterschiedlichen Kontexten auftauchen. Die tatsächliche Datei kann noch weitere Zahlen enthalten, z. B. Massenbereiche, Entfernungswerte usw.

Würde man nur die gewöhnliche exakte Suche verwenden, müsste man jede zu ersetzende Zahl kennen. Im Anonymisierungsszenario interessiert uns jedoch meist nur, "dass es eine Zahl ist", nicht der konkrete Wert. Daher ist die Verwendung eines regulären Ausdrucks besser geeignet.
Nach der Verarbeitung: Die Positionen der Zahlen wurden durch den Platzhalter AAA ersetzt
Betrachtet man dieselbe Datei nach Abschluss der Stapelverarbeitung, sieht man, dass an den ursprünglichen Zahlenpositionen nun AAA steht. Im Screenshot sind mehrere AAA hervorgehoben, was zeigt, dass die Software die Ersetzung gemäß der Regel durchgeführt hat.

Derartige Verarbeitungsergebnisse eignen sich hervorragend für die anonymisierte Anzeige, zum Testen und zur Erstellung von Vorlagen. Die Textstruktur bleibt erhalten, aber die konkreten Zahlen werden nicht mehr direkt offengelegt.
Vorgehensweise: Batch-Ersetzung in TXT mit HeSoft Doc Batch Tool durchführen
Schritt 1: Textwerkzeug öffnen und die Funktion Suchen und Ersetzen wählen
Wählen Sie nach dem Start von HeSoft Doc Batch Tool in der linken Navigation das Textwerkzeug aus. Die Softwareoberfläche zeigt verschiedene Kategorien von Büroverarbeitungsaufgaben übersichtlich an, z. B. Word-Werkzeuge, Excel-Werkzeuge, PDF-Werkzeuge, Bildwerkzeuge und eben das Textwerkzeug. Da es sich bei den zu verarbeitenden Objekten um Inhalte von TXT-Dateien handelt, sollten Sie die Kategorie Textwerkzeug aufrufen.
Wählen Sie auf der Textwerkzeug-Seite die Option "Schlüsselwörter in Text suchen und ersetzen". Die Beschreibung dieser Funktionskarte im Screenshot lautet: batchweises Suchen und Ersetzen von Schlüsselwörtern in Textdateiinhalten, was der Anforderung "Zahlen batchweise durch AAA ersetzen" entspricht.

Das erwartete Ergebnis dieses Schritts ist der Aufruf der Assistentenseite für Batch-Aufgaben, auf der Sie anschließend mehrere Textdateien zu einer Aufgabe hinzufügen und Ersetzungsregeln festlegen können.
Schritt 2: Importieren der zu verarbeitenden TXT-Dateien
Nachdem Sie die Seite "Schlüsselwörter in Text suchen und ersetzen" aufgerufen haben, wählen Sie zunächst die zu verarbeitenden Datensätze aus. Oben rechts auf der Oberfläche gibt es die Optionen Datei hinzufügen und Aus Ordner importieren. Wenn Ihre Dateien bereits gesammelt in einem Ordner liegen, ist der Import aus dem Ordner in der Regel zeitsparender.

Nach dem Import zeigt die Tabelle Informationen wie Dateiname, Pfad, Erweiterung, Erstellungsdatum und Änderungsdatum an. Im Beispiel gibt es 5 Datensätze, alle mit der Erweiterung TXT, und die Zusammenfassung unten zeigt die Anzahl der Datensätze als 5 an. Vor der Verarbeitung sollten Sie die Liste sorgfältig prüfen: Sind alle zu verarbeitenden Dateien hinzugefügt und alle nicht zu verarbeitenden Dateien ausgeschlossen?
Sollte eine Datei nicht an dieser Ersetzung teilnehmen sollen, können Sie sie über das Löschsymbol in der Aktionsspalte entfernen. Klicken Sie nach der Bestätigung auf Weiter, um die Verarbeitungsoptionen einzustellen.
Schritt 3: Auswahl der formelbasierten Fuzzy-Textsuche
Im 2. Schritt "Verarbeitungsoptionen einstellen" bietet die Software Suchmodi an. Der Screenshot zeigt die Auswahlmöglichkeiten Exakte Textsuche oder Formelbasierte Fuzzy-Textsuche verwenden. Da das Ziel darin besteht, alle Zahlen und nicht eine bestimmte feste Zahl zu ersetzen, muss die Option Formelbasierte Fuzzy-Textsuche verwenden ausgewählt werden.

Diese Option kann man sich als Suche nach Ausdrucksregeln vorstellen. Sobald ein Teil des Textes der Regel entspricht, identifiziert die Software ihn und führt die Ersetzung aus. Für die Batch-Anonymisierung ist dies weitaus effizienter als die Auflistung jedes einzelnen Elements.
Schritt 4: Ausfüllen der Such- und Ersetzungsschlüsselwörter
Geben Sie in die linke "Liste der zu suchenden Schlüsselwörter" ein:
\d+Geben Sie in die rechte "Liste der Schlüsselwörter nach dem Ersetzen" ein:
AAADabei steht \d+ für die Übereinstimmung mit fortlaufenden Ziffern, und AAA ist der Platzhalter nach der Ersetzung. Mit dieser Einstellung durchsucht die Software die importierten TXT-Dateien nach allen Inhalten, die der Regel \d+ entsprechen, und ersetzt sie durch AAA.
Zu beachten ist, dass die Listen auf der linken und rechten Seite einander entsprechen müssen. Jede Suchregel auf der linken Seite entspricht dem Ersetzungsinhalt an der entsprechenden Position auf der rechten Seite. Wenn Sie mehrere Regelpaare einrichten, wird empfohlen, diese Zeile für Zeile zu überprüfen, um Verschiebungen zu vermeiden.
Schritt 5: Speicherort festlegen und Batch-Verarbeitung ausführen
Nachdem Sie die Schlüsselwörter festgelegt haben, folgen Sie dem Seitenablauf und gehen Sie zu Speicherort festlegen. Bei der Stapelverarbeitung von Dateien wird empfohlen, vorzugsweise einen neuen Ausgabeort zu wählen, um das direkte Überschreiben der Originaldateien zu vermeiden. So können Sie nach der Verarbeitung eine vergleichende Prüfung durchführen und sicherstellen, dass die Ergebnisse korrekt sind.
Gehen Sie abschließend zum Schritt Verarbeitung starten, um die batchweise Suche und Ersetzung auszuführen. Öffnen Sie nach Abschluss der Verarbeitung stichprobenartig die TXT-Dateien im Ausgabeordner. Wenn die ursprünglichen Zahlen durch AAA ersetzt wurden, war die Aufgabenausführung erfolgreich.
Analyse der Schlüsselregeln: Warum \d+ die Zahlenanonymisierung ermöglicht
\d+ ist die wichtigste Einstellung in diesem Tutorial. Es handelt sich um eine gängige Schreibweise für reguläre Ausdrücke, die zum Abgleichen von Zifferninhalten geeignet ist.
- \d steht für ein Ziffernzeichen.
- + bedeutet, dass der vorangehende Inhalt einmal oder mehrmals vorkommt.
- \d+ steht für eine Folge fortlaufender Ziffern, z. B. 5, 10, 100, 26000.
In den Verarbeitungsergebnissen des Screenshots ist zu sehen, dass mehrere Zahlen in der Datei durch AAA ersetzt wurden. Für gewöhnliche ganze Zahlen ist diese Regel sehr intuitiv. Enthält der Text jedoch Zahlen mit Komma, Dezimalzahlen, negative Zahlen oder Zahlen mit Einheiten, könnte \d+ nur den Ziffernteil erfassen. Beispielsweise könnte 26.000 in die zwei Teile 26 und 000 aufgeteilt und schließlich als AAA.AAA dargestellt werden. Daher wird empfohlen, vor der offiziellen Batch-Verarbeitung einen Test mit einer typischen Datei durchzuführen.
Häufige Fragen und Hinweise
1. Werden durch die Batch-Ersetzung alle importierten Dateien verändert?
Die eingestellten Regeln werden auf die Dateien in der Aufgabenliste angewendet. Überprüfen Sie daher unbedingt den Umfang beim Importieren der Dateien. Wenn Sie nur einen Teil der Dateien verarbeiten möchten, importieren Sie nicht auch unzusammenhängende Dateien aus dem gesamten Ordner in die Aufgabe.
2. Kann ich die Zahlen durch andere Inhalte ersetzen?
Ja. AAA wurde im Beispiel nur zu Demonstrationszwecken verwendet. Sie können den Ersetzungsinhalt nach Bedarf auf ***, [Verborgen], NUMBER oder andere Platzhalter setzen.
3. Was ist, wenn ich die Zahlen löschen statt ersetzen möchte?
Wie der Hinweis auf der rechten Seite des Screenshots zeigt, bedeutet das Nichtausfüllen eines Ersetzungsschlüsselworts "Löschen". Wenn Sie also die gefundenen Zahlen löschen möchten, können Sie das Ersetzungsfeld leer lassen. Beachten Sie jedoch, dass eine Löschoperation die Lesbarkeit des Textes stärker beeinträchtigen kann, und sichern Sie daher zuerst Ihre Daten.
4. Wie wähle ich zwischen exakter Suche und formelbasierter Fuzzy-Suche?
Wenn Sie feststehende Wörter ersetzen möchten, ist die Wahl der exakten Textsuche einfacher. Wenn Sie eine Klasse von Inhalten mit einer bestimmten Regelmäßigkeit ersetzen möchten, z. B. alle Zahlen, eine bestimmte Art von Nummerierung oder ein Datumsformat, sollten Sie die Option Formelbasierte Fuzzy-Textsuche verwenden wählen.
5. Kann dies für DOC-, DOCX- oder PDF-Dateien verwendet werden?
Die Screenshots in diesem Artikel zeigen den Arbeitsablauf zur Verarbeitung von TXT-Dateien im Textwerkzeug. Für Word-DOC-, DOCX- oder PDF-Dateien sollten Sie je nach Dateityp das entsprechende Word- oder PDF-Werkzeug auf der linken Seite der Software wählen, um eine Vermischung der Verarbeitungsmethoden für verschiedene Formate zu vermeiden.
6. Warum sollte man vor der Batch-Anonymisierung testen?
Reguläre Ausdrücke sind sehr effizient, können aber auch Inhalte ersetzen, die nicht ersetzt werden sollen, wenn die Regel zu weit gefasst ist. Ein Test mit einer kleinen Stichprobe bestätigt die Genauigkeit der Regel, bevor die Stapelverarbeitung für alle Dateien ausgeführt wird, wodurch Risiken effektiv reduziert werden können.
Fazit: Mit regulären Ausdrücken TXT-Anonymisierung effizienter gestalten
Dieser Artikel demonstrierte, wie Sie mit HeSoft Doc Batch Tool Zahlen in mehreren TXT-Dateien batchweise durch AAA ersetzen. Die Kernschritte umfassen: Aufrufen des Textwerkzeugs, Auswahl von "Schlüsselwörter in Text suchen und ersetzen", Importieren mehrerer TXT-Dateien, Auswahl der formelbasierten Fuzzy-Textsuche, Eingabe von \d+ als Suchregel, Eingabe von AAA als Ersetzungsinhalt, Festlegen des Speicherorts und Starten der Verarbeitung.
Für Benutzer, die Batch-Anonymisierung, Batch-Bereinigung oder die batchweise Erstellung von Textvorlagen benötigen, kann diese Methode sich wiederholende Arbeit erheblich reduzieren. Sie müssen nicht jede Datei einzeln durchsuchen und auch nicht alle Zahlen im Voraus auflisten. Beschreiben Sie einfach den zu verarbeitenden Inhalt mit einer Regel, und die Bürosoftware kann die Ersetzung stapelweise durchführen. Es wird empfohlen, mit einigen wenigen Dateien zu testen, das Ergebnis zu bestätigen und dann den gesamten Ordner zu verarbeiten, um sowohl Effizienz als auch Genauigkeit zu gewährleisten.