Wenn mehrere TXT-Textdateien viele Zahlen, Nummerierungen, statistische Werte oder temporäre Markierungen enthalten, ist das manuelle Öffnen und Löschen jeder Datei nicht nur zeitaufwendig, sondern führt auch leicht zu unvollständigen Löschungen. Dieser Artikel verwendet HeSoft Doc Batch Tool als Beispiel, um zu demonstrieren, wie man mit Platzhaltern/regulären Ausdrücken stapelweise nach numerischen Schlüsselwörtern in Texten sucht und den Ersetzungsinhalt leer lässt, um so den übereinstimmenden Inhalt in mehreren TXT-Dateien auf einmal zu löschen. Der Artikel enthält einen Vorher-Nachher-Effektvergleich, vollständige Bedienschritte und häufige Vorsichtsmaßnahmen und eignet sich für Büroszenarien, in denen Text stapelweise bereinigt, Materialien sortiert, Protokolle verarbeitet oder Dokumentinhalte standardisiert werden müssen.
Bei der täglichen Büroarbeit, der Organisation von Materialien, der Bereinigung von Inhalten oder der Datenarchivierung stößt man häufig auf folgendes Problem: In einem Ordner befinden sich viele TXT-Textdateien, und jede Datei enthält einige nicht mehr benötigte Zahlen, Nummerierungen, statistische Werte, Versionsnummern oder temporäre Markierungen. Wenn es nur ein oder zwei Dateien sind, kann man sie noch manuell in einem Texteditor öffnen und einzeln löschen; Wenn die Anzahl der Dateien jedoch auf Dutzende, Hunderte ansteigt oder die Aufgabe sogar täglich wiederholt werden muss, wird die manuelle Suche und Löschung zu einer sehr ineffizienten, repetitiven Arbeit.
Dieser Artikel befasst sich mit der Frage, „wie man Platzhalter und reguläre Ausdrücke verwendet, um Stichwörter stapelweise aus vielen Textdateien zu löschen“. Am Beispiel der Bürosoftware „ HeSoft Doc Batch Tool “ im Screenshot wird gezeigt, wie man mehrere TXT-Textdateien auf einmal in die Software importiert, über die Funktion „Textstichwörter suchen und ersetzen“ den regulären Ausdruck \d+ verwendet, um fortlaufende Zahlen im Text zu finden, und die Liste der zu ersetzenden Stichwörter leer lässt, um den Effekt der stapelweisen Löschung numerischer Stichwörter zu erzielen.
Der Kernwert dieser Methode liegt darin: Sie müssen keine Dateien einzeln öffnen, nicht an jeder Stelle suchen und nicht jeden Treffer manuell löschen. Solange die Suchregeln festgelegt sind, kann die Software die Stapelverarbeitung für mehrere Textdateien durchführen, was sich besonders für die Bereinigung von Bürodokumenten, die Anonymisierung von Textdaten, die stapelweise Entfernung von Nummerierungen, die Organisation von Protokollinhalten und die Vereinheitlichung von Inhaltsformaten eignet.
Anwendungsszenarien: Wann eignet sich die stapelweise Löschung von Textstichwörtern mit regulären Ausdrücken?
Die Verwendung regulärer Ausdrücke zur stapelweisen Löschung von Textstichwörtern eignet sich für Szenarien, in denen „die zu löschenden Inhalte eine gemeinsame Regel aufweisen, aber in ihrer konkreten Form nicht völlig identisch sind“. Wie im Beispiel dieses Artikels tauchten in den Textdateien viele Zahlen auf, einige waren „10“, andere „30“, sowie „100“, „26000“ usw. Bei einer normalen Suche müsste man jede spezifische Zahl einzeln eingeben; mit dem regulären Ausdruck \d+ hingegen kann man alle fortlaufenden Zahlen auf einmal finden.
Zu den häufigen Anwendungsszenarien gehören die folgenden:
- Stapelweises Löschen von Zahlen in TXT-Dateien: Zum Beispiel Jahreszahlen, statistische Werte, Nummerierungen, Messwerte, Seitenzahlen in Artikeln, die nicht mehr benötigt werden und einheitlich bereinigt werden sollen.
- Stapelweise Bereinigung dynamischer Stichwörter in Texten: Inhalte wie Bestellnummern, laufende Nummern, IDs oder temporäre Codes, die ein ähnliches Format haben, deren konkrete Werte sich aber in jeder Datei unterscheiden.
- Stapelverarbeitung englischer oder chinesischer Materialien: Ob englische TXT, chinesische TXT oder reine Textinhalte, die aus Webseiten, Protokollen oder Systemexporten stammen – solange es Textdateien sind, kann der Suchen-und-Ersetzen-Gedanke zur stapelweisen Bereinigung genutzt werden.
- Stapelweise Anonymisierung oder Inhaltsstandardisierung: Vor der Veröffentlichung von Materialien müssen sensible Nummern, interne Markierungen, Testdaten oder numerische Informationen, die nicht öffentlich sein sollen, gelöscht werden.
- Reduzierung repetitiver Büroarbeiten: Wenn für mehrere Dateien dieselbe Such- und Löschregel gilt, ist die Stapelverarbeitung mit einer Bürosoftware stabiler und zeitsparender als die manuelle Bearbeitung.
Es ist zu beachten, dass sich das Beispiel in diesem Artikel hauptsächlich auf TXT-Textdateien konzentriert. Wenn Ihr Büroablauf auch Word-Dokumente wie DOC oder DOCX oder Formate wie PDF, HTML umfasst, müssen Sie die entsprechende Funktion im zugehörigen Werkzeugmodul der Software auswählen. Da es sich im Screenshot aktuell um das „Textwerkzeug“ handelt, konzentriert sich dieser Artikel auf das stapelweise Suchen, Ersetzen und Löschen von Inhalten in Textdateien.
Effektvorschau: Mehrere TXT-Dateien enthalten vor der Verarbeitung zu löschende Zahlen
Aus der Dateiliste vor der Verarbeitung ist ersichtlich, dass der zu verarbeitende Ordner mehrere TXT-Dateien enthält, zum Beispiel big_bang.txt, black_holes.txt, dark_energy.txt, dark_matter.txt, galaxies.txt. Wenn man diese Dateien einer einzigen Materialcharge zugehörig einzeln öffnen und auf Zahlen prüfen und löschen müsste, wäre dies sehr zeitaufwändig.

Öffnet man nun die Datei black_holes.txt, sieht man, dass der Text mehrere Zahlen enthält, zum Beispiel „10“ und „30“. Diese Zahlen sind über verschiedene Sätze verteilt und können in anderen TXT-Dateien mit anderen Werten auftauchen. Für diesen Fall eignet sich der Einsatz regulärer Ausdrücke zur Stapelsuche am besten, denn was wir wirklich löschen wollen, ist nicht eine bestimmte feste Zahl, sondern die Inhaltskategorie „alle fortlaufenden Zahlen“.

Bei der traditionellen Methode müsste man in jeder Datei wiederholt suchen, positionieren, löschen und speichern. Je mehr Dateien, desto leichter treten Probleme wie unvollständiges Löschen, versehentliches Löschen oder vergessenes Speichern auf. Nach der Verwendung von „ HeSoft Doc Batch Tool “ können Sie zunächst alle zu verarbeitenden TXT-Dateien in eine Liste importieren, dann einheitlich Such- und Ersetzungsregeln festlegen und schließlich die Stapelverarbeitung ausführen.
Effektvorschau: Numerische Stichwörter wurden nach der Verarbeitung stapelweise gelöscht
Öffnet man nach Abschluss der Verarbeitung dieselbe Datei black_holes.txt erneut, sieht man, dass die Stellen, an denen zuvor Zahlen standen, nun leer sind. Das zeigt, dass die gefundenen numerischen Inhalte gelöscht wurden. So wurden im Originaltext die Zahlenstellen in „about 3 kilometers“, „mit 10 times“ und „roughly 30 kilometers“ bereinigt, und nur der übrige Textinhalt blieb erhalten.

Am Ergebnis ist zu erkennen, dass bei dieser Operation nicht nur eine bestimmte Zahl gelöscht wurde, sondern alle zahlenkonformen Inhalte einheitlich durch einen regulären Ausdruck gelöscht wurden. Für die stapelweise Löschung von Stichwörtern in Textdateien ist diese Methode flexibler: Wenn Sie das nächste Mal E-Mail-Adressen, Handynummern, Inhalte in Klammern oder Inhalte zwischen bestimmten Präfixen und Suffixen löschen möchten, können Sie den regulären Ausdruck entsprechend der tatsächlichen Muster anpassen.
Natürlich wirkt sich die stapelweise Löschung direkt auf den Dateiinhalt aus. Es wird daher empfohlen, vor der eigentlichen Verarbeitung Sicherungskopien zu erstellen oder die Verarbeitungsergebnisse an einem neuen Ort zu speichern. So können Sie selbst bei ungenauen regulären Regeln zu den Originaldateien zurückkehren und die Verarbeitung erneut durchführen, um irreparable Inhaltsverluste zu vermeiden.
Vorgehensschritte: Stapelweises Löschen von Zahlen in TXT mit „ HeSoft Doc Batch Tool “
Im Folgenden wird der vollständige Arbeitsablauf anhand der Screenshot-Reihenfolge erklärt. Dieser Artikel verwendet das Löschen aller Zahlen im Text als Beispiel, mit dem Suchausdruck \d+ und leerem Ersetzungsinhalt. Sie können den Ausdruck auch je nach Ihren tatsächlichen Anforderungen durch andere Platzhalter oder reguläre Regeln ersetzen.
Schritt 1: Aufrufen des Textwerkzeugs und Auswahl von „Textstichwörter suchen und ersetzen“
Nach dem Öffnen von „ HeSoft Doc Batch Tool “ wählen Sie in der Funktionsleiste links „Textwerkzeug“. Auf der Seite des Textwerkzeugs sehen Sie mehrere Funktionen zur Stapelverarbeitung von Textdateien, wie zum Beispiel Text zu Word, Text zu PDF, Leerzeichen im Text löschen usw. Die für diesen Artikel benötigte Funktion ist die erste: „Textstichwörter suchen und ersetzen“.

Der Zweck der Wahl dieser Funktion ist es, die Software in mehreren Textdateien einheitlich nach bestimmten Inhalten suchen und diese gemäß den Einstellungen ersetzen zu lassen. Wenn der Ersetzungsinhalt leer ist, entspricht dies dem Löschen des gefundenen Inhalts. Daher kann „Suchen und Ersetzen“ nicht nur für die stapelweise Änderung von Zeichen und die stapelweise Ersetzung von Begriffen, sondern auch für die stapelweise Löschung von Stichwörtern verwendet werden.
Nach dem Aufrufen dieser Funktion zeigt die Software eine schrittweise Verarbeitungsoberfläche an. Im Screenshot ist zu sehen, dass der Prozess in die Phasen „Zu verarbeitende Datensätze auswählen“, „Verarbeitungsoptionen festlegen“, „Speicherort festlegen“ und „Verarbeitung starten“ unterteilt ist. Dieses prozessorientierte Design reduziert Auslassungen: Erst die Dateien bestätigen, dann die Regeln und schließlich die Verarbeitung ausführen.
Schritt 2: Dateien hinzufügen oder TXT-Dateien aus einem Ordner importieren
Auf der Funktionsseite ist der erste Schritt die Auswahl der zu verarbeitenden Datensätze. Oben rechts im Screenshot stehen die Optionen „Dateien hinzufügen“, „Dateien aus Ordner importieren“, „Leeren“, „Mehr“ etc. zur Verfügung. Für wenige Dateien können Sie „Dateien hinzufügen“ nutzen; wenn alle TXT-Dateien bereits zentral in einem Ordner abgelegt sind, können Sie „Dateien aus Ordner importieren“ verwenden, um die Textdateien auf einmal in die Verarbeitungsliste zu laden.

Im Beispiel hat die Software bereits 5 TXT-Dateien importiert, die Liste zeigt Informationen wie Dateiname, Pfad, Erweiterung, Erstellungsdatum, Änderungsdatum an. Die Dateien sind big_bang.txt, black_holes.txt, dark_energy.txt, dark_matter.txt, galaxies.txt. Das erwartete Ergebnis dieses Schrittes ist: Alle Textdateien, deren numerische Stichwörter stapelweise gelöscht werden sollen, sind in der Liste vorhanden und die Datensatzanzahl ist korrekt.
Es wird empfohlen, vor dem Klick auf „Weiter“ zwei Punkte zu prüfen. Erstens: Sicherstellen, dass keine nicht zu verarbeitenden Dateien der Liste hinzugefügt wurden. Zweitens: Prüfen, ob die Dateierweiterungen der Erwartung entsprechen, im vorliegenden Fall also alle TXT sind. Sollten Dateien auf der Liste sein, die nicht bearbeitet werden sollen, können Sie diese über das Löschsymbol in der Aktionsspalte entfernen. Nach der Bestätigung klicken Sie unten auf „Weiter“, um zu den Verarbeitungsoptionen zu gelangen.
Schritt 3: Formel zur unscharfen Textsuche verwenden
Der zweite Schritt besteht darin, die Stichwortoptionen festzulegen. Im Screenshot bietet die „Suchmethode“ die beiden Optionen „Exakte Textsuche“ und „Formel zur unscharfen Textsuche verwenden“. Da wir in diesem Artikel alle Zahlen und nicht nur eine bestimmte löschen wollen, sollte „Formel zur unscharfen Textsuche verwenden“ gewählt werden.

Diese Option kann so verstanden werden, dass Platzhalter oder reguläre Ausdrücke für die Suche verwendet werden. Die normale exakte Suche eignet sich für die Suche nach völlig identischen Begriffen, z. B. wenn „black hole“ in allen Dateien durch einen anderen festen Ausdruck ersetzt werden soll; Die unscharfe Formelsuche eignet sich besser für die Verarbeitung von Inhalten mit Mustern, wie Zahlen, Daten, Nummerierungen, E-Mail-Adressen usw.
Im Screenshot ist auch die Zusatzoption „Groß-/Kleinschreibung von Buchstaben ignorieren“ zu sehen. Für unser Szenario der Zahlenlöschung ist die Groß-/Kleinschreibung irrelevant und muss nicht angekreuzt werden. Wenn Sie englische Stichwörter verarbeiten, z. B. gleichzeitig nach „Word“, „word“ oder „WORD“ suchen, können Sie die Aktivierung dieser Option je nach tatsächlichem Bedarf in Betracht ziehen.
Schritt 4: Eingabe des regulären Ausdrucks \d+ in der Liste der zu suchenden Stichwörter
Geben Sie in der „Liste der zu suchenden Stichwörter“ den Ausdruck \d+ ein. Dies ist eine gängige Schreibweise für reguläre Ausdrücke, wobei \d für ein Ziffernzeichen und + für das Vorkommen von einem oder mehreren fortlaufenden Ziffernzeichen steht. Daher passt \d+ auf Zahlen unterschiedlicher Länge wie „3“, „10“, „30“, „100“ oder „26000“.
Dieser Schritt ist entscheidend, denn die Genauigkeit der Stapellöschung hängt von der Korrektheit der Suchregel ab. Wenn Sie nur eine feste Zahl eingeben, z. B. „10“, bearbeitet die Software nur die „10“ im Text; mit der Eingabe von \d+ hingegen werden alle fortlaufenden Zahlen zum Suchobjekt. Für das Ziel, numerische Stichwörter stapelweise aus Textdateien zu löschen, ist diese Regel die geeignetere.
Soll Ihr Ziel nicht das Löschen von Zahlen, sondern das Löschen anderer Inhaltstypen sein, können Sie den Ausdruck ebenfalls durch die entsprechende Regel ersetzen. Soll z. B. ein fester Begriff gelöscht werden, geben Sie diesen Begriff ein; soll eine spezifische Nummerierungsstruktur gelöscht werden, muss der Ausdruck entsprechend der Nummerierungsstruktur geschrieben werden. Dieser Artikel geht nicht tiefer auf komplexe reguläre Ausdrücke ein, sondern konzentriert sich auf den Gedanken, die Stapellöschung über die Softwareoberfläche durchzuführen.
Schritt 5: Liste der ersetzten Stichwörter leer lassen, um den Löschungseffekt zu erzielen
Auf der rechten Seite des Screenshots befindet sich die „Liste der ersetzten Stichwörter“, und die Oberfläche zeigt den Hinweis „Nicht ausfüllen bedeutet löschen“. Wenn das Ziel also die Löschung der gefundenen Zahlen ist, darf auf der rechten Seite kein Inhalt eingegeben werden – sie muss leer bleiben.
Die Logik dieses Schrittes ist: Die linke Seite definiert „was suchen“, die rechte Seite definiert „in was ersetzen“. Wenn die rechte Seite leer ist, ersetzt die Software den auf der linken Seite gefundenen Inhalt durch eine leere Zeichenkette, löscht ihn also. So lässt sich der Vorgang der stapelweisen Löschung numerischer Stichwörter in TXT-Dateien abschließen.
Sobald die Einstellungen vorgenommen wurden, können Sie auf „Weiter“ klicken. Gemäß dem Ablauf der Benutzeroberfläche folgen dann noch die Festlegung des Speicherorts und die Phase der Verarbeitungsstart. Obwohl der aktuelle Screenshot die Details der Folgeseiten nicht zeigt, kann man anhand der Fortschrittsleiste oben sinnvoll schlussfolgern, dass die Software den Benutzer auffordert, die Speichermethode für die Verarbeitungsergebnisse zu bestätigen, bevor die Stapelverarbeitung ausgeführt wird.
Schritt 6: Speicherort festlegen und Verarbeitung starten
Nachdem die Regeln für Suchen und Ersetzen festgelegt wurden, gelangen Sie in die Phase „Speicherort festlegen“. Zur Datensicherheit wird empfohlen, die verarbeiteten Dateien bevorzugt in einem neuen Ordner zu speichern, anstatt die Originaldateien direkt zu überschreiben. Insbesondere bei der stapelweisen Löschung mit regulären Ausdrücken könnte bei einem zu weit gefassten Ausdruck mehr als erwartet gelöscht werden. Ein neuer Speicherort bewahrt die Originaldateien und erleichtert den Abgleich und die Rücknahme.
Nach Bestätigung des Speicherorts gelangen Sie in die Phase „Verarbeitung starten“. Nach Abschluss der Ausführung können Sie die verarbeiteten Dateien stichprobenartig öffnen. Es wird empfohlen, mindestens eine Datei mit typischem Inhalt zu überprüfen, z. B. die black_holes.txt aus diesem Artikel, um zu bestätigen, ob die Zahlen wie erwartet gelöscht und der übrige Text unversehrt geblieben ist. Entspricht das Ergebnis den Erwartungen, können die verarbeiteten Dateien für die weitere Veröffentlichung, Archivierung oder Analyse verwendet werden.
Häufige Fragen und Hinweise
1. Welche Inhalte löscht \d+?
\d+ wird normalerweise für die Suche nach fortlaufenden Zahlen verwendet. Das bedeutet, egal ob die Zahl 1, 2 oder mehr Stellen hat, sobald sie fortlaufend erscheint, wird sie gefunden und gelöscht. Zum Beispiel gehören „10“, „30“, „100“ oder „26000“ alle zum Suchbereich. Nach der Verarbeitung werden diese Zahlenpositionen zu Leerstellen.
2. Warum bleiben nach dem Löschen der Zahlen Leerzeichen zurück?
Wie in der Effektgrafik nach der Verarbeitung zu sehen, können an den ursprünglichen Zahlenpositionen Leerzeichen zurückbleiben. Das liegt daran, dass die Software nur die gefundene Zahl selbst löscht, während Leerzeichen, Satzzeichen oder anderer Text vor und nach der Zahl erhalten bleiben. Wenn Sie überschüssige Leerzeichen weiter bereinigen möchten, können Sie andere Textverarbeitungsfunktionen der Software kombinieren oder in der regulären Regel die angrenzenden Leerzeichen je nach tatsächlicher Situation in den Suchbereich einbeziehen. Solange die Auswirkungen der Regel jedoch ungewiss sind, ist es nicht ratsam, sie von Anfang an zu aggressiv zu gestalten.
3. Kann man nur bestimmte Zahlen löschen und nicht alle?
Ja. Wenn Sie nur ein festes Stichwort löschen möchten, können Sie die exakte Textsuche verwenden und den konkreten Inhalt eingeben; Wenn Sie nur Zahlen eines bestimmten Formats löschen möchten, müssen Sie den regulären Ausdruck entsprechend anpassen. Beispielsweise das Löschen nur dreistelliger Zahlen oder nur von Zahlen nach einem bestimmten Präfix sind feiner abgestimmte Regeldesigns. Das Ziel des Beispiels in diesem Artikel ist die stapelweise Löschung aller fortlaufenden Zahlen, daher wird \d+ verwendet.
4. Ist vor der Stapelverarbeitung eine Sicherung erforderlich?
Eine Sicherung wird empfohlen. Die Effizienz der Stapelverarbeitung von Dateien ist hoch, aber das bedeutet auch, dass eine einzige Einstellung sich auf mehrere Dateien auswirkt. Insbesondere bei der Verwendung regulärer Ausdrücke kann ein Fehler in der Regel zu fälschlichen Löschungen führen. Daher ist es am besten, vor der eigentlichen Verarbeitung eine Kopie des Originalordners anzufertigen oder in den Einstellungen der Software einen neuen Ausgabeordner für den Speicherort zu wählen.
5. Eignet sich diese Methode für Word-Dokumente wie DOC oder DOCX?
Der Screenshot in diesem Artikel zeigt das Szenario der stapelweisen Suchen-und-Ersetzen-Funktion für TXT-Dateien im Textwerkzeug, geeignet für reine Textdateien wie TXT. Wenn Sie Word-Dokumente wie DOC oder DOCX verarbeiten möchten, müssen Sie die zu Word gehörigen Werkzeugmodule der Software aufrufen und die dortigen Funktionen als maßgeblich ansehen. Die Inhaltsstruktur verschiedener Dateiformate ist unterschiedlich, daher kann der TXT-Verarbeitungsablauf nicht einfach mit dem Word-Verarbeitungsablauf gleichgesetzt werden.
Zusammenfassung: Mit Stapelverarbeitungswerkzeugen das wiederholte Löschen zu einer einmaligen Einstellung machen
Das stapelweise Löschen von Stichwörtern in mehreren Textdateien bedeutet im Wesentlichen, die repetitive manuelle Bearbeitung an die Bürosoftware zu übergeben. Über die Funktion „Textstichwörter suchen und ersetzen“ von „ HeSoft Doc Batch Tool “ können Sie zunächst mehrere TXT-Dateien importieren, dann „Formel zur unscharfen Textsuche verwenden“ auswählen, \d+ eingeben, um alle Zahlen zu finden, und den Ersetzungsinhalt leer lassen, um so die stapelweise Löschung numerischer Stichwörter zu realisieren.
Im Vergleich zum manuellen Löschen durch einzelnes Öffnen der Dateien eignet sich diese Methode besser für Büroszenarien mit vielen Dateien, klaren Regeln und wiederholtem Bearbeitungsbedarf. Sie spart nicht nur Zeit, sondern reduziert auch das Risiko, Löschvorgänge zu übersehen oder inkonsistent zu handeln. Es wird empfohlen, in der Praxis zunächst Test- oder Sicherungsdateien vorzubereiten und die Wirkung des regulären Ausdrucks als korrekt zu bestätigen, bevor Sie die gesamte Charge der Textdateien verarbeiten. So können Sie den Effizienzvorteil der Stapelverarbeitung nutzen und gleichzeitig die Sicherheit und Kontrollierbarkeit der Dateiinhalte gewährleisten.