Wenn die PDF-Dateinamen nur 1.pdf, 2.pdf, 3.pdf lauten, ist die spätere Suche und Archivierung sehr mühsam. Dieser Artikel verwendet HeSoft Doc Batch Tool als Beispiel, um zu erklären, wie man die Funktion „PDF-Dateien mit Dateiinhalt umbenennen“ aufruft, mehrere PDF-Dateien importiert und den regulären Ausdruck \d{8} verwendet, um die 8-stelligen Nummern im Textkörper abzugleichen, um schließlich stapelweise PDF-Dateien zu generieren, die nach den Nummern benannt sind. Dies eignet sich für die Organisation von Verträgen, Bestellungen, Archiven und gescannten Dokumenten.
In Büros trifft man häufig auf eine bestimmte Art von PDFs: Im Ordner sehen sie zwar ordentlich aus, heißen aber nur 1.pdf, 2.pdf, 3.pdf, 4.pdf. Erst bei der tatsächlichen Ablage stellt man fest, dass diese Dateinamen keinerlei geschäftliche Bedeutung haben. Um zu wissen, welche Datei der entsprechende Vertrag oder welche die jeweilige Bestellung ist, muss man jede PDF einzeln öffnen und den Inhalt prüfen. Bei nur wenigen Dateien mag das noch akzeptabel sein, doch bei Dutzenden oder Hunderten wird das manuelle Anzeigen und Umbenennen zu einer sehr typischen, sich wiederholenden Routinearbeit.
Noch problematischer ist, dass das manuelle Umbenennen fehleranfällig ist. Wird beispielsweise eine Ziffer der Vertragsnummer vergessen, die Nummer aus Datei A auf den Namen von Datei B übertragen oder dieselbe Nummer doppelt eingefügt, beeinträchtigt dies die spätere Suche und Ablage. Für Bürodokumente wie Verträge, Bestellungen, Kundenunterlagen und Projektdateien ist ein korrekter Dateiname sehr wichtig. Dieser Artikel stellt eine effizientere Methode vor: Mit einer Bürosoftware den Inhalt von PDFs stapelweise auslesen, die Nummer mittels Platzhalter/regulärem Ausdruck abgleichen und diese Nummer dann automatisch als PDF-Dateinamen festlegen.
Die in diesem Artikel für die Demonstration verwendete Software ist HeSoft Doc Batch Tool . Sie ist als Stapelverarbeitungssoftware für Bürodokumente positioniert und eignet sich für die Bearbeitung großer Mengen von PDF-, Word-, Excel-, Bild- und Textdateien, um Benutzern zu helfen, wiederholte Arbeitsschritte zu reduzieren. Im Folgenden konzentrieren wir uns darauf, wie PDF-Dateien durch Inhaltsabgleich stapelweise umbenannt werden können.
Anwendbare Szenarien
Wenn Ihre PDF-Dateien die folgenden Merkmale erfüllen, ist die in diesem Artikel beschriebene Methode sehr gut geeignet:
- Dateinamen haben keine geschäftliche Bedeutung, z. B. 1.pdf, 2.pdf, Scan1.pdf, download.pdf usw.
- Im PDF-Text sind stabile Nummern vorhanden, z. B. Vertragsnummern, Bestellnummern, Antragsnummern, Kundennummern.
- Das Format der Nummer ist relativ einheitlich, z. B. durchgehend 8-stellige Ziffern.
- Es müssen mehrere PDFs stapelweise verarbeitet werden und nicht nur eine oder zwei Dateien geändert werden.
- Der endgültige Dateiname soll Suche, Sortierung, gemeinsame Nutzung und Ablage erleichtern.
Bei den PDFs im Beispiel handelt es sich um eine Reihe von Vertragsdateien. Jede PDF enthält eine 8-stellige Ziffernnummer, die dem Text „Contract No.“ entspricht. Unser Ziel ist es nicht, dem Dateinamen einfach ein Präfix oder Suffix hinzuzufügen, sondern die Nummer aus dem PDF-Inhalt zu extrahieren und als neuen Dateinamen zu verwenden.
Diese Methode kann ebenso für andere Bürounterlagen verwendet werden. Enthält eine Bestellung beispielsweise eine 8-stellige Bestellnummer, ein Projektbericht eine Projektnummer oder ein Genehmigungsformular eine Belegnummer, können diese Dateien, sofern die Nummer durch eine Regel identifizierbar ist, auf ähnliche Weise stapelweise benannt werden. Bei der Verarbeitung von Word-Dokumenten sind Formate wie doc, docx üblich; bei Excel-Tabellen können es Formate wie xls, xlsx sein. In diesem Artikel werden PDF-Dateien demonstriert, daher wird der Funktionseinstieg für die umbenennungsbezogenen Funktionen mit PDF-Inhalt gewählt.
Ergebnisvorschau: Von bedeutungslosen fortlaufenden Nummern zu recherchierbaren Kennziffern
Vor der Verarbeitung: PDF-Dateien nur mit fortlaufenden Ziffern
Vor der Verarbeitung befinden sich 4 PDFs im Ordner mit den Namen 1.pdf, 2.pdf, 3.pdf, 4.pdf. Eine solche Benennung zeigt lediglich die Anzahl und ungefähre Reihenfolge der Dateien, kann aber den Dateiinhalt nicht darstellen.

Öffnet man eine dieser PDFs, sieht man, dass die erste Textseite die Vertragsnummer-Information enthält. Die im Screenshot rot markierte Nummer „10026877“ ist genau der Inhalt, der als Dateiname gewünscht wird. Das bedeutet, obwohl der Dateiname 1.pdf lautet, existiert im Dokument bereits eine Nummer, die sich besser als Dateiname eignet.

Nach der Verarbeitung: Jede PDF ist nach der Text-Nummer benannt
Nach Verwendung der Stapelverarbeitungsfunktion lauten die Dateinamen nun 10026877.pdf, 20036655.pdf, 20100511.pdf, 33952100.pdf. Die neuen Dateinamen entsprechen direkt den Nummern im PDF-Text. Sucht man später nach einem bestimmten Vertrag oder einer Bestellung, muss man nur noch nach der Nummer suchen.

Aus Sicht der Büroverwaltung ist diese Benennungsweise standardisierter. Sie reduziert nicht nur die Häufigkeit des manuellen Prüfens von Dateien, sondern macht auch die Ordnerstruktur übersichtlicher und eignet sich so für die Übergabe an Kollegen, das Hochladen in Systeme oder die langfristige Archivierung.
Vorgehensweise
Schritt 1: In der Kategorie Dateiname die Funktion „PDF-Inhalt umbenennen“ wählen
Nach dem Öffnen von HeSoft Doc Batch Tool befindet sich links die Navigationsleiste für die Funktionskategorien. Im Screenshot ist die Kategorie „Dateiname“ ausgewählt, und der Hauptbereich zeigt mehrere stapelverarbeitungsbezogene Funktionen für Dateinamen an.
Wählen Sie unter diesen Funktionen Punkt „7. PDF-Dateien anhand des Dateiinhalts umbenennen“. Aus der Funktionsbeschreibung geht hervor, dass sie dazu dient, bestimmte Texte aus dem Inhalt von PDF-Dateien stapelweise als Dateinamen für diese Dateien zu verwenden. Dies ist genau der Effekt, den wir erreichen wollen: Nummern aus dem PDF-Text extrahieren, anstatt sie manuell einzeln umzubenennen.

Der Schwerpunkt in diesem Schritt liegt auf der Wahl des richtigen Funktionseinstiegs. Geht es nur darum, Dateinamen Präfixe hinzuzufügen, Text zu löschen oder Schlüsselwörter zu ersetzen, könnten andere Dateiname-Funktionen ausreichen; soll jedoch der interne Text der PDF ausgelesen werden, ist die Option „PDF-Dateien anhand des Dateiinhalts umbenennen“ zu wählen.
Schritt 2: PDF-Dateien hinzufügen und die Verarbeitungsliste bestätigen
Nach dem Aufrufen der Funktion wird oben auf der Seite der aktuelle Aufgabenname angezeigt. Der Prozessbalken zeigt die zu durchlaufenden Phasen: „Zu verarbeitende Datensätze auswählen, Verarbeitungsoptionen festlegen, Speicherort festlegen, Verarbeitung starten“. In der ersten Phase müssen die zu verarbeitenden PDFs zur Liste hinzugefügt werden.
Rechts oben auf der Benutzeroberfläche befinden sich die Schaltflächen „Dateien hinzufügen“ und „Dateien aus Ordner importieren“. Für wenige Dateien kann „Dateien hinzufügen“ verwendet werden; enthält der gesamte Ordner die zu verarbeitenden PDFs, ist „Dateien aus Ordner importieren“ effizienter. Im Screenshot wurden der Liste bereits 4 Dateien mit den Namen 1.pdf, 2.pdf, 3.pdf, 4.pdf hinzugefügt, alle mit der Erweiterung pdf.

Die Liste zeigt auch Informationen wie Pfad, Erstellungsdatum und Änderungsdatum an. Diese Informationen helfen Ihnen zu bestätigen, ob die Dateiquelle korrekt ist. Im Screenshot zeigt der Pfad beispielsweise ein Verzeichnis auf dem D:-Laufwerk im Ordner „test“, was darauf hindeutet, dass es sich um PDFs in einem Testverzeichnis handelt. Bei der tatsächlichen Verarbeitung empfiehlt es sich, zuerst den Pfad zu überprüfen, um eine versehentliche Bearbeitung von Dateien in anderen Verzeichnissen zu vermeiden.
Wenn die Liste Dateien enthält, die nicht verarbeitet werden müssen, können diese über die Lösch-Schaltfläche in der Aktionsspalte entfernt werden. Klicken Sie auf „Nächster Schritt“, nachdem Sie Anzahl und Namen der Dateien bestätigt haben.
Schritt 3: Benutzerdefinierten Formeltextabgleich wählen und Ausdruck eingeben
Im zweiten Schritt „Verarbeitungsoptionen festlegen“ muss der Software mitgeteilt werden, welcher Textabschnitt aus dem PDF-Inhalt extrahiert werden soll. Im Screenshot ist unter „Suchbereich“ die Option „Durch benutzerdefinierte Formel abgeglichener Text“ ausgewählt. Dies bedeutet, dass die Software gemäß den vom Benutzer eingegebenen Regeln Text im PDF-Haupttext sucht.
Geben Sie im Eingabefeld „Regulärer Ausdruck“ den Ausdruck „\d{8}“ ein. Diese Regel bedeutet, dass aufeinanderfolgende 8-stellige Ziffern gesucht werden. Da die Vertragsnummern in den Beispiel-PDFs genau 8-stellig sind, kann dies Nummern wie 10026877, 20036655, 20100511, 33952100 automatisch erkennen.

Hier kann man \d{8} als eine Art Platzhalter-Ausdruck verstehen, der präzisen Abgleich ermöglicht. Gewöhnliche Platzhalter können oft nur „beliebiges Zeichen“ oder „beliebige Länge“ darstellen, wohingegen reguläre Ausdrücke explizit „Ziffern“ und „Stellenanzahl“ festlegen können. Für die stapelweise Umbenennung ist dies die geeignetere Methode, um regelmäßige Nummern aus Dokumenten zu extrahieren.
Auf derselben Seite ist im Bereich „Position“ die Option „Ganzen Dateinamen überschreiben“ ausgewählt. Das bedeutet, dass die abgeglichene Nummer den Hauptteil des ursprünglichen Dateinamens ersetzt. Am Beispiel 1.pdf wird nach dem Abgleich mit 10026877 der Dateiname zu 10026877.pdf. Möchten Sie den ursprünglichen Dateinamen beibehalten und die Nummer links oder rechts einfügen, müssen Sie eine andere Positionsoption wählen; da das Ziel dieses Beispiels jedoch die vollständige Benennung nach der Nummer ist, ist die Wahl „Ganzen Dateinamen überschreiben“ am direktesten.
Schritt 4: Weiter zu Speicherort festlegen und Stapelverarbeitung ausführen
Klicken Sie auf „Nächster Schritt“, nachdem Sie den Ausdruck und die Position des Dateinamens festgelegt haben. Gemäß dem Seitenablauf muss nun der Speicherort festgelegt werden, um dann zur „Verarbeitung starten“ zu gelangen. Obwohl der Screenshot die nachfolgenden Seiten nicht zeigt, stellt der Prozessbalken diese beiden Schritte klar dar.
Es wird empfohlen, vor der eigentlichen Ausführung eine Strategie für die Speicherung zu überlegen. Wenn die Originaldateien sehr wichtig sind, können Sie die Ausgabe zunächst in einem neuen Ordner speichern, alle Dateinamen auf Korrektheit prüfen und die Ergebnisse erst nach Bestätigung in das endgültige Archivverzeichnis verschieben. So bleiben die Dateien vor der Verarbeitung erhalten und das Risiko von Stapeloperationen wird reduziert.
Nach dem Klick auf „Verarbeitung starten“ liest die Software nacheinander den Inhalt der in der Liste aufgeführten PDFs, sucht nach Text, der der Regel \d{8} entspricht, und schreibt das Suchergebnis in den Dateinamen. Nach Abschluss der Verarbeitung öffnen Sie den Ausgabeordner, um die stapelweise umbenannten PDFs zu sehen.
Empfehlungen zur Ausdruckseinstellung
In diesem Beispiel wurde \d{8} verwendet, da die Vertragsnummern 8-stellig sind. Wenn das Format Ihrer Dateinummern abweicht, muss die Regel angepasst werden. Gängige Ansätze sind:
- 6-stellige Ziffernnummer: Erwägen Sie die Verwendung von \d{6}.
- 10-stellige Ziffernnummer: Erwägen Sie die Verwendung von \d{10}.
- Nummernlänge nicht festgelegt: Es muss eine besser geeignete Regel basierend auf dem tatsächlichen Dateiinhalt entworfen werden.
- Nummer von festem Text umgeben: Fester Text kann kombiniert werden, um die Abgleichgenauigkeit zu erhöhen.
Allerdings gilt: Je einfacher die Regel, desto wahrscheinlicher ist es, dass irrelevante Inhalte übereinstimmen. Enthält eine PDF beispielsweise sowohl Vertragsnummern als auch Daten, Telefonnummern, Betragscodes und darunter ebenfalls durchgehend 8-stellige Ziffern, kann die alleinige Verwendung von \d{8} möglicherweise nicht unterscheiden, welche davon die für den Dateinamen benötigte Nummer ist. Daher muss vor der Stapelverarbeitung unbedingt eine Stichprobe der PDFs überprüft werden, um sicherzustellen, dass das Suchergebnis mit der geschäftlichen Nummer übereinstimmt.
Häufige Fragen oder zu beachtende Punkte
1. Warum nicht direkt das Suchen und Ersetzen im Dateinamen verwenden?
Weil die Dateinamen vor der Verarbeitung fortlaufende Nummern wie 1.pdf, 2.pdf sind und die ursprünglichen Dateinamen keine Vertragsnummer enthalten. Suchen und Ersetzen kann nur Text in bereits vorhandenen Dateinamen ändern, aber keine Nummern aus dem PDF-Text auslesen. In diesem Beispiel muss zwingend eine inhaltslesende Funktion wie „PDF-Dateien anhand des Dateiinhalts umbenennen“ verwendet werden.
2. Könnte \d{8} auch ein Datum treffen?
Das ist möglich. Wenn die PDF ein durchgehend 8-stelliges Datum wie 20260603 enthält und dieses vor der Vertragsnummer erkannt wird, könnte das Ergebnis beeinflusst werden. Daher wird empfohlen, zunächst einige Muster zu testen. Gibt es im Dokument mehrere 8-stellige Zahlen, ist eine präzisere Regel erforderlich oder es muss sichergestellt sein, dass Position und Format der Nummer in der PDF ausreichend stabil sind.
3. Kann man einen gesamten Ordner auf einmal importieren?
Ja. Die Funktionsseite im Screenshot bietet die Schaltfläche „Dateien aus Ordner importieren“, die sich für den Stapelimport von PDFs aus demselben Verzeichnis eignet. Bei großen Mengen von Verträgen, Bestellungen oder Scans spart dies mehr Zeit als das einzelne Hinzufügen von Dateien.
4. Wird die Dateierweiterung nach der Verarbeitung geändert?
Es handelt sich um das Umbenennen von PDF-Dateien, die Dateierweiterung bleibt weiterhin pdf. Im Beispiel lauten die Dateinamen nach der Verarbeitung 10026877.pdf, 20036655.pdf usw., was zeigt, dass nur der Hauptteil des Dateinamens durch die Nummer ersetzt wurde und sich das Dateiformat nicht geändert hat.
5. Kann diese Methode für gescannte PDFs verwendet werden?
Wenn die PDF über eine erkennbare Textebene verfügt, ist ein Inhaltsabgleich in der Regel möglich. Handelt es sich nur um einen Bildscan ohne Textebene, kann die Software die darin enthaltene Nummer möglicherweise nicht direkt auslesen. Bevor Sie solche Dateien verarbeiten, können Sie testen, ob Sie die Nummer in einem PDF-Reader auswählen oder kopieren können; falls nicht, ist möglicherweise zunächst eine OCR-Erkennung erforderlich.
Zusammenfassung
Um viele PDFs stapelweise nach einer Nummer im Haupttext umzubenennen, kommt es auf zwei Kernpunkte an: Erstens die Auswahl einer Stapelumbenennungsfunktion, die den PDF-Inhalt lesen kann, und zweitens die Festlegung der korrekten Abgleichregel. Die von HeSoft Doc Batch Tool bereitgestellte Funktion „PDF-Dateien anhand des Dateiinhalts umbenennen“ ermöglicht es Benutzern, mittels eines Ausdrucks Text aus dem PDF-Haupttext zu extrahieren und automatisch den Dateinamen zu ersetzen.
Für die Vertrags-PDFs im Beispiel müssen Sie nur die Dateien importieren, „Durch benutzerdefinierte Formel abgeglichenen Text“ wählen, \d{8} eingeben und das Überschreiben des gesamten Dateinamens einstellen, um temporäre Namen wie 1.pdf, 2.pdf stapelweise in Vertragsnummer-Bezeichnungen zu ändern. Es wird empfohlen, die Regel zunächst mit einer kleinen Anzahl von Dateien zu testen, das Ergebnis zu bestätigen und erst dann den gesamten Ordner stapelweise zu verarbeiten. Dies erhöht nicht nur die Effizienz, sondern gewährleistet auch die Genauigkeit bei der Ablage von Bürodokumenten.