多くのPDF資料に含まれる日付、番号、年号などの文字は同じ形式ですが、具体的な内容は異なります。手動で一つずつ削除するのは効率が低く、見落としも発生しがちです。本記事では、 HeSoft Doc Batch Tool を使用して、複数のPDFを「PDF内のキーワード検索と置換」機能にインポートし、数式を用いてApril、May、および4桁の年号をあいまい検索し、置換後の内容を空白のままにすることで、PDF内の不特定の文字を一括削除する方法を紹介します。
日常業務では、PDFは報告書、制度、契約書、プロジェクト資料、公開用ファイルの保存によく使われます。問題は、多くのPDFが公開やアーカイブ前に、日付、年、バージョン番号、氏名、番号、特定の機密フィールドなどの一部テキストを削除する必要があることです。これらの内容が完全に一致している場合は、通常の検索と置換で比較的簡単ですが、各ファイルで日付や年が異なる場合は、手動処理は非常に非効率になります。
本記事では、「複数PDF内の月と年を一括削除」を例に、 HeSoft Doc Batch Tool を使用したPDFファジーマッチ削除の方法を説明します。例では、PDFの表紙に元々「April 13, 2017」とありますが、英語の月と4桁の年を削除し、中央の日付数字を保持したいとします。実際の操作では、「数式を使用したファジーテキスト検索」により、可能性のある複数の月と年を一致させ、置換後のキーワードリストを空にすることで、一括削除を実現します。
利用シーン:PDF内の規則的な変動コンテンツを一括削除する必要がある場合
この機能は、規則的なテキストの処理に最適です。例えば、多くのPDFには日付があっても年が異なる、番号があっても末尾が異なる、月があってもApril、Mayなど異なる英語の月、バージョン番号があっても数字が変わる、といった場合です。これらのテキストをルールで記述できれば、ファジー検索の使用を検討できます。
典型的なシーンとしては、PDFレポート表紙の公開日を一括削除、公開バージョンのプロジェクト番号を削除、契約PDF内の固定形式番号を削除、アーカイブファイル内の年情報を削除、PDF資料の部分的なマスキング、複数PDF内の特定の可変キーワードを一括削除する、などが含まれます。PDFを1つずつ開いて手動で修正するのに比べ、一括処理ツールは繰り返し作業を1つのタスクにまとめることができます。
HeSoft Doc Batch Tool はオフィスソフトウェアとして位置づけられており、単一ファイルの細かい編集ではなく、大量の文書を一括処理し、繰り返し作業を減らすことに重点を置いています。PDF、Word、Excel、PowerPointなど一般的なオフィスファイルに対して、同様の一括操作は大幅に時間を節約できます。本記事では、PDF内のキーワードの一括検索、置換、削除に焦点を当てます。
効果のプレビュー:処理前に一括削除が必要な4つのPDF
処理前のスクリーンショットから、現在のフォルダに1.pdf、2.pdf、3.pdf、4.pdfという名前の4つのPDFファイルがあることがわかります。多くの実際のオフィス業務もこれと似た状況です。ファイル数は少ない場合もあれば、数十、数百に及ぶ場合もありますが、処理ルールは同じです。

PDFの1つを開くと、表紙の日付位置に「April 13, 2017」と表示されています。このうち「April」と「2017」は赤枠で囲まれ、今回削除する対象コンテンツであることを示しています。「2017」は4桁の数字の年であるため、他のPDFでは異なる年が出現する可能性があり、ファジーマッチを使用する方が適しています。

1つずつファイルを処理する場合、PDFを開き、該当するテキストを検索し、削除または上書きし、保存し、次のファイルを処理する必要があります。ファイル数が増えるほど、繰り返し作業が顕著になり、疲労による処理漏れが発生しやすくなります。一括処理ツールを使用する目的は、これらの機械的な動作をソフトウェアに任せることです。
処理後の効果:PDF内の月と年が削除されました
処理が完了した後、出力されたPDFを確認すると、元の日付位置の「April」と「2017」は既に削除されており、ページには一致しなかった「13,」のみが残っています。赤枠で示されているのは削除後の空白領域であり、ソフトウェアがルールに従ってキーワードの削除を完了したことを示しています。

この効果は2つの点を示しています。第1に、ソフトウェアがPDFコンテンツ内の指定されたテキストを特定できること。第2に、置換内容が空の場合、置換ではなく削除が実現できることです。日付、年、番号などのコンテンツを一括削除する場合、この方法は非常に直接的です。
操作手順1:PDFツールで検索と置換機能を開く
HeSoft Doc Batch Tool を起動すると、左側に複数のツールカテゴリが表示されます。「PDF ツール」を選択すると、メイン画面にPDF関連機能のリストが表示されます。今回使用するのは「1、PDF内のキーワードを検索して置換」です。これは、PDFファイル内のキーワードを一括で検索・置換する機能であると説明されています。

この機能を選択した理由は、PDFキーワードの削除は、本質的に「対象テキストを見つけて空で置換する」という特殊な置換操作と見なせるからです。そのため、個別の「テキスト削除」エントリを探す必要はなく、検索と置換機能で検索ルールと置換内容を正しく設定すればよいのです。
機能に入る前に、処理するPDFファイルを整理し、処理が必要なPDFを同じフォルダにまとめることをお勧めします。これにより、後でフォルダからインポートでき、ファイルを1つずつ選択する時間を削減できます。
操作手順2:複数のPDFをインポートし、処理リストを確認する
機能画面に入ったら、最初のステップは「処理するレコードを選択」です。画面右上には「ファイルを追加」と「フォルダからファイルをインポート」という2つのよく使われるエントリがあります。特定の数個のPDFだけを処理する場合は「ファイルを追加」をクリックし、フォルダ全体のPDFを処理する場合は「フォルダからファイルをインポート」を選択します。

スクリーンショットでは既に4つのレコードがインポートされており、ファイル名は1.pdf、2.pdf、3.pdf、4.pdfで、パスはすべてDドライブのtestフォルダにあります。リストには拡張子がpdfであること、作成日時と更新日時も表示されています。インポートが完了すると、下部のサマリーエリアに「レコード数: 4」と表示され、インポート数の確認に役立ちます。
このステップでは、2つのことに注意する必要があります。1つ目は、リストに余分なファイルがないことを確認し、誤処理を避けること。2つ目は、処理が必要なファイルがすべてリストに追加されていることを確認し、処理漏れを避けることです。特定のファイルが処理対象外であることが判明した場合は、操作列の削除アイコンを使用してリストから除外できます。問題がなければ、下部の「次へ」をクリックします。
操作手順3:数式ファジー検索を使用して不固定テキストを一致させる
第2ステップ「処理オプションの設定」に入ったら、まず「検索方法」を確認します。画面には「テキストの完全一致検索」と「数式を使用したファジーテキスト検索」が提供されています。この例で処理するのは月と年であり、年は変動コンテンツに該当するため、「数式を使用したファジーテキスト検索」を選択します。

「検索するキーワードリスト」には、例として2つのルールが入力されています。1つ目のルール「April|May」は、AprilまたはMayに一致させるためのもので、可能性のある複数の英語の月を処理するのに適しています。2つ目のルール「\d{4}」は、連続する4桁の数字に一致させるためのもので、年(例:2017、2018、2026など)を一致させる一般的な用途です。
ここでの考え方は、削除したい対象をすべて左側の検索リストに記述することです。固定の単語はそのまま記述し、複数の候補がある単語はルールで表現し、数字の年は数式で表現します。これにより、ソフトウェアはこれらのルールに従って各PDF内の対応するコンテンツを検索します。
右側は「置換後のキーワードリスト」です。この例ではテキストを削除するため、右側は空のままにします。画面上には「空欄の場合は削除を意味します」というヒントが表示されており、これがPDFのキーワード一括削除を実現するための重要な設定です。スペースを入力したり、他の置換語を入力したりせず、直接空にすることが重要です。
操作手順4:新しい場所に保存して処理を実行する
検索と削除のルールを設定したら、「次へ」をクリックします。フロー表示には、後続のステップとして「保存場所の設定」と「処理の開始」が含まれていることが示されています。スクリーンショットには保存場所ページは展開されていませんが、フローから判断すると、正式な処理の前に出力場所を指定する必要があります。
処理後のPDFは、元のファイルディレクトリに混在させるのではなく、新しいフォルダに保存することをお勧めします。これには3つの利点があります。1つ目は元のPDFを保持できるため、元に戻せること。2つ目は処理前後の効果を比較しやすいこと。3つ目は同名ファイルによる誤判断を避けられることです。重要な資料の場合は、最初に1〜2個のサンプルファイルでルールをテストし、削除範囲が正しいことを確認してから、全ファイルを一括処理するのが最善です。
「処理の開始」に入ると、ソフトウェアはリストの順序に従って複数のPDFを処理します。処理が完了したら、出力ファイルを開いてページを確認します。例では、元の「April 13, 2017」は「13,」のみが保持されるようになり、月と年がルールどおりに削除されたことがわかります。
よくある質問と注意事項
1. 数式ファジー検索はワイルドカードですか?
実際の使用において、多くのユーザーはこの種のルールをワイルドカードやファジーマッチと呼んでいます。スクリーンショット内の「数式を使用したファジーテキスト検索」は、その動作方法をより正確に説明しています。つまり、固定文字列のみに一致するのではなく、数式ルールを通じて特定の種類のテキストに一致させる、というものです。
2. 固定の単語を1つだけ削除したい場合も、数式を使用する必要がありますか?
必ずしもそうとは限りません。すべてのPDFで同一の固定単語のみを削除する場合は、「テキストの完全一致検索」を選択できます。ただし、同じ位置に異なる月、異なる年、異なる番号が出現する可能性がある場合は、数式ファジー検索を使用する方が手間が省けます。
3. 処理後に「13,」が残ったのはなぜですか?
これは、例のルールが「April」と4桁の年にのみ一致し、中央の「13,」には一致しなかったためです。ソフトウェアはヒットしたコンテンツのみを削除し、一致しなかった文字を自動的に削除することはありません。日付の数字やカンマも削除する必要がある場合は、検索ルールに対応する一致項目を追加する必要があります。
4. 一括削除前に誤削除を回避するにはどうすればよいですか?
ルールをあまりに広範囲に記述しないでください。例えば、すべての4桁の数字に一致させる場合、PDF内の他の場所にある4桁の数字もヒットする可能性があります。正式な一括処理の前に、サンプルファイルでテストし、出力結果を確認することをお勧めします。
まとめ:PDFの繰り返し削除作業を一括処理ソフトウェアに任せる
PDFファイル内の不固定テキストを一括削除する鍵は、適切な一致ルールを見つけることです。 HeSoft Doc Batch Tool は、「PDF内のキーワードを検索して置換」機能を通じて、ファイルのインポート、ルール設定、保存出力、処理開始を一貫したフローにつなげます。ユーザーは検索リストに一致させたいコンテンツを記述し、置換リストを空にするだけで一括削除を完了できます。
PDFの日付、年、番号、機密フィールドなどのコンテンツを頻繁に処理する必要がある場合は、本記事のフローを参考として保存することをお勧めします。まずPDFを整理し、ファイルリストをインポートし、次に数式ファジー検索を選択し、ルールを記入し、置換内容を空にし、最後に新しいディレクトリに保存して結果を確認する、という手順です。これにより、繰り返し操作を大幅に削減し、PDFの削除作業をより安定的かつ効率的に行うことができます。