日常のTXTテキスト処理では、文書内の重複または類似した不要なコンテンツをクリーンアップする必要がよくあります。これは、システムが生成したマーク、重複するデータ項目、または一括クリーンアップが必要な特定の説明用語である可能性があります。ただし、TXTファイル自体には重複チェック機能がないため、これらの類似ファイルを手動で検索すると、時間が無駄になるだけでなく、見落としも発生しやすくなります。しかし、ファジーマッチングの方法を利用することで、文書内の削除が必要なキーワードに似た段落を迅速に識別し、一括削除とクリーンアップを実現できます。
ここでは、数式を利用してTXTメモ帳内の類似した複数のキーワードをあいまい検索し、一括削除してドキュメントの内容をより簡潔にする方法をご紹介します。実際に操作してみましょう!
TXTファイル内の構造が似た文字や数字を削除する必要があるのはどのような場合か?
重複データの整理
プログラムで生成されたTXTファイルには、大量の重複した、または形式が同じ数字やテキストレコードが含まれていることがよくあります。不要な重複情報を削除する必要がある場合、あいまい一致を利用してこれらの構造が類似した内容を整理し、TXTデータファイルをより簡潔にして分析しやすくすることができます。
バッチ番号の削除
TXTデータファイルの中には、実質的な意味を持たない大量の番号や注釈が存在することがあります。一つずつ削除するのは非常に手間がかかります。数式を使用して対応する番号をあいまい検索することで、迅速に一括削除し、データの可読性と処理効率を向上させることができます。
テンプレート化された情報の除去
メールやシステムが生成するTXTファイルを処理する際、構造が似たテンプレート内容が含まれていることがあります。その中核となる情報を抽出するには、これらの定型化された重複内容を削除し、特定のキーワードのみを保持する必要があります。対応する構造のテキストや数字をあいまい検索で見つけ出し、一括削除することが可能です。
あいまい検索でTXT内のキーワードを一括削除する効果のプレビュー
処理前:

処理後:

TXT内のキーワードをあいまい検索して一括削除する操作手順
1、【 HeSoft Doc Batch Tool 】を開き、【テキストツール】-【テキスト内のキーワードを検索して置換】を選択します。

2、【ファイルを追加】または【フォルダからファイルをインポート】から、類似するキーワードを削除したいTXTファイルを追加する方法を選択します。ファイルを直接下のエリアにドラッグして追加することも可能です。ファイルに問題がないことを確認し、「次へ」をクリックします。

3、オプション設定画面に入り、【数式を使用してテキストをあいまい検索】を選択し、検索キーワードリストの下に正規表現の数式を入力します。置換後のキーワードリストの下は空欄のままにしておきます。最後に再度「次へ」をクリックします。その後、「参照」をクリックして、新しいファイルの保存場所を選択します。

4、処理が完了するのを待ち、赤いパスをクリックしてフォルダを開くと、キーワードが正常に削除されたTXTファイルを確認できます。
