여러 PDF에서 삭제할 텍스트가 완전히 동일하지 않은 경우, 예를 들어 월이 April이나 May일 수 있고 연도가 임의의 네 자리 숫자일 수 있다면, 수동으로 하나씩 삭제하는 것은 매우 비효율적입니다. 이 글에서는 HeSoft Doc Batch Tool 의 실제 인터페이스를 바탕으로, 여러 PDF를 가져와서 수식을 사용해 텍스트를 퍼지 조회하고 교체 내용을 비워 두어 PDF에서 고정되지 않은 키워드를 일괄 삭제하는 방법을 설명합니다. 보고서 비식별화, 자료 공개 전 날짜 정리, 계약서 텍스트 일괄 처리 등 사무 환경에 적용할 수 있습니다.
많은 사무직 직원들이 PDF 자료를 처리할 때 간단해 보이지만 시간이 많이 걸리는 작업을 경험합니다. 여러 PDF에서 삭제해야 할 텍스트가 있지만, 그 텍스트가 완전히 동일하지 않은 경우입니다. 예를 들어 어떤 파일에는 April 13, 2017이 있고, 다른 파일에는 May 13, 2018이 있을 수 있으며, 연도, 월, 번호가 파일마다 달라지는 경우입니다. PDF 뷰어로 수동으로 찾으면 파일 하나 처리하는 데 몇 분이 걸리고, 파일이 수십 개라면 단순 반복 작업이 됩니다.
이 글에서는 일괄 사무 처리에 더 적합한 방식을 소개합니다. HeSoft Doc Batch Tool 을 사용하여 PDF 도구에서 "PDF 키워드 찾기 및 바꾸기"를 선택하고, 수식을 이용한 퍼지 텍스트 찾기를 사용하여 일치하는 내용을 빈 값으로 바꾸는 것입니다. 이렇게 하면 여러 PDF에서 고정되지 않은 텍스트를 일괄 삭제할 수 있습니다. 전체 프로세스의 핵심은 먼저 모든 PDF를 작업 목록에 추가하고, 삭제할 텍스트를 와일드카드나 수식 규칙으로 설명한 다음, 소프트웨어가 파일을 하나씩 자동 처리하도록 하는 것입니다.
적용 시나리오: 고정 키워드보다 비고정 키워드에 퍼지 삭제가 더 적합한 경우
고정된 단어 하나만 삭제하면 되는 경우, 예를 들어 특정 회사명이나 특정 프로젝트 코드를 삭제하는 경우라면 정확한 찾기로 충분합니다. 하지만 실제 자료 처리에서는 삭제할 내용이 일정한 패턴을 가지지만 완전히 일치하지 않는 경우가 더 많습니다. 예를 들어 영문 월이 April, May 등 다른 값일 수 있고, 연도가 2017, 2018, 2020 등 임의의 네 자리 숫자일 수 있으며, 보고서 번호에 다른 일련번호가 포함될 수 있고, 계약 번호가 문자와 숫자의 조합으로 구성될 수 있습니다.
이러한 내용을 고정 키워드로 하나씩 입력하면 규칙 수가 많을 뿐만 아니라 누락되기 쉽습니다. 수식을 이용한 퍼지 텍스트 찾기를 사용하면 "특정 유형의 텍스트"를 찾기 대상으로 삼을 수 있습니다. 예를 들어 스크린샷의 April|May는 April 또는 May와 일치하는 것으로 이해할 수 있고, \d{4}는 네 자리 숫자와 일치하는 것으로 이해할 수 있습니다. 이 방식을 통해 PDF에서 날짜, 연도, 번호, 민감한 필드를 일괄 삭제하는 것이 더 효율적입니다.
일반적인 적용 시나리오는 다음과 같습니다. 외부 공개용 PDF 보고서에서 날짜 정보 삭제, 계약 PDF에서 비공개 번호 일괄 삭제, 감사 자료에서 일부 연도 또는 월 삭제, 교육 자료, 설명서, 자료 패키지에서 이전 버전 필드 정리, 여러 PDF 샘플에 대한 통일된 비식별 처리.
결과 미리보기: 처리 전 일괄 정리가 필요한 PDF 파일
이번 예시에서 처리 대상 폴더에는 1.pdf, 2.pdf, 3.pdf, 4.pdf의 네 개의 PDF 파일이 있습니다. 예시 파일 수는 적지만, 작업 방법은 더 많은 PDF에도 동일하게 적용됩니다. 수십 개, 수백 개의 파일에 대해 일괄 처리의 효율성 이점이 더욱 두드러집니다.

PDF 중 하나를 열면 페이지에 April 13, 2017이라는 날짜 내용이 있는 것을 볼 수 있습니다. 스크린샷은 빨간색 상자로 삭제해야 할 April과 2017 두 위치를 표시했습니다. 여기서 요구 사항은 PDF 페이지 전체를 삭제하거나 제목 전체를 삭제하는 것이 아니라, 규칙에 부합하는 텍스트 내용만 삭제하는 것입니다.

이러한 유형의 PDF는 일반적으로 보고서, 설명서, 보관 파일 또는 공개 자료입니다. 파일 한 개에 수십 페이지가 있다면 특정 키워드가 여러 위치에 흩어져 있을 수 있어 수동으로 페이지별로 찾으면 놓치기 쉽습니다. 일괄 찾기 및 바꾸기 기능을 사용하면 소프트웨어가 통일된 규칙에 따라 자동으로 처리하도록 할 수 있습니다.
결과 미리보기: 처리 후 대상 키워드가 삭제되고 기타 내용은 유지됨
처리 완료 후 PDF에서 April과 2017이 사라지고 원래 위치는 빈 영역이 되었으며, "13,"은 그대로 유지됩니다. 이 결과는 소프트웨어가 단순히 전체 줄이나 전체 단락을 삭제한 것이 아니라 키워드 규칙에 따라 일치하는 텍스트를 삭제했음을 보여줍니다.

비식별 처리 또는 고정 형식 정보 정리가 필요한 사무 시나리오에 이 방법은 매우 실용적입니다. PDF의 전체 레이아웃, 제목, 도장, 바닥글 등의 내용을 유지하면서 지정된 규칙에 일치하는 키워드를 삭제할 수 있습니다. 특히 여러 PDF의 내용 구조가 유사한 경우 한 번의 규칙 설정으로 반복 적용할 수 있습니다.
작업 단계 1: PDF 도구에서 키워드 찾기 및 바꾸기 기능 열기
HeSoft Doc Batch Tool 을 연 후, 먼저 왼쪽 탐색 메뉴에서 "PDF 도구"를 선택합니다. 메인 인터페이스 기능 목록에서 "1. PDF 키워드 찾기 및 바꾸기"를 찾습니다. 이 기능의 설명은 "PDF 파일 내용의 키워드 일괄 찾기 및 바꾸기"로, 이 글에서 구현하려는 PDF 텍스트 일괄 삭제에 정확히 부합합니다.

이 기능을 선택하는 목적은 PDF 내용 수준의 찾기 및 바꾸기 프로세스에 진입하는 것입니다. 인터페이스에서는 PDF 암호 추가, PDF 암호 제거, PDF 워터마크 추가, PDF를 Word로 변환 등 다른 PDF 기능도 볼 수 있지만, 이번 작업은 PDF 본문 키워드 정리만 해당되므로 모듈을 잘못 선택하지 않도록 합니다.
작업 단계 2: 여러 PDF 가져오기 및 작업 목록 확인
기능 페이지에 진입하면 프로세스 표시줄에 현재 1단계 "처리할 레코드 선택"이 표시됩니다. 페이지 오른쪽 상단에는 "파일 추가"와 "폴더에서 파일 가져오기" 두 가지 주요 진입점이 제공됩니다. 파일이 흩어져 있으면 "파일 추가"를 사용할 수 있고, 모든 PDF가 같은 디렉토리에 있다면 "폴더에서 파일 가져오기"를 사용하는 것이 시간을 절약할 수 있습니다.

스크린샷에는 이미 4개의 PDF가 가져와져 있으며, 목록에는 번호, 이름, 경로, 확장자, 생성 시간, 수정 시간 등의 정보가 나열됩니다. 확장자가 모두 pdf인 것을 볼 수 있어 추가된 파일이 모두 PDF 파일임을 알 수 있습니다. 하단 요약 정보에는 레코드 수가 4로 표시됩니다. 파일이 정확함을 확인한 후 하단의 "다음"을 클릭합니다.
이 단계에서는 두 가지를 주의 깊게 확인하는 것이 좋습니다. 첫째, 처리해야 할 모든 PDF가 추가되었는지; 둘째, 수정해서는 안 되는 파일이 잘못 추가되지는 않았는지입니다. 목록에 처리할 필요가 없는 파일이 있으면 작업 열의 삭제 아이콘을 통해 제거할 수 있습니다. 일괄 처리의 효율은 매우 높지만, 작업 범위가 정확해야 한다는 전제가 있습니다.
작업 단계 3: 수식을 이용한 퍼지 텍스트 찾기 활성화
다음을 클릭하면 "처리 옵션 설정"으로 진입합니다. "키워드 옵션 설정"에서 찾기 방식을 선택할 수 있습니다. 인터페이스에는 "정확한 텍스트 찾기"와 "수식을 이용한 퍼지 텍스트 찾기" 두 가지 옵션이 있습니다. 이 예시에서는 삭제할 월, 연도가 완전히 고정된 문자열이 아니기 때문에 "수식을 이용한 퍼지 텍스트 찾기"를 선택합니다.

April이라는 단어 하나만 삭제한다면 정확한 텍스트 찾기를 선택해도 됩니다. 하지만 April과 May를 동시에 일치시키거나 모든 네 자리 연도를 일치시키려면 퍼지 규칙을 사용해야 합니다. 퍼지 찾기의 장점은 유사하지만 완전히 일치하지 않는 내용을 통일되게 설명할 수 있어 규칙 수를 줄일 수 있다는 점입니다.
스크린샷에서 "찾을 키워드 목록"에 April|May와 \d{4} 두 줄이 입력되었습니다. 첫 번째 줄은 April 또는 May를 찾는 데 사용되고, 두 번째 줄은 네 자리 숫자를 찾는 데 사용됩니다. 오른쪽의 "바꿀 키워드 목록"은 작성되지 않았으며, 인터페이스에 "입력하지 않으면 삭제를 의미합니다"라고 명확히 안내되어 있습니다. 따라서 소프트웨어는 왼쪽에서 일치하는 내용을 다른 텍스트로 바꾸는 대신 삭제합니다.
작업 단계 4: 빈 값으로 바꾸기를 통해 삭제 구현, 공백 입력이 아님
많은 사용자가 처음 찾기 및 바꾸기를 사용할 때 궁금해합니다. 키워드를 삭제할 때 오른쪽에 공백을 입력해야 하는 걸까요? 스크린샷 안내에 따르면 그럴 필요가 없습니다. 오른쪽에 내용을 입력하지 않으면 삭제를 의미합니다. 공백을 입력하면 일치하는 텍스트가 공백 문자로 바뀌어 시각적 효과가 실제 삭제와 완전히 같지 않을 수 있으며, 후속 텍스트 복사나 레이아웃 판단에 영향을 줄 수도 있습니다.
따라서 이 예시에서는 바꿀 키워드 목록을 빈 상태로 유지합니다. 왼쪽 첫 번째 줄 April|May에 일치하는 영문 월이 삭제되고, 왼쪽 두 번째 줄 \d{4}에 일치하는 네 자리 연도가 삭제됩니다. 처리 후 PDF에는 규칙에 부합하지 않는 부분만 남습니다. 예시의 "13,"과 같은 부분입니다.
설정을 완료한 후 "다음"을 클릭하여 프로세스에 따라 계속 "저장 위치 설정" 및 "처리 시작"을 진행합니다. 처음 처리할 때는 원본 PDF를 직접 덮어쓰지 않도록 새 출력 위치를 선택하는 것이 좋습니다. 완료 후 처리된 PDF를 열어 무작위 검사를 통해 규칙이 유지해야 할 다른 네 자리 숫자를 잘못 삭제하지 않았는지 확인합니다.
자주 묻는 질문 및 주의사항
1. 수식을 이용한 퍼지 찾기는 와일드카드와 동일한 기능인가요? 사용 목적 관점에서 보면 둘 다 고정되지 않은 텍스트 유형을 일치시키는 데 사용됩니다. 인터페이스의 명칭은 "수식을 이용한 퍼지 텍스트 찾기"이며, 실제 사용 시 정확한 찾기보다 더 유연한 규칙 일치 방식으로 이해하면 됩니다.
2. 처리 후 April과 2017만 삭제되고 13은 삭제되지 않은 이유는 무엇인가요? 찾기 규칙이 April|May와 \d{4}만 포함하기 때문입니다. 13은 두 자리 숫자여서 네 자리 숫자 규칙에 부합하지 않으며, April 또는 May도 아니므로 유지되었습니다.
3. PDF에 다른 네 자리 숫자가 있으면 함께 삭제되나요? \d{4}에 부합하면 일치될 가능성이 있습니다. 따라서 공식적인 일괄 처리 전에 소량의 파일로 테스트하거나 규칙을 더 엄격하게 작성하여 오삭제를 줄이는 것이 좋습니다.
4. doc, docx, Excel 등 파일에도 사용할 수 있나요? 이 글에서는 PDF 도구에서의 PDF 키워드 처리만 시연했습니다. 소프트웨어 인터페이스 왼쪽에서 Word 도구, Excel 도구, PowerPoint 도구 등의 분류도 볼 수 있지만, 다른 형식에는 해당 도구를 선택해야 하며, PDF 프로세스를 doc, docx 또는 xlsx 파일에 직접 적용해서는 안 됩니다.
5. 스캔본은 왜 삭제되지 않을 수 있나요? PDF 속 텍스트가 사실 이미지여서 선택하거나 복사할 수 없다면 텍스트 찾기 및 바꾸기로 인식하지 못할 수 있습니다. 이 경우 먼저 PDF에 편집 또는 검색 가능한 텍스트 레이어가 있는지 확인해야 합니다.
결론: PDF 고정되지 않은 텍스트 일괄 삭제, 핵심은 규칙 작성
여러 PDF에서 고정되지 않은 텍스트를 일괄 삭제하는 핵심은 삭제 클릭을 반복하는 것이 아니라, 삭제할 내용을 규칙으로 추상화하는 것입니다. HeSoft Doc Batch Tool 을 통해 여러 PDF를 먼저 가져온 다음, "PDF 키워드 찾기 및 바꾸기" 기능에서 "수식을 이용한 퍼지 텍스트 찾기"를 선택하고 April|May, \d{4}와 같은 규칙을 입력하고 바꿀 내용을 비워두면 일괄 퍼지 삭제를 구현할 수 있습니다.
보고서, 계약서, 아카이브 자료, 외부 배포 PDF를 자주 처리하는 사용자에게 이 방법은 반복적인 노동을 현저히 줄여줄 수 있습니다. 공식적인 일괄 처리 전에 먼저 백업 파일을 준비하고 소량의 샘플로 규칙을 검증한 후, 내용이 정확함을 확인한 다음 전체 PDF를 처리하는 것이 좋습니다. 이렇게 하면 효율성을 높이고 파일 정리 결과의 신뢰성을 보장할 수 있습니다.