이 문서에서는 HeSoft Doc Batch Tool 을 사용하여 여러 PDF 파일에서 와일드카드 또는 수식 퍼지 검색을 통해 키워드를 일괄 삭제하는 방법을 소개합니다. 예제에서는 4개의 PDF를 처리하며, 날짜의 월 단어와 네 자리 연도를 일괄 삭제하고 중간의 날짜 숫자만 남깁니다. 문서는 처리 전후 효과와 소프트웨어 인터페이스 스크린샷을 결합하여 PDF 가져오기, 찾기 및 바꾸기 기능 선택, 퍼지 일치 규칙 설정, 바꿀 내용을 비워서 삭제하는 방법, 그리고 PDF 텍스트 레이어, 대소문자 및 백업과 같은 주의 사항을 상기시키는 방법을 설명합니다.
계약서, 보고서, 논문 자료, 공개 문서 또는 보관 파일을 정리할 때 자주 마주치는 반복적인 작업이 있습니다. 많은 PDF 파일에 유사한 날짜, 번호, 이름, 버전 번호 또는 고정 설명 문구가 포함되어 있어, 이를 일괄 삭제하거나 비식별화해야 하는 경우입니다. 예를 들어 폴더에 수십 또는 수백 개의 PDF가 있고, 각 표지에 April 13, 2017과 같은 날짜가 있다면, PDF를 하나씩 열고 수동으로 텍스트를 선택하여 삭제 후 저장하는 방식은 시간이 많이 소요될 뿐만 아니라 삭제 누락이나 위치 오류가 발생하기 쉽습니다.
본 문서에서 해결하고자 하는 것은 바로 이러한 일괄 처리 문제입니다. 오피스 소프트웨어 " HeSoft Doc Batch Tool "의 "PDF에서 키워드 찾기 및 바꾸기" 기능을 사용하여, 와일드카드/수식 퍼지 검색 방식을 통해 여러 PDF 파일의 키워드를 일괄 삭제하는 것입니다. 예시에서는 4개의 PDF 파일을 동시에 처리하여, April 또는 May라는 월 단어와 4자리 연도를 삭제함으로써 가변 텍스트를 일괄 정리하는 목적을 달성합니다.
특히 유의할 점은, 여기서 말하는 "삭제"는 PDF 페이지 전체를 삭제하거나 페이지를 자르는 것이 아니라, PDF 파일 내용 중 지정된 텍스트를 일괄 찾아서 바꾸는 것입니다. 바꿀 키워드 목록에 내용을 입력하지 않으면, "찾으면 삭제"하는 효과를 구현할 수 있습니다. 날짜, 번호와 같이 규칙은 있지만 완전히 동일하지 않은 내용의 경우, 와일드카드나 수식 퍼지 검색을 사용하는 것이 고정 키워드를 하나씩 입력하는 것보다 훨씬 효율적입니다.
적용 시나리오: 와일드카드를 사용한 PDF 키워드 일괄 삭제에 적합한 경우
"와일드카드를 사용하여 여러 PDF 파일의 키워드를 일괄 퍼지 삭제하기"는 텍스트 규칙이 비교적 명확하지만 구체적인 내용은 변동될 수 있는 PDF 파일을 처리하는 데 적합합니다. 일반적인 시나리오는 다음과 같습니다.
- PDF 표지의 날짜 일괄 삭제 (예: April 13, 2017, May 5, 2020 등).
- PDF 본문의 연도, 번호, 보고서 버전 번호, 일련번호 등 고정 형식의 내용 일괄 삭제.
- 여러 PDF 내의 지정된 영단어, 부서명, 이전 프로젝트명 또는 임시 표시 일괄 정리.
- 파일 대외 발송 전 사전 비식별화를 위해 PDF 내 민감 필드를 일괄 교체 또는 삭제.
- 동일 템플릿으로 생성된 대량의 PDF 처리 (예: 보고서, 증명서, 통지서, 명세서, 감사 자료 등).
삭제할 내용이 완전히 일치한다면 정확한 텍스트 검색을 사용할 수 있습니다. 삭제할 내용이 4자리 숫자, 다른 월, 다른 번호처럼 규칙성이 있다면 "수식을 사용한 퍼지 텍스트 찾기"를 사용하는 것이 더 적합합니다. 스크린샷의 예시는 수식을 사용하여 April 또는 May를 매칭하고, \d{4}로 4자리 연도를 매칭하여 한 번에 여러 PDF의 유사 텍스트를 처리하는 것입니다.
이러한 요구는 오피스 소프트웨어의 파일 일괄 처리 핵심 가치를 보여줍니다. 즉, 원래 수동으로 반복해야 했던 파일 열기, 찾기, 삭제, 저장 작업을 한 번의 규칙 설정과 일괄 실행으로 전환하여 반복 작업을 크게 줄여줍니다.
결과 미리보기: 처리 전 여러 PDF, 내용 중 삭제해야 할 날짜 키워드 포함
처리 전, 폴더에는 1.pdf, 2.pdf, 3.pdf, 4.pdf라는 이름의 4개 PDF 파일이 있습니다. 이것들이 이번 일괄 처리의 대상입니다. 실제 업무에서는 이 수량이 더 많을 수 있으며, 수십 개의 고객 자료, 수백 개의 보고서, 또는 특정 폴더에 날짜별로 보관된 PDF 묶음일 수 있습니다.

PDF 중 하나를 열어 보면, 표지 위치에 날짜 내용인 April 13, 2017이 존재합니다. 스크린샷에는 빨간색 상자로 처리해야 할 두 부분이 표시되어 있습니다. 월 단어인 April과 네 자리 연도인 2017입니다. 중간의 13,은 이번 삭제 범위에 포함되지 않으므로, 처리 후에도 유지되어야 합니다.

하나의 PDF만 처리한다면 수동 삭제도 가능할 수 있지만, 이러한 날짜가 여러 PDF에 분포하고 월이나 연도가 완전히 동일하지 않다면 매우 번거로워집니다. 특히 연도는 임의의 네 자리 숫자일 수 있어, 모든 연도를 하나씩 나열하는 것은 현실적이지 않습니다. 이때 와일드카드나 수식 퍼지 검색을 사용하면 "규칙에 맞는 텍스트"를 통일적으로 식별해 낼 수 있습니다.
처리 후 효과: 월과 네 자리 연도는 삭제되고, 일치하지 않은 내용만 유지됨
일괄 처리를 완료한 후, PDF를 다시 열어 보면 원래 April로 표시되던 위치는 삭제되었고, 원래 2017로 표시되던 위치도 삭제되었으며, 중간의 13,은 그대로 유지되어 있습니다. 스크린샷에서 빨간색 상자 표시 부분이 비어 있는 것은 해당 키워드가 성공적으로 정리되었음을 의미합니다.

이 결과는 두 가지 점을 시사합니다. 첫째, 소프트웨어가 단순히 줄 전체를 삭제하는 것이 아니라 설정된 검색 규칙에 따라 지정된 텍스트를 찾아낸다는 점입니다. 둘째, 대체 내용을 비워두면, 일괄적으로 키워드를 삭제하는 효과를 낼 수 있다는 점입니다. 날짜류 내용의 경우, 월과 연도만 삭제하거나, 실제 규칙에 따라 전체 날짜 삭제, 번호 삭제, 특정 단어 삭제 등으로 확장할 수 있습니다.
조작 단계 1: PDF 도구 진입 및 찾기 바꾸기 기능 선택
" HeSoft Doc Batch Tool "을 열면, 스크린샷 좌측 상단에서 소프트웨어 이름과 버전 정보를 확인할 수 있습니다. 이 소프트웨어는 문서 일괄 처리류 오피스 소프트웨어로, 왼쪽에는 파일 이름, 폴더 이름, 파일 정리, 워드 도구, 엑셀 도구, 파워포인트 도구, PDF 도구, 텍스트 도구, 이미지 도구, 비디오 도구, 오디오 도구 등의 분류가 제공됩니다. 본 문서의 작업은 PDF 텍스트 내용을 처리하는 것이므로, 왼쪽의 "PDF 도구"로 진입해야 합니다.
PDF 도구 목록에서 첫 번째 항목인 "PDF에서 키워드 찾기 및 바꾸기"를 선택합니다. 해당 기능 설명은 PDF 파일 내용의 키워드를 일괄 찾기 및 바꾸기 위한 것으로, 이번 PDF 키워드 일괄 삭제 요구 사항에 정확히 부합합니다.

이 기능을 선택하는 목적은 일괄 찾기 바꾸기 프로세스로 진입하기 위한 것입니다. 일반 PDF 리더와 달리, 여기서는 파일 하나를 열어 수동으로 편집하는 방식이 아니라, 먼저 여러 PDF를 선택한 후 찾기 규칙과 바꾸기 규칙을 통일적으로 설정하고 마지막에 일괄 처리 실행을 진행합니다.
조작 단계 2: 일괄 처리할 PDF 파일 추가하기
"PDF에서 키워드 찾기 및 바꾸기" 인터페이스에 진입한 후 첫 번째 단계는 "처리할 레코드 선택"입니다. 인터페이스 우측 상단에는 "파일 추가", "폴더에서 파일 가져오기", "비우기", "더 보기" 등의 버튼이 제공됩니다. 소량의 PDF는 "파일 추가"를 클릭하여 개별적으로 선택할 수 있으며, PDF가 이미 하나의 폴더에 모여 있다면 "폴더에서 파일 가져오기"를 사용하는 것이 더 편리합니다.
스크린샷에는 이미 4개의 PDF 파일이 가져와져 있으며, 목록에는 일련번호, 이름, 경로, 확장자, 생성 시간, 수정 시간 및 작업 열이 표시되어 있습니다. 4개의 레코드가 각각 D:\test\1.pdf, D:\test\2.pdf, D:\test\3.pdf, D:\test\4.pdf에 대응하며, 확장자는 모두 pdf이고, 하단에는 총 레코드 수가 4로 요약 표시됩니다.

이 단계의 예상 결과는 처리해야 할 모든 PDF가 목록에 나타나는 것입니다. 파일을 잘못 선택한 경우, 작업 열의 삭제 버튼을 통해 제거할 수 있으며, 목록이 올바르지 않다면 "비우기"를 사용하여 다시 가져올 수도 있습니다. 파일이 정확함을 확인한 후, 하단의 "다음"을 클릭하여 처리 옵션 설정으로 넘어갑니다.
조작 단계 3: 수식 퍼지 텍스트 찾기 활성화 및 와일드카드 규칙 작성
두 번째 단계인 "처리 옵션 설정"으로 진입하면, "키워드 옵션 설정" 영역을 볼 수 있습니다. 여기서 가장 중요한 것은 "찾기 방식"입니다. 인터페이스는 "정확한 텍스트 찾기"와 "수식을 사용한 퍼지 텍스트 찾기" 두 가지 방식을 제공합니다. 이번 예시에서 처리할 내용은 단일 고정 단어가 아니라 규칙성을 가진 내용이므로, "수식을 사용한 퍼지 텍스트 찾기"를 선택해야 합니다.

"찾을 키워드 목록"에서, 스크린샷 예시는 두 줄의 규칙을 작성했습니다:
- April|May: April 또는 May를 매칭하는 데 사용됩니다. 세로 바(|)는 여러 후보 단어 사이에서 선택하는 것을 의미하며, 다른 월 단어를 일괄 삭제하는 데 적합합니다.
- \d{4}: 네 자리 숫자를 매칭하는 데 사용되며, 주로 2017, 2020, 2026 등과 같은 연도를 찾는 데 사용됩니다.
오른쪽은 "바꿀 키워드 목록"이며, "기입하지 않으면 삭제함을 의미합니다"라고 명확히 안내되어 있습니다. 따라서 목표가 PDF의 키워드를 일괄 삭제하는 것이라면, 오른쪽에 대체 내용을 입력해서는 안 됩니다. 이렇게 하면 소프트웨어가 왼쪽 규칙과 일치하는 텍스트를 찾은 후, 그것을 빈 값으로 대체, 즉 삭제하게 됩니다.
이 단계의 조작 목적은 "무엇을 삭제할 것인지"를 규칙으로 명확히 설명하는 것입니다. April, May, 2017, 2018, 2019를 각각 입력하는 방식과 달리, 수식 퍼지 검색은 한 번에 한 부류의 텍스트를 커버할 수 있습니다. 예를 들어 \d{4}는 모든 네 자리 연도를 커버할 수 있어, 대량의 PDF에서 연도가 일치하지 않는 상황을 처리하는 데 적합합니다.
조작 단계 4: 저장 위치 설정 계속하기 및 일괄 처리 시작
찾기 규칙과 바꾸기 규칙을 설정한 후, 페이지 하단의 "다음"을 클릭합니다. 프로세스 표시줄을 보면, 후속 단계에는 "저장 위치 설정"과 "처리 시작"이 포함됩니다. PDF 내용을 일괄 수정할 때는, 처리된 파일을 원본 파일과 구분하고 결과를 대조 확인하기 쉽도록 새 폴더에 저장하는 것이 좋습니다.
스크린샷에 저장 위치 페이지의 구체적인 옵션이 나타나 있지는 않지만, 프로세스로 미루어 보아 소프트웨어가 사용자에게 먼저 저장 위치를 확인하도록 안내한 후, 처리를 실행할 것임을 분명히 알 수 있습니다. 처리를 완료한 후, 출력된 PDF를 열어 무작위 검사를 진행하여, 삭제해야 할 키워드가 정리되었는지, 삭제 설정을 하지 않은 내용은 그대로 유지되는지를 중점적으로 확인합니다.
이 예시의 경우, 예상 결과는 다음과 같습니다. 4개의 PDF에서 April 또는 May에 해당하는 월 텍스트가 삭제되고, 네 자리 숫자 규칙에 맞는 연도가 삭제되며, 규칙에 맞지 않는 13,은 유지됩니다. 이렇게 하여 여러 PDF 파일의 일괄 퍼지 삭제가 완료됩니다.
자주 묻는 질문 및 주의사항
1. 왜 정확한 검색 대신 수식 퍼지 검색을 사용하나요?
만약 완전히 동일한 단어만 삭제하는 경우, 예를 들어 모든 파일에서 April만 삭제한다면, 정확한 검색으로도 충분합니다. 하지만 삭제할 내용에 변동이 있는 경우, 예를 들어 연도가 2017, 2018, 2020일 수 있거나, 월이 April, May일 수 있다면, 수식 퍼지 검색이 더 적합합니다. 규칙에 따라 한 부류의 내용을 매칭하여 키워드를 일일이 입력하는 작업량을 줄일 수 있기 때문입니다.
2. 바꿀 키워드 목록을 왜 비워두나요?
인터페이스 오른쪽에 "기입하지 않으면 삭제함을 의미합니다"라고 안내되어 있습니다. 즉, 왼쪽에서 매칭된 내용에 대응하는 교체 텍스트가 없으면 빈 값으로 대체됩니다. 본 문서의 목표는 PDF의 키워드를 삭제하는 것이므로, 오른쪽을 빈 상태로 유지하면 됩니다. 이전 단어를 새 단어로 바꾸려면, 오른쪽에 바꿀 내용을 입력해야 합니다.
3. \d{4}를 사용하면 다른 네 자리 숫자를 잘못 삭제할 수 있지 않나요?
그럴 가능성이 있습니다. \d{4}는 네 자리 숫자를 매칭하는 것을 의미하므로, PDF에 다른 네 자리 번호, 페이지 번호 또는 코드가 있다면 그것들도 적중될 수 있습니다. 따라서 정식으로 일괄 처리하기 전에, 먼저 소수의 파일로 테스트하여 규칙이 목표 내용만을 커버하는지 확인하는 것이 좋습니다. 필요하다면 오삭제를 피하기 위해 규칙을 더 구체적으로 작성할 수 있습니다.
4. 스캔된 PDF에서도 이런 방식으로 문자를 삭제할 수 있나요?
PDF의 문자가 본질적으로 이미지 형태라 선택하거나 복사할 수 없는 경우, 일반 텍스트 찾기 바꾸기는 보통 직접 적용할 수 없습니다. 본 문서 예시의 PDF 문자는 인식 가능한 텍스트에 해당하므로 찾아서 바꾸기가 가능했습니다. 처리 전에 먼저 PDF를 열어 텍스트를 선택해 봄으로써 텍스트 레이어의 존재 여부를 판단할 수 있습니다.
5. 일괄 처리 전에 백업이 필요한가요?
백업을 권장합니다. 일괄 처리의 장점은 속도이지만, 일단 규칙 설정이 잘못되면 여러 파일에 일괄적으로 영향을 미칠 수 있습니다. 가장 좋은 방법은 원본 PDF를 보존하고, 출력 파일을 새 디렉토리에 저장하여 결과가 정확함을 확인한 후 정식 파일로 교체하는 것입니다.
요약: 와일드카드로 PDF 키워드를 일괄 삭제하여 반복 편집 작업 줄이기
" HeSoft Doc Batch Tool "의 "PDF에서 키워드 찾기 및 바꾸기" 기능을 통해 여러 PDF의 고정 텍스트 및 규칙성 텍스트를 통일적으로 삭제할 수 있습니다. 본 문서 예시에서는 먼저 4개의 PDF를 가져온 후, "수식을 사용한 퍼지 텍스트 찾기"를 선택하고, 찾을 키워드 목록에 April|May 및 \d{4}를 입력한 뒤, 바꿀 키워드 목록은 비워 둠으로써 최종적으로 월과 연도를 일괄 삭제하는 효과를 구현했습니다.
PDF 보고서, 계약서, 통지서, 보관 자료를 자주 처리하는 사용자에게 이러한 일괄 찾기 바꾸기 방식은 효율성을 현저히 향상시켜, 파일을 하나씩 열고 페이지별로 찾아 수동 삭제하는 반복 작업을 피할 수 있게 해줍니다. 대량의 파일을 정식 처리하기 전에, 먼저 몇 개의 샘플 PDF로 규칙을 테스트하여 효과를 확인한 후 일괄 실행하는 것이 좋습니다. 이렇게 하면 속도를 높이는 동시에 파일 처리의 정확성도 보장할 수 있습니다.