많은 PDF 파일에서 날짜, 번호, 월, 이름 또는 프로젝트 코드 등의 내용이 반복적으로 나타납니다. PDF를 하나씩 열어 수동으로 삭제하면 시간이 오래 걸릴 뿐만 아니라 누락되기 쉽습니다. 이 문서에서는 HeSoft Doc Batch Tool 을 예로 들어, 수식을 사용하여 텍스트를 퍼지 검색하고, 와일드카드나 정규식과 유사한 방식으로 여러 PDF의 가변 키워드를 일괄 매칭한 후, 대체 내용을 비워 두어 PDF 텍스트를 일괄 삭제하는 효과를 구현하는 방법을 보여줍니다.
계약서, 보고서, 보관 자료 또는 공개 문서를 정리할 때 다음과 같은 문제가 자주 발생합니다. 많은 PDF 파일에 제거해야 할 텍스트가 있지만, 그 텍스트가 완전히 동일하지는 않습니다. 예를 들어 어떤 파일에는 월이 표시되고, 어떤 파일에는 연도가 표시되며, 어떤 곳에는 연속된 숫자 번호가, 어떤 곳에는 날짜의 특정 부분이 표시됩니다. PDF를 하나씩 열어 뷰어로 검색한 후 수동으로 삭제하면 효율이 매우 낮을 뿐만 아니라 수십, 수백 개의 파일을 처리하다 보면 삭제 누락, 오삭제 또는 저장 혼선 문제가 발생하기 쉽습니다.
이 문서에서 해결하고자 하는 것은 이러한 일괄 처리 시나리오입니다. HeSoft Doc Batch Tool 을 사용하여 여러 PDF에서 와일드카드 개념을 통해 퍼지 검색을 수행하고, 일치하는 키워드를 일괄 삭제합니다. 인터페이스의 기능 이름은 "PDF 키워드 찾기 및 바꾸기"이며, 그중 "수식을 사용하여 텍스트 퍼지 검색"은 "월이 고정되지 않음", "연도가 고정되지 않음", "번호 자릿수는 고정되었지만 내용이 변경됨"과 같은 상황을 처리하는 데 적합합니다. 바꿀 키워드 목록을 비워두면 일치하는 텍스트를 삭제하는 효과를 얻을 수 있습니다.
적용 시나리오: 어떤 PDF 콘텐츠가 와일드카드 일괄 삭제에 적합한가
와일드카드 일괄 삭제 PDF 키워드는 "텍스트에 규칙이 있지만 구체적인 내용은 변경되는" PDF 텍스트를 처리하는 데 적합합니다. 예를 들어 동일한 유형의 보고서 표지에 "April 13, 2017", "May 13, 2020"과 같은 형식의 날짜가 있는 경우, 또는 파일에 네 자리 연도, 고정 길이 번호, 배치 번호, 버전 번호, 일련번호 등이 있는 경우입니다. 이들의 공통된 특징은 하나의 고정된 단어만 입력하여 정확하게 삭제하기에는 부적합하지만, 하나의 규칙으로 통일되게 매칭하여 찾아낼 수 있다는 점입니다.
스크린샷 예시에서 처리할 파일은 4개의 PDF이며, 파일 이름은 각각 1.pdf, 2.pdf, 3.pdf, 4.pdf입니다. 각 PDF에는 정리해야 할 날짜 관련 내용이 존재합니다. 처리 전 파일 목록은 다음과 같습니다.

PDF 중 하나를 열어 보면 페이지에 "April 13, 2017"과 같은 날짜가 있습니다. 예시에서는 삭제할 부분을 빨간색 상자로 표시했습니다. 월 "April"과 연도 "2017"입니다. 파일마다 월이나 연도가 변경될 수 있으므로 일반적인 정확한 검색을 사용하려면 여러 개의 고정 단어를 입력해야 합니다. 하지만 수식 퍼지 검색을 사용하면 "April|May"로 여러 가능한 월을 매칭하고, "\d{4}"로 네 자리 숫자 연도를 매칭할 수 있습니다.

주의할 점은, 이 문서에서 다루는 것은 PDF 파일 내용 중 텍스트의 일괄 검색 및 삭제이며, PDF 파일 이름을 삭제하거나 전체 페이지를 삭제하는 것이 아닙니다. 파일 이름 일괄 수정, PDF 페이지 삭제, Word/docx/doc 또는 Excel 표 변환 등은 다른 도구 시나리오에 해당합니다. 이 문서의 핵심은 PDF 본문 내의 키워드를 일괄 처리하는 것입니다.
효과 미리보기: 처리 전후 PDF 키워드 삭제 결과 비교
처리 전, PDF 페이지에서 완전한 날짜를 볼 수 있으며, 월과 연도가 모두 페이지에 표시됩니다. 일괄 찾기 및 바꾸기 기능을 설정하면 소프트웨어는 가져온 여러 PDF에 대해 동일한 규칙을 개별적으로 실행합니다. 수식에 맞는 텍스트를 찾고 바꿀 내용을 비워둡니다. 이렇게 하면 일치하는 텍스트가 PDF에서 삭제됩니다.
처리 후 예시 효과는 다음과 같습니다. 원래 월 위치가 공백으로 바뀌고 네 자리 연도도 삭제되어, 일치하여 삭제되지 않은 부분(예: 중간의 "13,")만 남아 있는 것을 볼 수 있습니다. 이는 소프트웨어가 단순히 특정 고정 좌표 영역을 지우는 것이 아니라, 입력된 검색 규칙에 따라 해당 텍스트를 찾아 바꾸기 삭제를 수행한다는 것을 보여줍니다.

이 방식의 장점은 매우 분명합니다. 각기 다른 PDF의 월, 연도, 번호가 다르지만 형식 규칙이 일정할 때, 파일이나 페이지를 일일이 확인하며 수동으로 처리할 필요가 없다는 점입니다. 규칙 설정만 올바르게 하면 PDF 전체를 한 번에 처리할 수 있어, 자료 비식별화, 보고서 발행 전 정리, 이력 파일 보관, 템플릿 내용 제거 등의 작업에 특히 적합합니다.
작업 단계: HeSoft Doc Batch Tool 를 사용하여 PDF 키워드 일괄 삭제
아래에서 스크린샷 순서에 따라 전체 작업 흐름을 소개합니다. 전체 흐름은 기능 선택, PDF 가져오기, 퍼지 검색 및 삭제 규칙 설정, 저장 위치 설정 및 처리 시작의 네 단계로 이해할 수 있습니다. 각 단계마다 현재 설정이 예상에 부합하는지 확인해야 하며, 특히 와일드카드나 수식 규칙은 소량의 파일로 먼저 테스트한 후 전체 파일을 일괄 처리하는 것을 권장합니다.
1단계: PDF 도구에 들어가서 PDF 키워드 찾기 및 바꾸기 선택
HeSoft Doc Batch Tool 를 연 후, 왼쪽 도구 분류에서 "PDF 도구"를 선택합니다. 오른쪽에는 PDF 워터마크 추가, 페이지 삭제, Word로 변환, TXT로 변환 등 여러 PDF 일괄 처리 기능 카드가 표시됩니다. 여기서 선택할 것은 첫 번째 항목인 "PDF 키워드 찾기 및 바꾸기"입니다.

이 단계의 목적은 PDF 텍스트 찾기 및 바꾸기 흐름으로 진입하는 것입니다. 삭제하려는 것은 PDF 내용 중의 키워드이므로 "PDF 페이지 삭제"나 "PDF를 Word로 변환"을 선택해서는 안 됩니다. 올바른 기능을 선택하면 소프트웨어가 마법사 형식의 작업 인터페이스로 진입하며, 상단에서 처리할 레코드 선택, 처리 옵션 설정, 저장 위치 설정, 처리 시작의 흐름 단계를 볼 수 있습니다.
2단계: 여러 PDF 파일 추가 및 처리할 레코드 확인
기능 페이지에 진입한 후, 먼저 처리할 PDF 파일을 가져옵니다. 인터페이스 오른쪽 상단에 "파일 추가" 및 "폴더에서 파일 가져오기" 버튼이 있습니다. 지정된 몇 개의 PDF만 처리하는 경우 "파일 추가"를 클릭할 수 있으며, 한 폴더 내에 처리할 PDF가 모두 있다면 "폴더에서 파일 가져오기"를 사용하여 일괄 가져올 수 있습니다. 스크린샷에는 이미 4개의 PDF 파일을 가져왔으며, 목록에는 순번, 이름, 경로, 확장자, 생성 시간 및 수정 시간이 표시됩니다.

이 단계의 작업 목적은 "어떤 PDF가 일괄 처리될 것인지"를 확인하는 것입니다. 가져온 후 파일 수량, 경로 및 확장자가 올바른지 확인하십시오. 예시의 레코드 수는 4이며, 이는 1.pdf, 2.pdf, 3.pdf, 4.pdf가 모두 후속 키워드 삭제에 참여함을 의미합니다. 처리할 필요가 없는 파일이 있다면 작업 열에서 제거할 수 있으며, 잘못 가져왔다면 인터페이스의 "비우기"를 사용하여 다시 선택할 수 있습니다. 확인이 끝나면 하단의 "다음"을 클릭합니다.
3단계: 수식을 사용하여 텍스트 퍼지 검색 선택 및 삭제할 규칙 입력
"처리 옵션 설정" 페이지로 이동하면 키워드 옵션을 중점적으로 설정해야 합니다. 스크린샷에서 "검색 방식"은 "수식을 사용하여 텍스트 퍼지 검색"을 선택했으며, 이것이 와일드카드 일괄 퍼지 삭제를 구현하는 핵심입니다. "텍스트 정확하게 검색"과 비교하여, 수식 퍼지 검색은 규칙이 포함된 표현식을 입력하여 하나의 규칙으로 한 부류의 텍스트를 매칭하는 데 적합합니다.

"검색할 키워드 목록"에서 각 행에는 매칭할 내용이나 규칙을 하나씩 기입할 수 있습니다. 예시에서 첫 번째 행은 "April|May"로, April 또는 May를 매칭하는 것으로 이해할 수 있습니다. 두 번째 행은 "\d{4}"로, 2017, 2020 등과 같은 네 자리 숫자 연도를 매칭하는 데 사용됩니다. 이렇게 하면 소프트웨어가 PDF에서 월 단어와 네 자리 연도를 검색하며, 특정 고정 문자열만 검색하지는 않습니다.
오른쪽은 "바꿀 키워드 목록"입니다. 스크린샷의 안내에 따르면 "기입하지 않으면 삭제를 의미"합니다. 이 점이 매우 중요합니다. 어떤 키워드를 새로운 내용으로 바꾸고 싶다면 오른쪽에 바꿀 텍스트를 기입하고, 목표가 PDF에서 키워드를 삭제하는 것이라면 해당 바꿀 내용을 비워둡니다. 이 문서의 요구 사항은 일괄 퍼지 삭제이므로 오른쪽에 내용을 기입하지 않아, 소프트웨어가 일치하는 텍스트를 빈 값으로 바꾸도록 합니다.
설정 시에는 먼저 삭제할 범위를 명확히 기재한 후, 여러 행으로 나누어 처리할지 결정하는 원칙을 따르는 것이 좋습니다. 예를 들어 월과 연도를 삭제해야 한다면 예시처럼 두 행으로 나누어 작성할 수 있으며, 네 자리 연도만 삭제한다면 "\d{4}"만 작성합니다. 규칙을 너무 광범위하게 작성하지 마십시오. 그렇지 않으면 PDF 내의 다른 정상적인 숫자를 실수로 삭제할 수 있습니다. 예를 들어 "\d+"는 연속된 숫자를 매칭하므로 범위가 네 자리 연도보다 넓어 사용 전에 주의해야 합니다.
4단계: 계속 진행하여 저장 위치 설정 및 일괄 처리 시작
키워드 규칙 설정을 완료했으면 페이지 하단의 "다음"을 클릭합니다. 상단 흐름에 따라 이후에는 "저장 위치 설정" 및 "처리 시작"으로 진입합니다. 이 두 단계의 목적은 각각 처리된 PDF가 저장될 위치를 결정하고, 정식으로 일괄 검색 및 바꾸기를 실행하는 것입니다. 결과를 대조 확인하기 쉽도록, 원본 파일을 직접 덮어쓰지 말고 새로운 출력 디렉터리에 저장하는 것을 권장합니다. 이렇게 하면 규칙 조정이 필요하더라도 원본 PDF로 돌아가 다시 처리할 수 있습니다.
처리를 시작하면 소프트웨어는 가져온 목록에 따라 PDF를 하나씩 처리합니다. 완료 후, 출력 폴더의 PDF를 열어 결과를 확인합니다. 첫 페이지나 대상 날짜, 번호가 포함된 위치를 먼저 확인하여 월, 연도 등 일치하는 내용이 삭제되었는지 확인한 후 다른 파일을 계속 검사합니다. 대량의 PDF를 처리한 경우, 특히 내용 형식이 약간 다른 파일을 포함하여 여러 파일을 표본 추출 검사하는 것이 좋습니다.
와일드카드 및 수식 작성 설명: PDF 내용 오삭제를 방지하는 방법
많은 사용자가 "와일드카드", "퍼지 매칭", "정규식"을 혼동하여 이해합니다. 실제 사용 시 복잡한 이론을 숙지할 필요는 없으며, 그것들의 목표가 규칙을 사용하여 한 부류의 텍스트를 매칭하는 것임을 알면 충분합니다. 스크린샷의 "수식을 사용하여 텍스트 퍼지 검색"은 "April|May"와 같이 둘 중 하나를 나타내는 표현, "\d{4}"와 같이 네 자리 숫자를 나타내는 수식을 사용하여 검색할 내용을 표현하는 것을 지원합니다.
삭제할 내용이 회사의 이전 명칭, 고정된 프로젝트명, 통일된 워터마크 텍스트 등 고정된 단어인 경우 정확한 텍스트 검색을 사용할 수 있습니다. 삭제할 내용이 연도, 번호, 월, 배치 번호 등 가변적인 내용인 경우에만 수식 퍼지 검색이 더 적합합니다. 처음 사용하는 사용자는 1~2개의 PDF로 먼저 검증 처리를 수행하여 삭제 효과가 예상에 부합하는지 확인한 후, 전체 폴더를 가져와 일괄 처리하는 것을 권장합니다.
또한 PDF의 텍스트가 항상 편집 가능한 텍스트인 것은 아닙니다. 일부 스캔본은 텍스트처럼 보이지만 실제로는 이미지일 수 있습니다. PDF에 인식 가능한 텍스트 레이어가 없다면 일반적인 검색 및 바꾸기가 작동하지 않을 수 있습니다. 이 경우 먼저 PDF 내용을 선택, 복사 또는 검색할 수 있는지 확인해야 합니다. 이 문서 예시의 PDF 텍스트는 매칭이 가능하므로 일괄 삭제를 완료할 수 있습니다.
자주 묻는 질문 및 주의 사항
1. 바꿀 키워드 목록을 왜 비워두어야 하나요?
이번 요구 사항은 바꾸기가 아닌 삭제이기 때문입니다. 인터페이스에 "기입하지 않으면 삭제를 의미합니다"라고 안내되어 있습니다. 따라서 오른쪽 바꾸기 목록에 내용을 입력하지 않으면 소프트웨어가 검색된 텍스트를 공백으로 바꾸므로, 시각적으로 키워드가 삭제된 것처럼 보입니다.
2. 한 번에 많은 PDF를 처리할 수 있나요?
가능합니다. 이 도구의 포지셔닝은 바로 사무 문서 일괄 처리로, PDF 파일 일괄 처리에 적합하며 반복 작업을 줄여줍니다. "파일 추가"를 통해 여러 PDF를 선택하거나 "폴더에서 파일 가져오기"를 통해 폴더 내의 PDF를 한 번에 가져올 수 있습니다. 가져온 후에는 레코드 수와 경로를 확인하여 불필요한 파일이 작업에 포함되지 않도록 하십시오.
3. 규칙을 잘못 작성하면 어떻게 하나요?
규칙을 너무 광범위하게 작성하면 삭제해서는 안 될 내용을 삭제할 수 있고, 규칙을 너무 협소하게 작성하면 삭제가 누락될 수 있습니다. 따라서 원본 파일을 먼저 백업하거나, 저장 위치 설정 시 새 폴더로 출력하는 것을 권장합니다. 완료 후 처리 결과를 확인하여 예상과 다르면 검색 규칙을 조정한 후 다시 처리합니다.
4. 이 방법과 Word로 변환한 후 삭제하는 것의 차이점은 무엇인가요?
PDF를 Word, docx 또는 doc으로 변환한 후 검색 삭제하는 것도 하나의 방법이지만, 레이아웃 변경, 페이지 나눔 변경 및 다시 PDF로 내보내야 하는 문제가 발생할 수 있습니다. PDF에서 직접 키워드를 일괄 검색 및 바꾸면 PDF의 일부 텍스트만 정리하면서 원본 PDF의 레이아웃을 최대한 유지하려는 시나리오에 더 적합합니다.
요약: 일괄 처리 도구로 PDF 반복 정리 작업 줄이기
여러 PDF 파일에 유사하지만 완전히 동일하지 않은 키워드가 존재할 때, 수동으로 하나씩 삭제하는 것은 효율적인 방안이 아닙니다. HeSoft Doc Batch Tool 의 "PDF 키워드 찾기 및 바꾸기" 기능을 사용하여 "수식을 사용하여 텍스트 퍼지 검색"을 선택하고 바꿀 내용을 비워두면 와일드카드 방식의 일괄 퍼지 삭제를 구현할 수 있습니다. 날짜, 연도, 번호, 고정 형식의 가변 텍스트 등 무엇이든 규칙을 통해 일괄적으로 매칭 처리할 수 있습니다.
비식별화, 날짜 정리 또는 번호 삭제가 필요한 PDF를 처리 중이라면, 먼저 테스트 파일을 준비하여 이 문서의 단계에 따라 PDF를 가져오고 퍼지 검색 규칙을 설정하며, 새 폴더에 출력하고 효과를 확인하는 것을 권장합니다. 규칙이 안정적으로 작동하는 것을 확인한 후 전체 파일을 소프트웨어에 맡겨 처리하면 반복 작업 시간을 대폭 줄이고 PDF 정리 및 배포 전 처리 효율을 높일 수 있습니다.