이 문서에서는 사무용 소프트웨어의 PDF 키워드 찾기 및 바꾸기 기능을 사용하는 방법을 소개합니다. 와일드카드나 수식을 통한 퍼지 매칭 방식으로 여러 PDF 파일에서 날짜, 연도, 월 등 고정되지 않은 텍스트를 일괄 삭제할 수 있습니다. 예제에서는 1.pdf부터 4.pdf까지 총 4개의 PDF를 처리해야 하며, 원본 파일에는 April과 2017 등의 내용이 포함되어 있습니다. 처리 후 매칭된 키워드는 삭제되고, 정리하지 않아도 되는 텍스트만 남습니다. 보고서, 계약서, 자료 패키지에서 민감 정보와 반복 필드를 일괄 정리하는 데 적합합니다.
PDF 보고서, 계약서, 감사 자료 또는 대외 발행 파일을 정리할 때 자주 부딪히는 매우 번거로운 문제가 있습니다. 바로 삭제해야 할 텍스트가 완전히 고정되어 있지 않다는 점입니다. 예를 들어 어떤 PDF에는 April 13, 2017이라고 쓰여 있고, 어떤 PDF에는 May 20, 2018이라고 쓰여 있으며, 또 다른 파일은 연도, 월, 번호가 모두 다릅니다. 파일을 하나하나 열어서 수동으로 찾아 삭제하면 시간이 오래 걸릴 뿐만 아니라 빠뜨리기 쉽습니다. 이 글에서 해결하려는 문제가 바로 이러한 유형입니다. 와일드카드나 수식 퍼지 검색 방식을 사용하여 여러 PDF 파일에서 키워드를 대량으로 삭제하는 것입니다.
스크린샷에서 볼 수 있듯이, 이번에 사용된 소프트웨어는 " HeSoft Doc Batch Tool "입니다. 이 소프트웨어는 사무 환경을 위한 문서 대량 처리 도구로, 핵심 가치는 반복적인 파일 처리 작업을 하나의 프로세스로 통합하여 완료하는 것입니다. PDF 파일의 키워드 정리에 있어 이 도구는 "PDF에서 키워드 찾기 및 바꾸기" 기능을 제공합니다. 여러 PDF를 작업 목록에 추가하고, 찾을 키워드 규칙을 설정한 다음 바꿀 내용을 비워두면 PDF 텍스트 내용을 대량 삭제할 수 있습니다.
적용 시나리오: 와일드카드로 키워드를 대량 삭제하기에 적합한 PDF
이러한 PDF 키워드 대량 삭제 요구는 일상적인 사무에서 매우 흔하게 발생합니다. 예를 들어, 회사에서 대외적으로 PDF 보고서를 일괄 발송해야 하는데 보고서 날짜의 월과 연도를 삭제해야 하는 경우, 법무 부서에서 계약 PDF의 고객 이름, 신분증 번호, 일련번호 또는 금액을 정리해야 하는 경우, 행정 직원이 여러 PDF 공지사항의 이전 날짜를 일괄 삭제해야 하는 경우, 자료 보관 시 파일 본문에 반복적으로 나타나는 버전 번호, 프로젝트 코드 또는 배치 번호를 제거해야 하는 경우 등이 있습니다.
삭제할 텍스트가 완전히 동일하다면 일반적인 정확한 찾기 및 바꾸기로 완료할 수 있습니다. 하지만 키워드에 변동이 있을 때는 퍼지 검색을 사용해야 합니다. 예를 들어, 월이 April이나 May가 될 수 있고, 연도가 2017, 2018, 2026과 같은 네 자리 숫자일 수 있습니다. 이때 와일드카드, 수식 또는 정규 표현식과 유사한 방식을 사용하여 소프트웨어가 고정된 단어 하나만 일치시키는 것이 아니라 특정 패턴의 텍스트를 일치시키도록 할 수 있습니다. 스크린샷에서 사용된 방식은 "수식을 사용하여 퍼지 텍스트 찾기"이며, 키워드 목록에 April|May와 \d{4}를 입력하여 April 또는 May, 그리고 네 자리 숫자 연도를 일치시키도록 했습니다.
주의할 점은, 여기서의 목표는 PDF의 텍스트 키워드를 삭제하는 것이지 페이지 전체를 삭제하거나 PDF 파일 자체를 삭제하는 것이 아니라는 점입니다. 소프트웨어는 찾기 규칙에 따라 PDF 내용에서 일치하는 텍스트를 찾아 설정에 따라 바꾸기를 실행하며, 바뀐 후의 키워드 목록이 비어 있을 때는 일치하는 내용을 삭제하는 것과 같습니다.
효과 미리보기: 처리 전 여러 PDF 본문에 정리가 필요한 키워드 포함
처리 전, 폴더에는 4개의 PDF 파일, 즉 1.pdf, 2.pdf, 3.pdf, 4.pdf가 있습니다. 이러한 다중 파일 작업에서 사람이 직접 파일을 하나씩 열어 April, May, 연도 등의 내용을 일일이 검색한다면 작업량은 파일 수에 비례하여 빠르게 증가할 것입니다.

PDF 중 하나를 열면 페이지 안에 April 13, 2017이라는 날짜 내용이 있습니다. 스크린샷에서는 April과 2017이 빨간색 상자로 표시되어 있고 화살표로 처리해야 할 위치를 가리키고 있습니다. 여기서 처리 목표는 전체 날짜를 삭제하는 것이 아니라, 퍼지 규칙을 통해 월과 연도를 삭제하고 가운데의 "13,"과 같이 삭제할 필요가 없는 내용은 그대로 유지하는 것입니다.

이 예시는 "와일드카드 대량 퍼지 PDF 키워드 삭제"의 가치를 설명하기에 매우 적합합니다. 월과 연도는 PDF마다 다를 수 있기 때문에 April이나 2017만 입력하면 고정된 텍스트만 삭제할 수 있지만, 수식 퍼지 검색을 사용하면 April, May 및 임의의 네 자리 연도를 한 번에 처리할 수 있어 더 많은 유사 파일에 적용할 수 있습니다.
효과 미리보기: 처리 후 일치한 월과 연도가 삭제됨
처리가 완료된 후 PDF를 열어 결과를 확인하면, 원래 April이 표시되던 위치가 공백으로 바뀌고, 원래 2017이 표시되던 위치도 공백으로 바뀌었으며, 가운데의 "13,"은 여전히 남아 있습니다. 이는 소프트웨어가 설정에 따라 일치 규칙에 해당하는 내용만 삭제하고, 페이지 내용 전체나 다른 텍스트를 함께 지우지 않았음을 의미합니다.

처리 효과로 볼 때, 대량 퍼지 PDF 텍스트 삭제는 규칙이 명확한 텍스트 정리에 적합합니다. 예를 들어, 영문 월 삭제, 네 자리 연도 삭제, 고정 형식 번호 삭제, 특정 유형의 민감어 삭제 등입니다. 키워드 규칙만 정확하게 설정하면, PDF를 반복적으로 열고, 찾고, 편집하고, 저장하는 수동 작업을 크게 줄일 수 있습니다.
작업 단계 1: PDF 도구 진입 및 "PDF에서 키워드 찾기 및 바꾸기" 선택
HeSoft Doc Batch Tool 를 실행한 후, 왼쪽 기능 분류에서 "PDF 도구"를 선택합니다. 주 영역에는 PDF 관련 대량 처리 기능이 여러 개 표시됩니다. 스크린샷에 따르면, 이번에 사용할 항목은 첫 번째인 "PDF에서 키워드 찾기 및 바꾸기"이며, 설명은 "PDF 파일 내용에서 키워드를 대량 찾기 및 바꾸기"입니다.

이 단계의 목적은 PDF 텍스트 키워드를 전문적으로 처리하는 기능 모듈로 진입하는 것입니다. 이는 PDF 워터마크 추가, PDF 비밀번호 추가, PDF를 Word로 변환하는 등의 기능과는 다르며, 핵심은 PDF 내용의 텍스트를 찾고 바꾸는 것입니다. 우리가 달성하려는 것은 키워드 삭제이므로, 이후에 "바뀐 후의 키워드 목록"을 비워 두어 일치하는 내용이 빈 내용으로 대체되도록 할 것입니다.
작업 단계 2: 대량 처리할 PDF 파일 추가
기능에 진입하면 페이지 상단에 "파일 추가", "폴더에서 파일 가져오기", "지우기", "더 보기" 등의 버튼이 보입니다. 작업 프로세스의 1단계는 "처리할 레코드 선택"입니다. PDF 파일 수가 많지 않다면 "파일 추가"를 클릭하여 하나씩 선택할 수 있고, 파일들이 모두 같은 폴더에 있다면 "폴더에서 파일 가져오기"를 사용하여 여러 PDF를 한 번에 추가할 수 있습니다.

스크린샷에는 이미 4개의 레코드가 추가되어 있으며, 이름은 각각 1.pdf, 2.pdf, 3.pdf, 4.pdf이고 확장자는 모두 pdf이며, 경로는 D 드라이브 test 디렉터리에 있습니다. 목록에는 생성 시간, 수정 시간 및 작업 열도 표시됩니다. 레코드가 정확한지 확인한 후 하단의 "다음"을 클릭하여 처리 옵션 설정으로 넘어갑니다.
이 단계의 예상 결과는, 정리가 필요한 모든 키워드 PDF가 목록에 나타나고, 수량, 파일 이름, 경로가 모두 예상과 일치하는 것입니다. 대량 처리 전에 파일 목록을 확인하여 처리할 필요가 없는 PDF가 작업에 추가되지 않았는지 검토하는 것이 좋습니다. 실수로 파일을 추가했다면 작업 열의 삭제 아이콘을 통해 제거하거나, "지우기"를 사용하여 다시 선택할 수 있습니다.
작업 단계 3: 수식 퍼지 찾기 선택 및 삭제할 키워드 규칙 입력
2단계 "처리 옵션 설정"으로 이동하면 "키워드 옵션 설정"을 볼 수 있습니다. "찾는 방식"에서 인터페이스는 "정확한 텍스트 찾기"와 "수식을 사용하여 퍼지 텍스트 찾기"를 제공합니다. 이 예시에서는 삭제할 내용에 변동이 있으므로 "수식을 사용하여 퍼지 텍스트 찾기"를 선택합니다.

"찾을 키워드 목록"에서 스크린샷에는 두 줄의 규칙이 입력되었습니다: 첫 번째 줄은 April|May, 두 번째 줄은 \d{4}입니다. 여기서 April|May는 April 또는 May와 일치한다는 의미이고, \d{4}는 연속된 네 자리 숫자와 일치한다는 의미로, 2017, 2018, 2026 등의 연도를 맞추는 데 자주 사용됩니다. 이 두 규칙을 통해 서로 다른 PDF에 있는 영문 월과 네 자리 연도를 함께 찾아낼 수 있습니다.
오른쪽은 "바뀐 후의 키워드 목록"으로, 인터페이스에는 "입력하지 않으면 삭제를 의미합니다"라고 안내되어 있습니다. 따라서 목표가 PDF에서 이러한 키워드를 대량 삭제하는 것이라면, 오른쪽에 바꿀 텍스트를 입력할 필요 없이 빈 상태로 두면 됩니다. 이렇게 하면 소프트웨어가 왼쪽에서 일치하는 내용을 찾아 빈 내용으로 바꾸어 삭제 효과를 냅니다.
이 단계는 매우 중요합니다. 먼저 소수의 샘플 파일로 규칙이 올바르게 작동하는지 테스트하는 것을 권장합니다. 예를 들어 PDF 1개만 처리하여 April, May 및 네 자리 연도가 정확히 삭제되는 것을 확인한 후, 전체 폴더에 대해 대량 처리를 실행하는 것이 좋습니다. 일련번호, 날짜, 휴대폰 번호, 계약 번호 등 더 복잡한 내용의 경우에도 텍스트 패턴에 따라 해당하는 퍼지 찾기 규칙을 작성할 수 있습니다.
작업 단계 4: 계속하여 저장 위치 설정 및 처리 시작
처리 옵션 설정을 완료한 후 페이지 하단의 "다음"을 클릭합니다. 프로세스 표시줄에서 후속 단계로 "저장 위치 설정"과 "처리 시작"이 있음을 볼 수 있습니다. 스크린샷에는 이 두 페이지의 세부 사항이 나타나 있지 않지만, 인터페이스 흐름에 따라 합리적으로 판단할 수 있습니다: 다음 단계에서는 처리된 PDF를 어디에 저장할지 확인한 다음, 처리 시작 단계로 들어가야 합니다.
특히 와일드카드나 수식 규칙을 처음 사용하는 경우에는 중요한 원본 파일을 직접 덮어쓰지 않는 것이 좋습니다. 더 안전한 방법은 처리된 PDF를 새 폴더에 저장하고, 처리가 완료된 후 몇 개의 파일을 열어 결과를 확인하는 것입니다. 키워드가 삭제되었고 본문이 잘못 삭제되지 않았는지 확인한 후, 공식적인 보관이나 대외 발송에 사용하는 것이 좋습니다.
작업이 시작되면 소프트웨어는 목록의 PDF를 하나씩 찾아 바꾸기를 실행합니다. 사람이 직접 4개, 40개, 심지어 400개의 PDF를 열어 키워드를 하나씩 삭제하는 것과 비교하면, 대량 처리의 장점은 매우 분명합니다. 규칙은 한 번만 설정하면 되고, 소프트웨어가 자동으로 모든 파일에 적용합니다.
자주 묻는 질문 및 주의사항
1. 바뀐 후의 키워드 목록을 왜 비워둘 수 있나요? 스크린샷의 안내에서 볼 수 있듯이 "입력하지 않으면 삭제를 의미합니다". 따라서 오른쪽 바꾸기 목록이 빈 상태이면, 소프트웨어는 찾은 내용을 빈 내용으로 대체하여 PDF 키워드 삭제 효과를 구현합니다.
2. 정확한 찾기와 수식 퍼지 찾기의 차이점은 무엇인가요? 정확한 찾기는 완전히 동일한 텍스트(예: 고정된 회사명, 고정된 워터마크 텍스트, 고정된 프로젝트명)를 삭제하는 데 적합합니다. 수식 퍼지 찾기는 규칙성이 있지만 완전히 동일하지 않은 내용(예: 서로 다른 연도, 서로 다른 월, 연속된 숫자, 번호 조각 등)을 삭제하는 데 적합합니다.
3. \d{4}가 모든 네 자리 숫자를 삭제하나요? 규칙과 일치하는 네 자리 숫자와 일치합니다. 따라서 PDF에 삭제하고 싶지 않은 네 자리 숫자도 있는 경우 신중하게 사용해야 하며, 먼저 테스트하는 것이 가장 좋습니다. 규칙이 광범위할수록 잘못 삭제될 위험이 높고, 규칙이 정확할수록 처리 결과를 더 잘 제어할 수 있습니다.
4. 스캔된 PDF를 처리할 수 있나요? PDF 페이지가 본질적으로 이미지이고 텍스트를 선택하거나 복사할 수 있는 텍스트 레이어가 없다면 일반 텍스트 찾기 및 바꾸기가 일치하지 않을 수 있습니다. 이러한 파일은 일반적으로 먼저 OCR 인식을 수행한 후, 실제 텍스트 레이어 상황에 따라 처리해야 합니다.
5. 대량 처리 전에 백업이 필요한가요? 백업하는 것이 좋습니다. 파일을 대량으로 수정할 때는 원본 PDF를 유지하거나 출력 내용을 새 디렉터리에 저장하는 것이 가장 좋습니다. 이렇게 하면 규칙 설정이 적절하지 않더라도 빠르게 되돌릴 수 있습니다.
요약: 한 번의 규칙으로 PDF를 반복해서 여는 수작업을 대체
HeSoft Doc Batch Tool 의 "PDF에서 키워드 찾기 및 바꾸기" 기능을 통해, 원래 반복적이고 비효율적이었던 PDF 키워드 삭제 작업을 표준화된 프로세스로 전환할 수 있습니다. 이 글의 예시에서는 먼저 1.pdf에서 4.pdf까지 가져온 후, 수식 퍼지 찾기를 선택하고 April|May와 \d{4}를 입력한 다음, 바뀐 후의 키워드 목록을 비워두어 최종적으로 PDF의 월과 네 자리 연도를 대량 삭제했습니다.
PDF 보고서, 계약서, 아카이브, 자료 패키지의 날짜, 번호, 민감어 또는 기타 규칙적인 텍스트를 자주 정리해야 하는 경우, 이 글의 단계에 따라 먼저 소량의 파일로 테스트한 후 전체 파일 일괄 처리로 확장할 수 있습니다. 이렇게 하면 반복적인 수작업을 줄일 수 있을 뿐만 아니라 사람이 삭제할 내용을 빠뜨릴 확률도 낮출 수 있어, PDF 대량 처리를 더 효율적이고 통제 가능하게 만듭니다.