구조화된 데이터 형식은 문서 계층 관계를 완벽하게 보존할 수 있어 콘텐츠 구조화 관리가 필요한 기업 법무, 핀테크, 디지털 출판 등의 시나리오에 적합하며, XML은 제목, 단락, 표 등을 지능적으로 식별하여 계약 조항, 재무 데이터, 문헌 자료 등 핵심 정보를 검색 및 분석 가능하도록 만듭니다. 아래에서는 대량의 PDF 파일을 XML 형식으로 일괄 변환하는 방법을 소개합니다.
1. 사용 시나리오
연구자가 PDF 문서 논문에서 차트 데이터, 참고 문헌 등의 요소를 추출하거나 PDF 파일의 장, 주석, 색인을 자동으로 분리해야 할 때, XML 형식으로 일괄 변환할 수 있습니다. 이 트리 구조는 콘텐츠 계층을 완벽하게 보존하고 콘텐츠 모듈화 관리를 실현할 수 있습니다.
2. 효과 미리보기
처리 전:

처리 후:

3. 조작 단계
【 HeSoft Doc Batch Tool 】를 열고 【PDF 도구】-【PDF를 XML로 변환】을 선택합니다.

【파일 추가】변환할 PDF 문서를 직접 선택하여 추가합니다.
【폴더에서 파일 가져오기】선택한 폴더의 모든 PDF 형식 파일을 가져옵니다.
아래에서 가져온 파일을 확인합니다.

처리가 완료되면 저장 위치 경로를 클릭하여 변환된 파일을 확인합니다.
