構造化データ形式は、文書の階層関係を完璧に保持できるため、コンテンツの構造化管理を行う企業法務、フィンテック、デジタル出版などのシーンに適しています。また、XMLはタイトル、段落、表などをインテリジェントに認識し、契約条項、財務データ、文献資料などの重要な情報を検索可能かつ分析可能にします。以下では、大量のPDFファイルをXML形式に一括変換する方法を紹介します。
1、使用シーン
研究者がPDF文書の論文から図表データや参考文献などの要素を抽出したり、PDFファイル内の章、注釈、索引を自動的に分離する必要がある場合、XML形式に一括変換できます。そのツリー構造によりコンテンツの階層を完全に保持でき、同時にコンテンツのモジュール化管理も実現します。
2、効果プレビュー
処理前:

処理後:

3、操作手順
【 HeSoft Doc Batch Tool 】を開き、【PDFツール】-【PDFをXMLに変換】を選択します。

【ファイル追加】変換が必要なPDF文書を自主的に選択して追加します。
【フォルダからファイルをインポート】選択したフォルダ内のすべてのPDF形式ファイルをインポートします。
下にインポートされたファイルを表示します。

処理完了後、保存場所の後ろのパスをクリックして変換されたファイルを確認します。
