構造化データフォーマットは文書レベルの関係を完璧に保持でき、コンテンツ構造化管理の企業法務、金融科学技術、デジタル出版などの場面に適しています。契約条項、財務データ、文献資料などの重要な情報を検索可能、分析可能にする。 ここでは大量のpdfファイルをXML形式に一括変換する方法を紹介します。
1、利用シーン
研究者がPDF文書論文のグラフデータ、参考文献などの要素を抽出したり、PDFファイルの章、注釈、索引を自動的に分離したりする必要がある場合、私たちは一括してXML形式に変換することができるそのツリー構造はコンテンツレベルを完全に保持し、コンテンツモジュール管理も実現できる。
2.効果プレビュー
処理前:
処理後:
3.操作手順
【を開くHeSoft Doc Batch Tool】、【PDFツール】-【PDFをXMLに変換】を選択します。

【ファイルの追加】変換が必要なPDF文書の追加を自主的に選択します。
【フォルダからファイルをインポート】選択したフォルダ内のすべてのPDF形式のファイルをインポートします。
インポートしたファイルを下に表示します。

処理が完了するのを待った後、保存場所の後方パスをクリックして変換が完了したファイルを確認します。
