控えめな提案: ドキュメント内のすべてを再フォーマットして、AI にとってより興味深いものにする

Web サイトは AI モデルで利用できるように再設計されており、現在、ある連合はこの傾向をデジタルドキュメントにも拡張したいと考えています。

Linux Foundation 傘下の LF AI and Data Foundation は、企業がファイルを AI システムにフィードできるようにすることを目的とした AI フレンドリーなドキュメント形式である DocLang の開発を推進するワーキンググループを結成しました。

IBM、NVIDIA、Red Hat、ABBYY、HumanSignal、Forgisによって設立されたDocLangグループは、PDF、Markdown、HTML、LaTeXなどの既存の形式はAI文書解析には適していないと主張している。

2024 年後半、IBM は、Microsoft の MarkItDown や Marker プロジェクトとは異なり、AI ドキュメントの解析を容易にする Docling と呼ばれるオープンソースツールキットを開発しました。 Docling は、さまざまなファイル形式を構造化された AI 対応データに変換する方法を提供します。 DocLang は、さまざまなシステム間で構造化された出力を交換するための標準によってその基盤を拡張します。

AIオートメーション事業ABBYYのAI戦略担当副社長マキシム・フェルメール氏は声明で、「DocLangはエンタープライズAIの根本的な問題の1つを解決するように設計されている。ドキュメントは機械ではなく人間のために作成されたというものだ」と述べた。「DocLang は、文書の構造、レイアウト、意味、ガバナンスの最小限で標準化された AI ネイティブの表現を提供することで、最新の AI システムのためのはるかに決定論的な基盤を構築します。」

典型的な著者は、既存の形式はレンダリング用に設計されており、AI モデルがトークンに変換するときに意味情報、構造的関係、または幾何学的コンテキストが失われるため、新しい DocLang 形式が必要であると主張します。仕様では、Markdown には十分な範囲が不足し、HTML は冗長すぎる、LaTeX には曖昧さが多すぎると記載されています。

基本的に、DocLang は、DocLang 要素と LLM トークン間を 1 対 1 でマッピングするマークアップを通じて LLM トークナイザーに適合します。この仕様は、LLM トークナイザーに合わせてカスタマイズされたプロンプトを生成する限定された XML 語彙に依存しています。ロスレスなので、AI 変換によって貴重な情報が破壊されることはありません。表、数式、チャート、マルチモーダルコンテンツなどの一般的なグラフィック要素をサポートするように設計されています。そしてそれはオープンスタンダードです。

DocLang はコストの管理にも役立ちます。 AI Cost Check によると、AI モデルの PDF で OCR スキャンを実行するには、ベースラインとして約 1,200 の入力トークンと 150 の出力トークンが必要です。

企業の AI 顧客にとって、これは 1 回限りでは無関係ですが、より大規模な場合には注意が必要です。また、AI モデルのトークンコストは大きく変動するため、企業は、特に文書が長く複雑または高価なフロンティアモデルが使用されている場合、AI システムから PDF を取得するために予想以上に費用がかかっていることに気づくかもしれません。

「PDF は理解されるためではなく、提示されるように設計されています」と ABBYY の AI バリューおよびイネーブルメントリードのジョン・ナイズリー氏は電子メールで述べています。登録する。「PDF が AI パイプラインに入るたびに、構造、意味、レイアウトが失われるため、モデルの精度はモデルの品質ではなくドキュメントの品質によって制限されます。チームは各統合ポイントでカスタムパーサーを構築することで補い、その結果、脆弱で 1 回限りの作業が発生し、新しいドキュメントタイプごとに新たなエンジニアリングスプリントが必要になります。」

ニッスル氏によれば、それには測定可能なコストがかかるという。

「構造があいまいなため、モデルは推測を強いられ、幻覚が起きたり、レイアウトを理解できずに理解したトークンが燃えてしまったりするリスクが高まります」と彼は説明する。「DocLang を使用すると、顧客は精度の向上、コストの削減、トークン消費量の削減、より高速なパフォーマンス、より一貫した出力を期待できます。正確な節約額はユースケースとドキュメントの複雑さによって異なりますが、当社の初期のベンチマークでは、評価したモデルに応じて 4 倍から 30 倍以上のコスト削減が示されています。」

Knisley 氏はまた、ガバナンスの利点についても言及し、文書の出所データとメタデータは文書が転送されるときに削除される可能性があると指摘しました。 DocLang はその情報を添付したままにしている、と彼は言いました。

AI ドキュメント処理を提供する ABBYY は、DocLang ドキュメントを AI モデルにフィードすることでトークンを節約できる可能性を実証するために、DocLang インタラクティブベンチマークを作成しました。たとえば、IBM の 2025 年年次報告書の PDF には 8,421 個の入力トークンと 512 個の出力トークンが含まれていますが、DocLang バージョンでは 5,310 個の入力トークンと 498 個の出力トークンのみが必要です。さらに、DocLang バージョンでは遅延が短くなり (2.7 秒対 4.2 秒)、品質が向上しました (AI がサブセクションを見逃し、PDF への表の結合を中断しました)。

「まだ時期尚早であり、採用を誇張するつもりはない」とナイズリー氏は語った。「この標準はオープンであり、自由に構築できるため、このグループはより多くのテクノロジープロバイダーや企業の参加を積極的に呼びかけています。最初の反応は心強いもので、私たちは今後の展開について楽観的です。」 ®