はじめに
ドキュメント内に表の情報が埋め込まれている場合が多く、自然言語処理において表を正しく抽出することは重要です。
今回は、有料版のClaude3 OpusとGPT-4に表の画像を与えて、表の情報を正しく抽出することができるか試してみました。
この情報は2024年3月6日時点の結果となります。
表の抽出
表のデータ
「経済産業省の電気設備基準の解釈」内の表の一部を扱いました。
https://www.meti.go.jp/policy/safety_security/industrial_safety/sangyo/electric/files/20231226-2.pdf
実験方法
・PDFの表を画像化
・画像と「表形式で出力してください。」とメッセージを送る。
1. 単純な表の場合
GPT-4
正しく抽出できています。
Claude3 Opus
正しく抽出できています。
単純な表の場合、どちらも正しく抽出することができました。
2. セル結合を含む表の場合
GPT-4
セル結合箇所は新しい列を追加している。
概ね抽出できているが、以下の間違えがある。
・「電線」が「試験」になっている。
・「適用範囲の種類」という新しい列名がつけられている。
Claude3 Opus
セル結合箇所は列方向に分割している。内容は正しく抽出できている。
勝者はClaude3 Opusと判定します。
3. セル結合を複数含む表の場合
GPT-4
表の形は近しいが、内容の間違いが目立つ。
・「絶縁体の厚さ(mm)」が無い。
・2列目の1, 4, 7行目が全て「14以下」になっている。
・「ブチルゴム混合物の場合」が「プラケーブル管内の場合」になっている。
・「エチレンプロピレンゴム混合物の場合」が「エチレンプロピレン絶縁ケーブル管内の場合」になっている。
Claude3 Opus
ほぼ正しく抽出できています。間違いは以下の通り。
・「ブチルゴム混合物の場合」が「プチルゴム混合物の場合」になっている。
・「1500を超え<br>3,500以下」と改行が<br>で記載されている。
勝者はClaude3 Opusと判定します。
結論
表の抽出ではClaude3 Opusに軍配が上がる結果になりました。
GPT-4 | Claude3 Opus | |
単純な表の場合 | ○ | ○ |
セル結合を含む表の場合 | × | ○ |
セル結合を複数含む表の場合 | × | ○ |