データサイエンス学習記録

ひよっこAIエンジニアの学習記録です。

【Claude3 vs GPT-4】表の抽出どっちが上手いか

はじめに

ドキュメント内に表の情報が埋め込まれている場合が多く、自然言語処理において表を正しく抽出することは重要です。
今回は、有料版のClaude3 OpusとGPT-4に表の画像を与えて、表の情報を正しく抽出することができるか試してみました。
この情報は2024年3月6日時点の結果となります。


表の抽出

表のデータ

経済産業省の電気設備基準の解釈」内の表の一部を扱いました。
https://www.meti.go.jp/policy/safety_security/industrial_safety/sangyo/electric/files/20231226-2.pdf


実験方法

・PDFの表を画像化
・画像と「表形式で出力してください。」とメッセージを送る。


1. 単純な表の場合

GPT-4

正しく抽出できています。


Claude3 Opus

正しく抽出できています。


単純な表の場合、どちらも正しく抽出することができました。


2. セル結合を含む表の場合

GPT-4

セル結合箇所は新しい列を追加している。
概ね抽出できているが、以下の間違えがある。
・「電線」が「試験」になっている。
・「適用範囲の種類」という新しい列名がつけられている。


Claude3 Opus

セル結合箇所は列方向に分割している。内容は正しく抽出できている。


勝者はClaude3 Opusと判定します。


3. セル結合を複数含む表の場合

GPT-4

表の形は近しいが、内容の間違いが目立つ。
・「絶縁体の厚さ(mm)」が無い。
・2列目の1, 4, 7行目が全て「14以下」になっている。
・「ブチルゴム混合物の場合」が「プラケーブル管内の場合」になっている。
・「エチレンプロピレンゴム混合物の場合」が「エチレンプロピレン絶縁ケーブル管内の場合」になっている。


Claude3 Opus

ほぼ正しく抽出できています。間違いは以下の通り。
・「ブチルゴム混合物の場合」が「プチルゴム混合物の場合」になっている。
・「1500を超え<br>3,500以下」と改行が<br>で記載されている。


勝者はClaude3 Opusと判定します。


結論

表の抽出ではClaude3 Opusに軍配が上がる結果になりました。

GPT-4 Claude3 Opus
単純な表の場合
セル結合を含む表の場合 ×
セル結合を複数含む表の場合 ×