「逆転裁判」でOpenAI-o1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Llama-4 Maverickの推論能力を検証する [すらいむ★]

「逆転裁判」でOpenAI-o1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Llama-4 Maverickの推論能力を検証する [すらいむ★]at SCIENCEPLUS

「逆転裁判」でOpenAI-o1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Llama-4 Maverickの推論能力を検証する [すらいむ★] - 暇つぶし2ch1:すらいむ ★
25/04/19 23:44:24.93 mPZ+IZMU.net
「逆転裁判」でOpenAI-o1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Llama-4 Maverickの推論能力を検証する

カリフォルニア大学サンディエゴ校のAI研究者であるHao Zhang教授が率いる「Hao AI Lab」が、カプコンの人気ゲーム「逆転裁判」を使ってOpenAI-o1やGemini 2.5 Pro、Llama-4 MaverickAIなどといったAIモデルの推論能力をテストした結果を公開しています。

Hao AI Labは、OpenAIの元主任科学者であるイルヤ・サツキヴァー氏がかつて「次に現れる単語を非常に高い精度で予測できるニューラルネットワークほど理解度が高いと言えます」と発言し、たとえとして「たとえば、あなたが推理小説を読んでいて、最後のページで探偵がこう言うとします。『これから犯人の正体を明かします。その人物の名前は……』と。あなたがこの続きを予測できるなら、物語を理解していると言えますよね？」と紹介したことに触発され、実際にAIを探偵役にして真実を解き明かすことがベンチマークとして使えると考えたそうです。
そこで、Hao AI Labが選んだのが「逆転裁判」でした。

（以下略、続きはソースでご確認ください）

Gigazine 2025年04月17日 19時00分
URLﾘﾝｸ(gigazine.net)

レスを読む