「逆転裁判」でOpenAI-o1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Llama-4 Maverickの推論能力を検証する [すらいむ★]at SCIENCEPLUS
「逆転裁判」でOpenAI-o1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Llama-4 Maverickの推論能力を検証する [すらいむ★] - 暇つぶし2ch1:すらいむ ★
25/04/19 23:44:24.93 mPZ+IZMU.net
「逆転裁判」でOpenAI-o1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Llama-4 Maverickの推論能力を検証する

カリフォルニア大学サンディエゴ校のAI研究者であるHao Zhang教授が率いる「Hao AI Lab」が、カプコンの人気ゲーム「逆転裁判」を使ってOpenAI-o1やGemini 2.5 Pro、Llama-4 MaverickAIなどといったAIモデルの推論能力をテストした結果を公開しています。

Hao AI Labは、OpenAIの元主任科学者であるイルヤ・サツキヴァー氏がかつて「次に現れる単語を非常に高い精度で予測できるニューラルネットワークほど理解度が高いと言えます」と発言し、たとえとして「たとえば、あなたが推理小説を読んでいて、最後のページで探偵がこう言うとします。『これから犯人の正体を明かします。その人物の名前は……』と。あなたがこの続きを予測できるなら、物語を理解していると言えますよね?」と紹介したことに触発され、実際にAIを探偵役にして真実を解き明かすことがベンチマークとして使えると考えたそうです。
そこで、Hao AI Labが選んだのが「逆転裁判」でした。

(以下略、続きはソースでご確認ください)

Gigazine 2025年04月17日 19時00分
URLリンク(gigazine.net)


レスを読む
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch