23/12/07 08:01:43.97 gF1O8WoH.net
@jaguring1
MMLUは数学、物理学、化学、生物、医学、歴史、政治、経済、機械学習、心理学など、高校や大学の問題を含む4択問題ベンチマークで、GPT-4は5つの例題を入力時に見て挑戦したら86.4%。3つ見たら85.5%。専門家集団の平均は推定89.8%。あと少しで専門家集団のスコアに届く。その時が徐々に近づいている
URLリンク(pbs.twimg.com)
URLリンク(pbs.twimg.com)
午後3:43 · 2023年10月8日
@jaguring1
2ヶ月前、多学問に関する言語理解タスクであるMMLUにおいて、「専門家集団のスコア(89.8%)に届く時が徐々に近づいている」と述べたが、ついにGeminiが初めて到達に成功した(90.04%)。MMLUを確認し続けて約3年が経ったが、当時はGPT-3の5ショットで43.9%だった
午前7:54 · 2023年12月7日