20/01/05 07:15:11.42 kv6ApXZt0.net
人工知能が2019年センター試験の英語筆記本試験で185点を獲得 2019年11月19日
人工知能プロジェクト「ロボットは東大に入れるか」の一環として、大学入試センター試験の英語筆記科目に挑戦した結果、185点(偏差値64.1)の成績を収めた。
NTTコミュニケーション科学基礎研究所(NTT CS研)ではこのプロジェクトを自然言語処理および知識処理の基礎研究を進めるベンチマークとして捉え、自動解答に関する知見を積み重ねてきた。
近年は深層学習に基づく文書読解技術が進展しており、そのなかの最新技術であるXLNetは、大規模テキストによる事前学習をベースモデルに、問題の性質に合わせた移転学習を施すことで、異なる種類の問題を比較的少量のデータから効率的に解くことを可能にした。
しかし、学習に利用できるデータが大きく不足している問題や、解答に辞書的な情報が不可欠な問題では、十分な精度の解答が得られなかった。
今回NTT CS研は以下の点で改善を施し、過去3年間のセンター本試験/追試験に対して適用した結果、安定して偏差値60以上を達成したという。
不要文除去問題の高精度化
機械学習は正解と不正解のデータの両方を入力して学習するが、文章から不要な文を見つける比較的新しい「不要文除去問題」には適用できない。
というのも、通常の文章には不要な文が含まれておらず、学習に用いるデータを集めることが難しいためだ。このため従来のAIでは、本試験/追試験で15問中6問しか正解できなかった。
そこで、不要文を含まない通常の文章から、文の順序を組み替えて擬似的に不自然な流れを作成することで、大量の不要文除去問題を自動作成する手法を考案。
これにより15問すべて正答できたという。また、過去問や独自作成問題からなるベンチマークデータにおいても、正答率を60%から86%までに高められた。
URLリンク(pc.watch.impress.co.jp)