23/07/06 22:43:53.26 x6howf15.net
@ImAI_Eruel
LLMのトークン制限は頻繁に議論になりますが,とんでもない手法が出てきました
"LongNet"
URLリンク(arxiv.org)
トークン長が10億(!)と主張する手法で,ChatGPT/GPT-4が3万,最近の研究のMAXが100万なので凄いインフレです(冒頭の図が強すぎる)
実質的にはほぼ無限入力長と記憶力で,書籍どころか,普通の人が見るWeb領域の全体,社内文書,コードベースなどを丸ごと読み込んでもお釣りが来るレベルです.
手法としては,指数関数的に注意領域を増やすDilated Attetionというものを提案しており,実験的にも大小のシーケンスで性能を落としてない模様.
さすがに手法が強すぎて界隈では議論が起きていますが,実装も公開されています.
URLリンク(aka.ms)
URLリンク(pbs.twimg.com)