23/03/10 01:56:14.33 vTp9ba/b0.net
@namise_ea: Microsoftが「Visual ChatGPT」をリリース。注目すべきは、Visual ChatGPTがメインとなるChatGPTを中心に、Stable DiffusionやControlNet等の画像生成AIをプラグインしていること。
その結果、事前学習なしでも画像を理解可能な、画像×文章を組み合わせた会話AIとなった。 URLリンク(twitter.com)
@namise_ea: 多くの人が触っているであろう画像生成AIは呪文をぶつけて、生成結果次第では修正した呪文をぶつける必要があった。
画像×文章での会話が可能なAIであれば、生成した画像を認識したAIに修正案を投げることにより、的確に修正してくれるようになるか。
@DrJimFan: In the Transformer movies, 9 Decepticons merge to form “Devastator”, a much larger and stronger bot.
This turns out to be a powerful paradigm for multimodal LLM too. Instead of a monolithic Transformer, we can stack many pre-trained experts into one.
My team’s work, Prismer, is… URLリンク(twitter.com)
@DrJimFan: Here is a sample multimodal dialogue from Visual ChatGPT:
2/ URLリンク(pbs.twimg.com)
@DrJimFan: Because there are no trainable parameters, this whole system requires extensive prompt engineering, chain of thoughts, and dialogue history book-keeping. Here's the overall system design figure:
3/ URLリンク(pbs.twimg.com)
(deleted an unsolicited ad)