25/10/15 16:29:48.46 0.net
たった1万5000円&4時間でChatGPTのような対話可能AIをゼロから構築できるオープンソースプラットフォーム「nanochat」が登場
OpenAIの創設メンバーでAI開発エンジニアのアンドレイ・カルパティ氏が、ChatGPTのようなAIチャットボットを一から構築するためのオープンソースプロジェクト「nanochat」を公開しました。nanochatを使えば約100ドル(約1万5000円)の予算で、数時間で基本的な大規模言語モデル(LLM)の学習からChatGPTのようなAIチャットボットを構築することが可能となっています。
GitHub - karpathy/nanochat: The best ChatGPT that $100 can buy.
URLリンク(github.com)
nanochat
URLリンク(simonwillison.net)
nanochatは、モデルの心臓部となるニューラルネットワークの設計から、言語を理解するためのトークン化、知識を獲得させる事前学習、対話能力を洗練させるファインチューニング、そして完成したモデルと会話するためのウェブインターフェースまで、LLM開発に必要な全ての要素を単一のコードベースにまとめて提供します。コード全体は約8000行と比較的コンパクトで、主にPython(PyTorch)で書かれており、一部の高速処理が必要なトークナイザーの学習にはRustが用いられています。
nanochatの最大の特徴は、その手軽さと透明性。通常、高性能なLLMの開発には数億円規模の投資が必要とされますが、nanochatはNVIDIA H100という高性能GPUを8基搭載したコンピューターを時間単位でレンタルすることで、このコストを劇的に引き下げます。
例えば、1時間あたり約24ドル(約3600円)でレンタルできるコンピューターを使えば、「speedrun.sh」という付属のスクリプトを実行するだけで、一連の学習プロセスを総額100ドル(約1万5000円)ほど、しかも約4時間という短時間で完了できます。この「speedrun.sh」で生成されるモデルは約5億6000万パラメータを持ち、基本的な会話が可能なレベルに到達します。
学習プロセスは、大きく4つの段階に分けられます。
最初の「事前学習」は最も時間を要する段階で、約3時間をかけて行われます。ここでは、FineWeb-EDUという教育的なウェブページから収集された約24GBの膨大なテキストデータをモデルに読み込ませます。これにより、モデルは言語の構造や世界の幅広い知識を獲得します。
次に「ミッドトレーニング(中間学習)」と呼ばれる段階に移行します。このプロセスでは、一般的な会話データセット(SmolTalk)や、多肢選択問題(MMLU)、算数の文章問題(GSM8K)などを学習させます。これにより、モデルは単に知識を持つだけでなく、ユーザーとの対話形式や、特定の問いに答えるための作法を学びます。
続いて「教師ありファインチューニング(SFT)」を約7分間行います。ここでは、特に質の高い選りすぐりの会話データを使い、モデルの応答をさらに洗練させ、性能の最終的な底上げを図ります。
最後に行う「強化学習(RL)」はオプションで、デフォルトでは実行されませんが、算数問題のように正解が明確なタスクにおいて、モデルが自ら試行錯誤を繰り返すことで正答率をさらに高めることができます。