Proof of AI Journalsの第2弾が、Proof of AI Labからリリースされました。
MetaのLlama 4リリースに焦点を当て、研究者のKevin Rosが、MetaのLlama 4 Scoutが約7.5百万語(約15,000ページ)に相当する10百万トークンのコンテキストウィンドウを持ち、これほど小さなモデルがこれだけ多くの情報を処理できる仕組みを解説します。
彼は次の点をカバーしています:
✅ なぜコンテキストウィンドウのサイズが思った以上に重要なのか
✅ Llama 4 Scoutが位置埋め込みなしのインタリーブ注意層を使い、通常の長さを超えて一般化する仕組み
✅ シーケンス理解を拡張するローテーショナル埋め込みの役割
✅ 長いシーケンス長で標準のsoftmaxが失敗する理由と、Scalable Softmax(SSMax)が重要なトークンを焦点に保つことでそれを解決する仕組み
このリリースは単なるベンチマークの見せびらかしではなく、LLMsが長いドキュメントやコードベース、さらには書籍全体の推論能力を向上させるための大きな一歩です。
