2026年1月13日(火曜日)、朝。
今日も早起きの一日で、7時過ぎに目が覚めました。起きてみると、DeepSeekが新しい論文を発表していました。新しい技術「Engram」を提案しています。
DeepSeek - Engram オープンソースリポジトリには、デモと論文PDFが含まれています。
論文のタイトルは「Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models.」です。
論文の核心となる考え方は、新しい記憶メカニズムを導入し、モデルがテキストを生成する際に外部に保存された記憶の断片を動的に検索・利用できるようにすることで、モデルの文脈理解と生成能力を向上させるというものです。
このメカニズムは、スケーラブルなルックアップテーブルによって実現され、モデルが必要に応じて関連する記憶内容にアクセスできるようにします。これは、モデル内部のパラメータのみに依存するのではなくなります。この方法は、モデルの性能を向上させるだけでなく、計算リソースの消費を大幅に削減し、大規模言語モデルがリソースが限られた環境でも効率的に動作することを可能にします。
この記憶メカニズムの導入は、大規模言語モデルの発展に新たな方向性を開くものであり、特に長文テキストや複雑なタスクを処理する際に、外部知識や文脈情報をより良く活用できるようになります。
さらに、論文ではEngramとMoEの構成比率の最適化問題についても比較しており、Engram / MoEの比率が性能にU字型曲線の影響を与えることを発見しています。これは、大規模モデルを設計する際に、異なるコンポーネントの比率をどのようにバランスさせるかが、慎重に考慮すべき問題であることを示しています。
哲学的に言えば、「Attention is All You Need」から「Mixture of Experts」、そして現在の「Engram」へと至る道筋は、いずれもモデルのパラメータと計算リソースをより効率的に利用して、モデルの表現力と汎化能力を向上させる方法を模索するものです。幹細胞から分化細胞へ、そして器官系へと進む過程の各ステップは、複雑なシステムがどのように効率的に機能するかを探求するものです。将来、同様の革新がさらに多く見られ、大規模言語モデルがより知的で、より効率的な方向へと発展することを後押しするかもしれません。
総じて、この論文は大規模言語モデルの記憶メカニズムに新たな視点を提供しており、さらなる研究と探求に値するものです。
注目すべきは、近くリリース予定のDeepSeek v4がどのような驚きをもたらすかということです。
楽しみにしています...