No menu items!

    DeepSeek或引入新记忆架构 梁文锋:当前主流大型模型效率差

    DeepSeek一年前横空出世,在美区苹果App Store下载榜一度超越ChatGPT。DeepSeek今日凌晨开源全新架构模块「Engram」,并同步发表技术论文再度引发关注。(新华社)

    据中国科技网站「DoNews」报导,DeepSeek今日凌晨开源全新架构模块「Engram」,并同步发表技术论文,DeepSeek创办人梁文锋也列名作者名单。据称,Engram模块通过引入可扩充的查找式记忆结构,为大型语言模型提供有别于传统Transformer与MoE架构的全新设计方向。

    「科创板日报」指出,DeepSeek发布的新论文「Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models」(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度),为北京大学与DeepSeek共同完成。

    论文提出条件记忆(conditional memory),通过引入可扩展的查找记忆结构,在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现。同时,DeepSeek开源相关记忆模块Engram。

    「DoNews」报导,该论文指出,当前主流大模型在处理两类任务时存在结构性低效:一类是依赖固定知识的「查表式」记忆,另一类是复杂推理与组合计算。传统Transformer(无论Dense或MoE)均需通过多层注意力与MLP重建这些静态模式,导致计算资源被大量消耗在「重复构造已知模式」上。

    报导称,Engram的内核机制是基于现代化哈希N-Gram嵌入的O(1)查找式记忆。模块会对输入Token串行进行N-Gram切片,并通过多头哈希映射到一个规模可扩展的静态记忆表中,实现常数时间的检索。

    论文强调,这种查找与模型规模无关,即便记忆表扩展至百亿级参数,检索成本仍保持稳定。与MoE的条件计算不同,Engram提供的是「条件记忆」。模块会根据当前上下文隐矢量决定是否激活查找结果,并通过门控机制与主干网络融合。

    论文显示,Engram通常被放置在模型早期层,用于承担「模式重建」职责,从而释放后续层的计算深度用于复杂推理。DeepSeek在27B参数规模的实验中,将部分MoE专家参数重新分配给Engram记忆表,在等参数、等算力条件下,模型在知识、推理、代码与数学任务上均取得显著提升。

    报导指出,在X平台上,相关技术讨论认为Engram的机制有效减少模型早期层对静态模式的重建需求,使模型在推理部分表现得更「深」。

    部分开发者指出,这种架构让大规模静态记忆得以脱离GPU存储限制,通过确定性寻址实现主机内存预取,从而在推理阶段保持低开销。多位观察者推测,Engram很可能成为DeepSeek下一代模型「V4」的内核技术基础。

    热点

    发表评论