数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

DeepSeek新突破:Engram模块破解Transformer记忆难题,V4架构或迎跃迁

2026-01-14来源:快讯编辑:瑞雪

近日,DeepSeek团队联合北京大学发布了一项突破性研究,提出了一种名为Engram的创新模块,旨在解决Transformer架构中长期存在的记忆瓶颈问题。该研究通过引入条件记忆机制,使模型在保持计算效率的同时显著提升了知识存储与检索能力,为大语言模型(LLM)的发展开辟了新路径。

当前主流的稀疏模型架构,如混合专家模型(MoE),虽通过条件计算降低了计算成本,但仍依赖大量参数模拟知识检索过程,导致效率低下。研究团队指出,Transformer缺乏原生知识查找机制,使得许多本应通过简单检索完成的任务被迫依赖复杂计算,既浪费资源又限制性能。针对这一问题,Engram模块通过将静态模式存储与动态计算分离,为模型提供了近似O(1)复杂度的确定性知识查找能力。

Engram的核心设计包含两大关键组件:基于哈希N-gram的稀疏检索机制和上下文感知门控系统。前者通过分词器压缩和确定性哈希函数,将局部上下文映射至预存储的记忆条目;后者则利用动态查询与记忆嵌入的交互,解决哈希冲突和多义词干扰问题。实验表明,该模块在实体识别、固定短语匹配等任务中表现出高度选择性激活,且行为可跨语言泛化。

研究团队通过系统实验验证了Engram与MoE的互补性。他们发现,当模型总参数固定时,合理分配MoE计算资源与Engram记忆容量存在最优比例,形成独特的"U型扩展法则"。在270亿参数规模下,Engram架构模型在严格等参数、等计算量条件下,较纯MoE基线在知识密集型任务(MMLU、CMMLU)中提升达4%,在推理、代码和数学任务(BBH、Humaneval、GSM8K)中提升更显著,最高达5%。

长上下文处理能力是Engram的另一重要优势。通过将局部依赖建模任务卸载至静态查找模块,模型得以保留更多注意力资源处理全局信息。在32K上下文窗口的实验中,Engram架构模型在长程检索和推理任务上展现出显著优势,尤其在等损失和等计算量设定下,性能全面超越MoE基线,甚至在仅使用82%计算量的极端设定下仍保持竞争力。

该研究的工程价值同样突出。Engram的确定性检索机制支持参数存储与计算资源的解耦,为模型优化提供了新思路。训练阶段可采用标准模型并行策略处理大规模嵌入表;推理阶段则可通过预取和重叠策略提升效率。这种设计使得模型在扩展内存容量时无需增加计算成本,为构建更大参数、更高吞吐的LLM提供了可行路径。

据悉,该研究主要由北京大学博士生Xin Cheng领衔完成。作为自然语言处理领域的新锐研究者,Xin Cheng已在NeurIPS、ACL等顶级会议发表多篇一作论文,专注于大语言模型与检索增强生成技术研究。此次提出的Engram架构,已被业界视为稀疏模型发展的重要里程碑,有望在下一代模型中得到广泛应用。

三星Galaxy S26 Ultra现身跑分库:骁龙8至尊版加持 性能潜力待释放
配置方面,该机搭载高通第五代骁龙8至尊版芯片,但测试中并未全速运行——两颗性能核心主频被限制在4.20GHz,低于4.61GHz的默认标准频率,六颗能效核心则维持在3.63GHz运行状态。若能解锁性能核心满频…

2026-01-14

LG电子进军HBM领域:混合键合堆叠设备早期版已出,2029年目标精度存挑战
【环球网科技综合报道】1月13日消息,据TheElec报道,LG电子正在开发用于高带宽存储器(HBM)的混合键合堆叠设备(键合机)早期版本。其中,混合键合工艺的测试是重点之一,团队使用模块和键合头进行相关测试…

2026-01-14

华为数字能源发布2026智能光伏十大趋势 引领新能源行业创新发展
华为2026智能光伏十大趋势,涵盖4个场景化应用趋势和6个技术应用趋势。 趋势一:光风储协同,新能源成为可预测、可调控的稳定电源趋势四:家庭光储场景,率先从AI赋能走向AI原生,实现最优用电体验 趋势八:新…

2026-01-14

Anthropic推出Cowork工具:降低技术门槛,让Claude化身通用智能助手
周一,Anthropic宣布推出名为Cowork的新工具,这是一个更易于访问的Claude Code版本。文章写道:"这些风险并非Cowork独有,但这可能是您首次使用超越简单对话的更高级工具。 A:Co…

2026-01-14

虹觅、小米、华为开放式耳机大比拼!哪款才是你的心头好?
华为 FreeArc:为了保证耳机连接性,这款耳机内置了蓝牙 5.2芯片,逆声声学系统通过减少漏音实现了定向传声,保护了用户的隐私性,而IPX7级防水设计则让它具备出色的抗水能力,无论是应对雨天还是运动场景…

2026-01-14

选手机包装内托供应商看哪些方面?青岛宏景包装凭实力成优质之选
青岛宏景包装有限公司设有专业设计团队,从概念到成品提供全程支持,其"一天出样品,七天交大货"的服务承诺在业内颇具竞争力。青岛宏景包装不仅通过全国工业食品生产认证,还拥有30多项专利发明,其无尘车间生产的包装产…

2026-01-14

华为MatePad Pro实测5款语音转文字工具:听脑AI凭专业场景表现成技术团队首选
医疗场景:“房颤”“心肌酶谱” 这类词,听脑 AI 识别正确率 97%;讯飞偶尔写成 “房颤动”,Sonix 直接漏词法律场景:“举证责任倒置” 五个字,听脑 AI 一次就对,其他工具不是写错就是漏字协…

2026-01-14

3000元价位手机怎么选?荣耀500全能配置越级体验成首选
综合来看,荣耀500在3000元价位段展现了罕见的全能表现:2亿像素OIS主摄带来专业级影像,8000mAh电池+80W快充组合续航无忧,骁龙8S Gen4+幻影引擎3.0确保极致性能,1.5K绿洲护眼屏更…

2026-01-14