数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

DeepSeek V4参数量或创新高 1.6T预期下性能蜕变引期待

2026-04-17来源:互联网编辑:瑞雪

近日,科技圈因DeepSeek公司研究人员对DeepGEMM算子库的更新而掀起热议。此次更新被外界视为DeepSeek V4大模型即将发布的重要信号,尽管研究人员随后澄清此次更新仅与DeepGEMM开发相关,与内部模型发布并无关联,但这一声明反而进一步激发了公众对V4大模型的好奇与期待。

DeepGEMM算子库此次更新亮点颇多,不仅支持了FP8_FP4混合算子,还优化了对NVIDIA Blackwell架构的支持。更引人注目的是,其架构升级引入了Mega MoE及HyperConnection技术。其中,Mega MoE被视为MoE架构的一次重大革新,有望带来显著的性能提升。

据Gemini的解析暗示,DeepSeek V4大模型的激活专家数量将远超V3的256个,可能达到数千个。这一提升不仅将极大地增强模型的性能,还能保持灵活性,避免对算力和显存产生过高需求。这一特性使得V4大模型在处理复杂任务时更具优势,成为业界关注的焦点。

除了架构升级,DeepGEMM的更新还为外界提供了关于V4大模型参数量的线索。网友根据更新内容推测,单层MoE的参数量约为25.37B。若按60层计算,V4大模型的参数量可能达到1.6T;即使按48层计算,参数量也至少为1.25T。这一数据远超此前关于V4为1T万亿参数的传闻,显示出其性能表现可能超出预期。

若V4大模型最终实现1.6T参数量,其性能将比预期提升60%,无疑将成为科技领域的一大亮点。即便未能达到这一目标,1.25T的参数量也意味着其性能将比当前V3的6700亿参数量翻倍。结合Mega MoE技术带来的数千个激活专家,V4大模型有望成为MoE架构大模型发展中的里程碑事件,推动整个行业向前迈进。

华米Amazfit Cheetah 2 Pro跑步手表发布:钛合金表圈+双频GPS助力专业训练
月 17 日消息,科技媒体 Android Authority 今天(4 月 17日)发布博文,报道称华米(Amazfit)填补其产品线近三年的空白,发布 Cheetah 2 Pro 专业跑步手表。 功能方…

2026-04-17

2026年3000-4000元手机怎么挑?这五款旗舰配置强性价比高闭眼入
配合LPDDR5XUltra内存,它不仅是游戏迷的收割机,更是一台拍照好看、续航持久的高端全能旗舰,适合追求极致跟手感的视觉党。超声波指纹、X轴马达、双扬全备齐,这台精致的小钢炮证明了小屏手机也能拥有顶级续航…

2026-04-17