数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

翁荔最新长文深度剖析:AI行业奉为圭臬的缩放定律,应用需谨慎

2026-06-29来源:快讯编辑:瑞雪

前OpenAI安全研究副总裁、Thinking Machines Lab联合创始人翁荔(Lilian Weng)在个人技术博客Lil'Log上发表了题为《Scaling Laws, Carefully》的长文,对深度学习领域的核心经验规律——缩放定律进行了系统性梳理。这篇约两万字的文章不仅回顾了缩放定律的发展历程,更以审慎态度指出其在实际应用中存在的潜在陷阱,引发行业广泛关注。

缩放定律的核心发现是:模型规模(参数量N)、数据集规模(Token数D)和计算量(FLOPs,C)的增加会导致训练损失按幂律持续下降,在log-log坐标系中表现为近似直线。这一规律使研究者能够通过小规模实验拟合曲线,进而预测大规模模型的资源需求,成为大模型预训练阶段的关键规划工具。翁荔将缩放定律的发展分为三个阶段:1992年Amari等人利用贝叶斯框架推导出学习曲线的理论奠基;2017年Hestness等人在机器翻译、图像分类等任务中验证泛化误差与数据规模的幂律关系;2020年Kaplan等人首次系统建立语言模型的缩放定律,提出"优先扩大模型规模"的最优缩放关系。

2022年Hoffmann等人发表的Chinchilla论文对Kaplan的结论提出修正。通过固定模型变数据、IsoFLOP分析和参数化拟合三种方法,他们发现模型规模与训练数据应近似同比例增长。实验显示,在相同计算预算下,70B参数、1.4T Token的Chinchilla模型性能全面超过280B参数、300B Token的Gopher模型。这一结果揭示了当时大语言模型普遍存在"训练不足"的问题。翁荔指出,两篇论文看似矛盾,实则源于实验规模差异和参数统计口径不同——Kaplan排除了Token embedding参数,而Chinchilla采用全部参数。2024年Pearce和Song的研究证明,将嵌入层参数纳入计算后,两条缩放曲线可实现统一。

随着高质量训练数据逐渐逼近上限,"数据墙"问题日益凸显。翁荔重点介绍了两项应对研究:2023年Muennighoff等人提出将训练Token拆分为唯一Token数和重复次数,发现重复数据收益呈指数衰减;2026年Lovelace等人则在缩放公式中加入过拟合惩罚项,揭示模型规模越大对重复数据越敏感。这些研究为数据受限条件下的缩放定律提供了新方向,但其理论机制仍待完善。

文章通过Besiroglu等人2024年对Chinchilla方法的复现工作,揭示了缩放定律对实现细节的敏感性。原论文采用L-BFGS-B优化器进行参数拟合,但因目标函数数值尺度过小导致优化提前停止;公开数据仅保留两位有效数字也增加了拟合误差。这些细节最终导致最优模型规模与数据配比的预测出现偏移。翁荔在文中嵌入交互式模拟工具,展示损失精度、噪声水平等参数如何影响缩放曲线和资源预测结果。

当前,缩放定律已成为指导行业资源规划的核心工具。OpenAI、Anthropic等前沿实验室依赖其预测下一代模型的训练成本、参数规模和数据需求。一个Frontier Model的训练成本往往高达数十亿美元,缩放定律的预测能力直接关系到资源配置效率和模型路线合理性。翁荔强调,缩放定律的可靠性取决于对模型参数定义、损失函数拟合、实验规模区间和训练数据假设的充分理解。她通过系统分析不同研究间的分歧与修正,提醒行业在应用缩放定律时需谨慎评估其适用范围和局限性。

从入门到旗舰:线圣AudioQuest Niagara系列电源处理器深度评测与升级指南
在接下来几个月的时间里,我们将Niagara 3000、Niagara 5000和Niagara7000都接在系统内进行了反复对比试听,从耳机到音箱系统全试了一遍,最终选择留下了旗舰款Niagara 700…

2026-06-29

红米REDMI K90至尊版6月30日登场:165Hz高刷直屏,游戏体验全面升级
红米全新预热的REDMI K90 至尊版,锁定在6月30日全新登场,以性能机市场为主,配置同为旗舰级,与同系列版本相近。 续航方面,与Max版本相近,同为8550mAh大电池,硅含量已提升到16%,电池自然…

2026-06-29

国产手机崛起新里程!2026年5月华为22.7%份额力压苹果登顶国内市场
2026 年 5 月国内智能手机整体市场份额新鲜出炉,这份榜单直接改写多年市场格局:华为以 22.7%的零售占比稳稳拿下国内市场第一名,常年稳居榜首的苹果下滑至 18.8% 位列第二,OPPO、vivo、小…

2026-06-28

联想研判:存储芯片供需失衡或成常态,2030年后高价格局恐难逆转
【环球网科技综合报道】6月28日消息,据Wccftech 报道报道,在近日 ISC 2026行业大会上,联想发布行业研判称,受供需失衡影响,DRAM、NAND 等存储芯片价格高位运行或将成为长期常态,至 …

2026-06-28

2026年拍CCD复古风手机怎么选?这五款影像神器带你轻松出片!
荣耀600系列凭借2亿超清大底、5000万潜望长焦(3.5倍光变,120倍数字变焦,OIS)以及CIPA6.0级光学防抖等硬核影像参数,结合全焦段4K Live直出与双对称AI变焦闪光灯,完美契合了复古风潮…

2026-06-28