数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

NVIDIA推出KVTC技术:内存用量最高减20倍,AI硬件成本或大幅降低

2026-03-23来源:快讯编辑:瑞雪

大型语言模型(LLM)在处理长对话时,常因内存占用过高而面临性能瓶颈。NVIDIA研究人员近日提出一项名为KVTC(KV快取转换编码)的创新技术,通过高效压缩模型推理过程中的KV缓存,将内存需求最高降低20倍,同时无需修改现有模型架构。这一突破有望显著降低企业部署AI的硬件成本,并提升模型响应速度。

KV缓存是LLM的“短期记忆”,存储对话历史中的关键信息(Key和Value),使模型无需重复计算已处理内容。然而,随着对话长度增加,KV缓存可能膨胀至数GB,占用大量GPU内存,导致推理速度下降甚至系统卡顿。NVIDIA资深深度学习工程师Adrian Lancucki指出:“LLM推理的性能瓶颈通常不在计算能力,而在于GPU内存的有限性。传统方法需将闲置缓存转移至CPU或硬盘,但数据传输会引入额外延迟。”

KVTC技术借鉴JPEG图像压缩原理,通过“主成分分析、自适应量化、熵编码”三步流程,精准捕捉KV缓存中数据的高度相关性,剔除冗余信息。其“非侵入式”设计允许企业直接集成至现有系统,无需调整模型代码或参数。实验数据显示,在参数量从15亿至700亿的模型(如Llama 3系列、R1-Qwen 2.5)中,KVTC将内存压缩20倍后,模型准确率损失不足1%,而传统方法仅压缩5倍便会导致显著性能下降。

在H100 GPU的实测中,处理8000个Token的提示时,启用KVTC后模型首次响应时间从3秒缩短至380毫秒,提速达8倍。这一优势在编程助手、迭代式推理等长对话场景中尤为突出,而短对话场景因缓存规模较小,压缩效果相对有限。

NVIDIA计划将KVTC整合至Dynamo框架的KV块管理器,并兼容vLLM等主流开源推理引擎。业内分析认为,随着LLM对话长度持续增加,标准化压缩技术或将成为AI落地的关键基础设施,其普及程度可能类比于视频压缩技术对多媒体行业的影响。

一加15T来袭!全新ColorOS 16加持,流畅升级,小屏党期待已久的Dream Phone来了
快科技3月22日消息,一加15T将于3月24日正式发布,新机在屏幕、电池、快充及影像等核心配置上已提前公布。今日,一加中国区总裁李杰表示,一加15T将搭载全新的ColorOS 16系统,并支持5年4个大版本…

2026-03-23

2026年第11周手机销量榜:苹果领跑,懂用户需求机型成市场新宠
因为这份榜单真正值得琢磨的,不是苹果又赢了,而是从红米15R到荣耀X70,再到nova15、Reno15、S50,越来越多热销机型都在证明一件事:2026年的手机市场,已经不是单纯拼性能的时代,而是拼“谁更懂…

2026-03-22