NVIDIA推出KVTC技术：内存用量最高减20倍，AI硬件成本或大幅降低-人物动态-数据世界

大型语言模型（LLM）在处理长对话时，常因内存占用过高而面临性能瓶颈。NVIDIA研究人员近日提出一项名为KVTC（KV快取转换编码）的创新技术，通过高效压缩模型推理过程中的KV缓存，将内存需求最高降低20倍，同时无需修改现有模型架构。这一突破有望显著降低企业部署AI的硬件成本，并提升模型响应速度。

KV缓存是LLM的“短期记忆”，存储对话历史中的关键信息（Key和Value），使模型无需重复计算已处理内容。然而，随着对话长度增加，KV缓存可能膨胀至数GB，占用大量GPU内存，导致推理速度下降甚至系统卡顿。NVIDIA资深深度学习工程师Adrian Lancucki指出：“LLM推理的性能瓶颈通常不在计算能力，而在于GPU内存的有限性。传统方法需将闲置缓存转移至CPU或硬盘，但数据传输会引入额外延迟。”

KVTC技术借鉴JPEG图像压缩原理，通过“主成分分析、自适应量化、熵编码”三步流程，精准捕捉KV缓存中数据的高度相关性，剔除冗余信息。其“非侵入式”设计允许企业直接集成至现有系统，无需调整模型代码或参数。实验数据显示，在参数量从15亿至700亿的模型（如Llama 3系列、R1-Qwen 2.5）中，KVTC将内存压缩20倍后，模型准确率损失不足1%，而传统方法仅压缩5倍便会导致显著性能下降。

在H100 GPU的实测中，处理8000个Token的提示时，启用KVTC后模型首次响应时间从3秒缩短至380毫秒，提速达8倍。这一优势在编程助手、迭代式推理等长对话场景中尤为突出，而短对话场景因缓存规模较小，压缩效果相对有限。

NVIDIA计划将KVTC整合至Dynamo框架的KV块管理器，并兼容vLLM等主流开源推理引擎。业内分析认为，随着LLM对话长度持续增加，标准化压缩技术或将成为AI落地的关键基础设施，其普及程度可能类比于视频压缩技术对多媒体行业的影响。