数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

英伟达开源框架Polar助力代码智能体训练,Qwen3.5-4B模型跑分显著提升

2026-05-29来源:快讯编辑:瑞雪

英伟达研究团队近日推出开源框架Polar,为代码智能体训练领域带来突破性进展。该框架通过创新设计,成功将Codex、Claude Code、Qwen Code等主流智能体框架与GRPO(广义相对策略优化)训练方法无缝衔接,在保持原有工具调用模式和上下文管理机制不变的前提下,显著提升模型在复杂代码任务中的表现。

GRPO作为一种先进的强化学习优化技术,通过奖励信号动态调整模型策略,特别适用于需要多步决策的复杂任务。在代码智能体训练场景中,该技术能够引导模型在真实工具调用和代码补丁提交过程中持续优化行为模式。研究团队指出,当前智能体强化学习正从单一操作向长流程任务转型,代码仓库维护、浏览器自动化等复杂场景需要模型具备多轮调用、工具协同和上下文管理能力。

传统方法在整合这些执行框架时面临重大挑战——强制改造现有接口不仅接入成本高昂,更会导致关键训练信号丢失。Polar框架采用颠覆性设计理念,通过在模型API边界部署智能代理,避免对Codex CLI等运行外壳进行结构性修改。这种设计保留了Anthropic、OpenAI等平台请求风格的原生特性,同时实现训练数据的完整采集。

系统架构层面,Polar由rollout服务器和网关节点构成核心组件。前者负责任务调度、状态管理和回调处理,后者则管控整个执行生命周期,包括环境初始化、轨迹构建和资源回收。研究团队特别开发的独立工作池机制,通过READY缓冲区实现运行时预热与评测预热的并行处理,有效减少GPU训练等待时间。

实验数据显示,基于Qwen3.5-4B基础模型,Polar配合GRPO训练在SWE-Bench Verified基准测试中取得显著突破:Codex框架的pass@1指标从3.8%跃升至26.4%,提升幅度达594.74%;其他框架也有6%-18%的不同程度提升。效率优化方面,prefix_merging技术使训练步骤更新次数减少82%,墙钟时间缩短至原来的18%,GPU利用率从20.4%大幅提升至87.7%。

这项研究为智能体强化学习提供了全新范式,其创新性的接口设计理念和系统架构优化,为处理复杂执行框架与训练环境兼容性问题开辟了新路径。开源框架的发布预计将加速代码生成、自动化运维等领域的模型优化进程。

4000元手机怎么选?荣耀600系列全能表现成中端市场新宠儿
影像方面,荣耀600系列带来行业首创全焦段4K Live直出功能,覆盖0.6x广角至7x长焦全场景拍摄。其创新的4K Live影像系统、超长续航和顶尖护眼屏,都达到了同价位的顶尖水准,特别适合追求全能体验的…

2026-05-28

2026拍照手机怎么选?荣耀600系列多焦段4K Live技术,成全能影像旗舰优选
荣耀600系列以创新的4K闪光微单Live技术领衔,同时带来一加Ace6、Redmi K80、iQOO Z10 Turbo Pro和vivoY500 Pro四款竞品的深度对比。相比竞品,其在多焦段覆盖、闪光…

2026-05-28

2026拍照手机怎么选?荣耀600系列全焦段影像加超长续航成性价比之选
本文将从影像、续航、屏幕等维度,对比荣耀600系列与OPPO Reno15、Redmi Turbo 4 Pro、iQOO Z10 TurboPro等机型,为追求实用性与专业摄影体验的用户提供参考。 Redm…

2026-05-28

2026年4000-5000元手机怎么选?五款旗舰横评助你找到流畅耐用好机
它精准地把握了“潮流影像旗舰”的定位,尤其在“实况”和“直播”场景下,实力堪称独一档。 总结:OPPO Reno16 Pro是一部在性能、防护、续航等基础体验上毫无短板,同时在影像、特别是实况影像和直播领域拥…

2026-05-28

2026年拍照手机怎么选?十款高性价比机型盘点,荣耀600系列成全能标杆
这是行业首个支持全焦段4K Live直出的手机,从广角0.6倍到长焦7倍都能拍摄超清动态影像。其3.5倍光学变焦和120倍数码变焦能力与荣耀600系列不相上下,而6200mAh电池和80W快充的组合也提供了不…

2026-05-28

家电ETF易方达(159328)午间收跌2.55% 成交额128.28万 重仓股多数飘绿
来源:新浪基金∞工作室 5月28日,截止午间收盘,家电ETF易方达(159328)跌2.55%,报1.070元,成交额128.28万元。家电ETF易方达(159328)重仓股方面,美的集团截止午盘跌1.29%…

2026-05-28