英伟达发布开源框架Polar，助力代码智能体训练表现显著提升-数据洞察-数据世界

英伟达研究团队近日推出开源框架Polar，为代码智能体训练领域带来突破性进展。该框架通过创新设计，使Codex、Claude Code、Qwen Code等主流代码智能体能够无缝接入GRPO（广义相对策略优化）训练体系，同时保持原有工具调用流程和上下文管理机制不变。

作为强化学习领域的优化方法，GRPO通过奖励信号动态调整模型策略，特别适用于需要多步决策的复杂任务。在代码智能体训练场景中，该技术能够显著提升模型在真实工具调用和代码补丁提交过程中的表现。研究团队指出，当前智能体强化学习正从单步任务向长流程任务转型，涉及代码仓库维护、浏览器自动化操作等复杂场景，这些任务高度依赖现有执行框架的多轮调用机制。

传统强化学习基础设施面临重大挑战——将智能体运行框架（如Codex CLI、Claude Code等）改写为标准环境接口（env.init/env.step/env.reset）不仅成本高昂，更会导致原生执行细节丢失。Polar框架通过革命性设计规避了这个问题：其在模型API边界处部署智能体，而非改造整个执行框架，从而完整保留了原有工具链的运行逻辑。

该框架的核心机制是在执行框架与推理服务器之间构建智能代理层，兼容Anthropic、OpenAI、Google等主流API风格。在请求转发过程中，系统会自动记录提示词、采样令牌、对数概率等关键数据，并将其重组为训练器可处理的轨迹信息。这种设计使得开发者无需修改现有工具链即可实现强化学习训练。

系统架构方面，Polar采用双组件设计：rollout server负责任务调度、会话管理和状态持久化，gateway node则掌控执行全生命周期，包括运行时初始化、框架配置、轨迹构建和资源回收。研究团队通过将初始化、运行和后处理流程拆分为独立工作池，并引入READY缓冲区机制，使运行时预热与评测预热可并行执行，有效减少了长尾任务对GPU训练的阻塞。

实验数据显示显著提升效果：以Qwen3.5-4B模型为基准，在四种代码执行框架上配合GRPO训练后，SWE-Bench Verified测试集的pass@1指标均有大幅提升。其中Codex框架表现最为突出，得分从3.8%跃升至26.4%，增幅达594.74%；其他框架提升幅度在14.4%至18.1%之间。效率优化方面，prefix_merging技术使训练步骤更新次数减少81.6%，墙钟时间缩短至原来的18%，GPU利用率从20.4%提升至87.7%。

华为昇腾990定档2030年：逻辑折叠技术赋能，AI算力将迎百倍跃升

按照研发规划，到 2035 年，依托逻辑折叠架构持续迭代，昇腾系列芯片硬件集成度相比当前产品将提升超过 100倍，为人工智能产业发展筑牢算力根基。根据规划，2030 年亮相的昇腾 990，将完成逻辑折叠技…

2026-05-28

盒马硬折扣品牌超盒算NB进军北京 6月26日6店齐开加速全国布局

2026-05-28

金融AI新纪元：阿里云“点金”智能体引领行业变革与深度融合

2026-05-28

2026年AI竞争新焦点：从“模型竞赛”到“Skill工程化”，企业如何破局？

当你验证了1-3个场景后，下一步是把这些场景的成功经验“Skill化”——将业务专家的判断逻辑、操作流程、异常处理经验，封装成可复用、可迭代的能力单元。对于那些有明确业务需求但缺乏专职AI团队的企业，与具…

2026-05-28

OpenAI确认ChatGPT及API服务昨现高延迟历经数小时后问题已解决

2026-05-28