数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

通义千问团队推出Qwen-AgentWorld:原生语言世界模型引领智能体交互新突破

2026-06-24来源:天脉网编辑:瑞雪

阿里通义千问团队近日宣布推出全球首个原生语言世界模型Qwen-AgentWorld,该模型通过模拟七大领域智能体交互环境,在AgentWorldBench评测中展现出超越GPT-5.4、Claude Opus 4.8等主流模型的性能。这一突破标志着语言模型从单一文本生成向复杂环境交互的范式转变,为智能体训练提供了全新路径。

该模型覆盖文本类(MCP、搜索、终端、软件工程)与GUI类(网页、操作系统、安卓应用)七大交互场景,通过可渲染代码替代传统像素帧实现环境观测。这种设计使纯文本建模即可解析视觉信息,显著降低计算资源消耗的同时,支持跨领域知识迁移。例如,在终端和软件工程领域,模型展现出比GPT-5.4更强的状态预测能力,3970亿参数版本在评测中取得58.71分的综合成绩。

训练架构创新是该模型的核心优势。团队构建了CPT→SFT→RL三阶段训练体系:在继续预训练阶段注入环境知识,通过信息论损失掩码精准识别关键对话轮次;监督微调阶段激活思维链推理模式,强化下一状态预测能力;强化学习阶段采用混合奖励信号优化输出质量。这种端到端设计使环境建模成为原生训练目标,而非对通用大模型的后期适配。实验数据显示,350亿参数版本经三阶段训练后,综合得分提升8.66分,性能超越Claude Sonnet 4.6。

同步开源的AgentWorldBench评测基准包含七大领域真实环境执行数据,每条测试样本均配备ground-truth观测值。该基准不仅验证了模型在复杂交互场景中的优势,还揭示了世界建模的双重应用价值:作为解耦环境模拟器时,可为强化学习提供可控训练环境,其可控模拟RL方法在行为塑造效率上显著优于纯真实环境训练;作为统一智能体基座模型时,预热训练后的模型可直接迁移至多轮任务,无需额外微调即可保持性能。

目前,Qwen-AgentWorld模型及评测基准已在Hugging Face和ModelScope平台开放下载。这项研究为智能体训练提供了从环境建模到决策优化的完整解决方案,其开源特性将推动学术界和产业界在复杂交互场景中的探索进程。

Anthropic发布Claude Tag:AI变身团队“共享同事”,开启协作新范式
Claude Tag的新,不在它更聪明,在它换了一个「身份」。 在那个频道里敲一个 @Claude,它就出现了——不是来接话的,是来干活的。你今天 @ 它的,和明天 @ 它的,它都记得是同一个团队、同一件…

2026-06-24

Claude化身虚拟同事入驻Slack群聊,团队协作与AI协同开启新模式
这就是 Claude Tag 最直接的作用,他看起来像是一个聊天群的机器人升级版,但它真正可以做到的事,要远比「在群里呼叫 AI」大得多。在群里的 Claude,也会和我们单人使用的 Claude 一样,…

2026-06-24

链博会第三天:新品发布亮点多 沉浸体验促合作共赢发展
在现场能看到人工智能志愿者和智能导览机器人,现场的一些活动还出现了人工智能主持人。这些互动体验的环节,让观展客商沉浸式感受各类前沿科创成果。 这种看得见、摸得着的展示方式,让企业创新成果更直观、更接地气,也一…

2026-06-24

字节跳动豆包Seed 2.1系列模型上线,Pro与Turbo版助力Coding与Agent新发展
doubao-seed-2-1-pro-260628 是一个深度思考模型,官方宣称是面向 Coding 与 Agent时代打造的新一代旗舰模型,在 Coding 工程交付、Agent 长链路任务执行与多…

2026-06-24

光伏清洗严标准下,张家港超声电气29年技术沉淀,为产业链提供精密之选
本文基于2026年行业白皮书及公开数据,从技术适配性、产能匹配度、服务响应效率等维度,梳理光伏超声波清洗机厂家的核心评估框架,为采购决策者提供客观参考。 核心特点:以多频段超声技术(20-40kHz可调)为核…

2026-06-24

时隔两周再更新 苹果watchOS 27第二测试版来袭 带来Siri等多项新功能
据CNMO科技了解,用户可通过iPhone上的手表App下载该测试版。除Apple Watch Ultra 3外,所有支持watchOS27的Apple Watch产品均可安装本次测试版。 此外,液态玻璃…

2026-06-24