数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

阿里发布首个原生语言世界模型Qwen-AgentWorld,助力通用智能体能力跃升

2026-06-25来源:快讯编辑:瑞雪

阿里近日正式推出首个原生语言世界模型(LWM)Qwen-AgentWorld,为AI智能体的研发与训练提供全新解决方案。该模型提供35B-A3B与397B-A17B两种参数规模,核心目标并非降低训练成本或替代真实交互环境,而是通过内部环境模拟增强智能体的决策能力,使其在执行动作前可预判环境反馈。

区别于传统模型训练流程,Qwen-AgentWorld创新性地将环境建模贯穿预训练全周期,从初始的CPT(持续预训练)到后续的SFT(监督微调)及RL(强化学习)阶段均以环境模拟为核心目标。这一设计突破了以往通用基础模型需先完成训练再单独适配环境理解的局限。模型支持同时模拟七类交互场景,涵盖文本类(MCP、搜索引擎、终端、软件环境)与图形界面类(网页、操作系统、安卓系统),通过跨领域知识迁移实现单一模型的多场景覆盖。

在图形界面处理方面,模型采用可渲染代码(如无障碍树XML、HTML标记)替代传统像素帧分析,使纯文本建模即可解析视觉环境。例如在模拟手机系统时,模型能通过代码层级预测点击删除图标后的界面变化;在电脑系统模拟中,可准确预测通过菜单栏执行打印操作的流程;网站交互场景下,则能模拟点击"添加用户"按钮后的仪表盘更新状态。

为验证模型性能,研究团队同步发布配套评测基准AgentWorldBench。该基准整合5个前沿模型在9个成熟评测集的真实交互数据,从格式规范、事实准确性、逻辑一致性、环境真实性及输出质量五个维度构建评估体系。测试结果显示,397B-A17B版本以58.71分的综合得分超越GPT-5.4(58.25分)、Claude Opus 4.8及Gemini 3.1 Pro等主流模型,在终端模拟和软件环境预测领域表现尤为突出。35B-A3B版本经三阶段训练后,整体得分提升8.66分,超越Claude Sonnet 4.6,且在文本与图形界面场景中均保持优势。

深度分析129条文本类预测的思维链后,研究团队发现三种独特推理模式:模型通过"Wait!"信号触发自我修正机制,平均每轮预测中断10.4次以修正事实错误或视角偏差;在搜索场景中,模型能主动屏蔽与查询无关的参考答案,防止信息泄露;面对复杂指令时,模型可构建多步因果链,例如准确预测包含服务器启动、端口监听、管道传输等六个环节的代码执行流程。

该模型已通过GitHub、ModelScope及Hugging Face平台开源,包含35B-A3B版本权重及AgentWorldBench评估工具包。研究团队指出,语言世界建模为智能体训练提供了超越真实环境的可控扩展路径,通过解耦式环境模拟与统一基础模型的双范式探索,有望推动通用智能体突破现有交互能力边界。

解锁手机隐藏功能!屏蔽骚扰、语音操控…这些妙用让生活更便捷
打卡【Galaxy AI体验馆】不要放过这些好用的功能! 轻松设置,屏蔽推销、骚扰、陌生等未知号来电,让生活少点干扰!动动嘴召唤Bixby下达指令,通勤约车、点咖啡外卖,帮你轻松搞定~ 话题、链接、文件,3…

2026-06-25

鑫元科创AI指数发起式A最新净值下滑2.56% 基金经理管理业绩如何?
来源:新浪基金∞工作室 鑫元上证科创板人工智能指数型发起式证券投资基金(简称:鑫元科创AI指数发起式A,代码024409)公布6月23日最新净值,下跌2.56%。刘宇涛自2025年7月18日管理(或拟管理)该…

2026-06-25

梁汝波重磅发声:聚焦AI提升模型能力,火山引擎MaaS成字节基础业务
梁汝波提到,攀登AI高峰是字节当下最重要的事情,攀高峰要专注,所以过去几年字节一直都在聚焦收缩业务宽度,把精力重点聚焦到AI,在AI里聚焦到提升模型能力。 此前在1月29日,在字节跳动2026年首次全员会议…

2026-06-25

芯联集成携产业基金26.66亿增资 12英寸车规芯片项目月产能将达5万片
快科技6月24日消息,芯联集成近日发布对外投资进展公告,公司与芯联先进集成电路制造(绍兴)有限公司(简称“芯联先进”)、绍兴柯桥芯合先进集成创业投资基金合伙企业(有限合伙)(简称“产业基金”)共同签署《增资及…

2026-06-25

华为SUN2000-506KTL组串式逆变器荣膺欧洲智慧能源大奖 引领光伏产业新发展
【德国,慕尼黑,2026年6月23日】被誉为能源界“奥斯卡”奖的欧洲智慧能源大奖(The Smarter E AWARD)在德国慕尼黑公布,华为智能光伏SUN2000-506KTL组串式逆变器(国内型号为46…

2026-06-24