谷歌正在悄然推动其AI助手Gemini从“对话伙伴”向“任务执行者”转型。近期,长期追踪谷歌产品动态的TestingCatalog网站发现,Gemini界面中新增了一个名为“Agents”的一级入口,与现有的“Gems”和“Files”功能并列显示。这一改动被视为谷歌加速布局AI代理(Agent)生态的重要信号,预示着用户未来可通过Gemini直接创建并管理自动化任务,而非仅限于对话交互。
根据曝光的功能界面,Gemini的“Agents”标签页提供了“新建任务”和“收件箱”两大核心入口。用户创建任务时,系统会展开一个结构化工作区,右侧面板明确划分了任务目标、执行代理、可连接的应用程序以及所需文件等模块。更引人注目的是,界面中新增了“需要人工审核”的开关选项,允许用户在自动化流程中插入人工干预节点。这种设计使Gemini从单纯的聊天工具转变为具备任务编排能力的智能工作台,用户可直接通过自然语言指令驱动AI完成复杂操作。
支撑这一转型的关键是谷歌推出的Agent Designer平台。该平台采用无代码/低代码设计,允许用户无需编程基础即可创建单步骤或多步骤的自动化流程。例如,用户可编排一个包含子任务的复杂工作流,或设置定时触发条件让代理自主执行。目前,该平台已集成Gmail、Google Drive、Jira、GitHub等主流工具的连接器,并支持与Shopify等更多应用的预览对接。这种“拖拽式”任务编排方式显著降低了AI代理的使用门槛,使非技术用户也能快速构建自动化解决方案。
谷歌的转型策略与其产品矩阵的深度整合密不可分。过去半年间,该公司通过多项举措强化AI代理能力:将Agent Designer全面嵌入Gemini Enterprise企业版,为NotebookLM添加音频生成和视频摘要功能,将Agentspace整合为Gemini的核心引擎,并在Chrome浏览器中嵌入Gemini侧边栏实现网页自动浏览。这些动作共同构建了一个覆盖办公、搜索、开发等场景的AI代理生态,而新增的“Agents”入口则标志着该能力正式向普通用户开放。
在AI代理领域,谷歌并非唯一参与者。Anthropic推出的Claude Cowork选择另一条路径:其桌面端代理可直接操作本地文件和应用程序,通过截图、鼠标键盘交互等方式实现跨应用任务执行。这种“模型即代理”的设计强调原生能力,但缺乏谷歌的消费级产品分发网络。OpenAI则采取折中策略,通过GPT Store构建第三方代理生态,同时升级API支持更完整的开发框架。三家公司的竞争焦点已从模型性能转向执行效率与用户触达能力。
谷歌的竞争优势在于其庞大的用户基础和产品矩阵。通过将AI代理能力嵌入搜索、Workspace、Cloud等拥有数十亿用户的服务,该公司可快速完成市场教育并建立使用习惯。相比之下,Anthropic需依赖开发者社区和高端用户推动Cowork的普及,而OpenAI则面临生态活跃度不足的挑战。随着谷歌I/O大会临近,业界普遍预期该公司将进一步公开其AI代理战略,这场关于“任务执行权”的争夺战正进入白热化阶段。

