数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

旧金山四人团队另辟蹊径:1100万小时视频训练出通用计算机操作新模型

2026-02-25来源:快讯编辑:瑞雪

旧金山一家名为Standard Intelligence的初创公司,近日推出了一款名为FDM-1(前向动力学模型)的计算机行为模型,宣称其为“首个完全通用的计算机行为模型”。该模型在包含1100万小时屏幕录制视频的数据集上完成训练,能够以每秒30帧的速率直接处理视频流,并在CAD建模、网站安全测试以及真实世界的自动驾驶场景中展现出令人瞩目的泛化能力。

当前主流的计算机使用代理技术路线主要依赖视觉语言模型(VLM)叠加工具调用能力。例如,Anthropic在2024年10月为Claude添加了Computer Use功能,通过截屏、界面元素识别和模拟点击来操作计算机。到2026年2月,Claude Sonnet 4.6在OSWorld基准测试中取得了72.5%的得分。OpenAI在2025年1月发布的Operator则基于GPT-4o的视觉能力与强化学习实现网页操控。Google DeepMind也布局了Project Mariner和Gemini 2.5 Computer Use等类似项目。这些巨头的共同特点是通过截屏分析理解界面,本质上仍是“看图说话”的思路。

Standard Intelligence认为,这种技术路线存在局限性。他们提出,真正通用的计算机操作智能体需要直接从大规模视频中学习人类行为模式,而非依赖截屏分类与推理。正如GPT-3需要互联网规模的文本语料库才能涌现语言能力,通用的计算机行为模型同样需要互联网规模的视频数据。目前最大的公开计算机操作数据集不足20小时30 FPS视频,而互联网上积累了数百万小时的剪辑制作、编程直播、游戏实况等操作录像,这些数据尚未被系统性利用。FDM-1正是瞄准这一缺口展开研发。

该模型的技术路线与2022年OpenAI发布的VPT(视频预训练)方法有相似之处。VPT通过少量人工标注的Minecraft游戏视频训练逆向动力学模型(IDM),再利用IDM为约7万小时的YouTube游戏视频自动标注操作标签,最终实现复杂任务的行为克隆。但VPT仅适用于特定环境,且上下文窗口极短(约六秒),难以处理需要长时间连贯操作的计算机任务。FDM-1则试图在数据规模和上下文长度两个维度上实现突破。

在数据规模方面,Standard Intelligence首先在4万小时标注员录屏数据上训练IDM,随后用该模型为1100万小时互联网视频自动标注操作标签。IDM通过观察屏幕前后帧变化反推操作动作,例如屏幕上出现字母“K”可能对应按下K键,光标移动则对应鼠标位移。尽管存在噪声和歧义,但这种方法在技术上可行。团队采用掩码扩散架构设计IDM,使其能够同时参照所有帧推断动作,先标注高置信度简单动作,再集中处理模糊难例。据称,这种方法比纯因果模型数据效率更高,且在鼠标移动和界面操作等任务上的表现甚至优于人工标注数据。

在上下文长度方面,突破来自团队自研的视频编码器。现有VLM处理屏幕录制视频的方式消耗大量token,例如一分钟30 FPS视频约需100万个token,导致主流模型在200k token上下文窗口中仅能处理几秒钟视频。Standard Intelligence的视频编码器声称能将近两小时(约36000帧)视频压缩进相同token预算,比此前最优方案高效50倍,比OpenAI编码器高效100倍。该编码器通过在屏幕录制数据上训练掩码压缩目标实现这一性能,并在文本转录基准测试中展现出比标准ViT快约100倍的收敛速度。

基于大规模标注数据和高效编码器,FDM-1采用标准自回归架构训练。该模型接收此前视频帧和动作序列,预测下一个动作token,输出空间包含键盘按键和鼠标移动增量。为处理鼠标位移的庞大状态空间,团队将其分解为X和Y分量,经屏幕宽高归一化后使用指数分箱映射到49个尺寸递增的箱中。小而频繁的移动分入细粒度箱,大而稀少的移动分入粗粒度箱,同时每个鼠标移动token附带预测下一个点击位置,以生成更精确轨迹。

与VLM路线不同,FDM-1完全不使用链式思维推理、字节对编码或工具调用,直接在视频和动作token上运作。这种设计使推理延迟降低,并使其能够处理滚动、3D建模、游戏操控等连续性任务。为评估模型性能,团队构建了一套可运行8万台分叉虚拟机的系统,每小时能完成超过100万次rollout。每台虚拟机配备最小化Ubuntu桌面环境、1个vCPU和8GB内存,一块H100 GPU可同时控制42台。分叉机制允许对操作系统状态做完整内存快照并复制到新虚拟机,从而在相同起始状态下并行运行数千次评估。通过优化GPU与虚拟机布局、使用低延迟VNC配置和自定义Rust输入绑定,团队将屏幕截取到动作执行的往返延迟压缩至11毫秒。

初步评测结果显示,IDM标注数据在鼠标操作、目标点击、符号记忆和UI操控等方面的表现已超过人工标注数据,但在打字和语言理解任务上进步较慢。团队认为这是IDM标注噪声所致,未来计划混合使用两种数据。在自动驾驶微调实验中,FDM-1在不到1小时驾驶数据上微调后,即能用方向键控制汽车在旧金山绕街区转弯,起始准确率为50%(在“无操作/左转/右转”三选一中),明显高于仅有视频编码器而无互联网视频预训练的基线模型。

Standard Intelligence成立于2024年3月,定位为“对齐的AGI实验室”。研究团队核心成员包括Neel Redkar、Yudhister Kumar、Devansh Pandey和Galen Mead。Neel Redkar来自UCLA,高中时期曾凭借碳捕获金属有机框架神经网络研究获得ISEF大奖,并在Notion AI团队实习过。Yudhister Kumar参与过MATS 5.0项目,研究过预言机在合作AI中的应用。在FDM-1之前,团队已开展过两个引人关注的项目:2024年中在旧金山市中心建造的30 PB存储集群,用于存放9000万小时视频数据;2024年11月开源的hertz-dev,一个85亿参数的全双工音频基础模型,在单张RTX 4090上实现了约120毫秒的实际对话延迟。这两个项目分别对应了FDM-1所需的大规模数据基础设施和跨模态学习能力。

FDM-1的技术路径与当前行业主流形成鲜明对比。Anthropic、OpenAI和Google的计算机操控代理本质上是“大脑外接手臂”,利用现有语言/视觉推理模型截图、识别UI元素并生成点击指令。这种方法的优点是能利用通用推理能力,缺点是操作频率低,难以处理高帧率连续控制任务,且受限于截屏分辨率下的UI理解。FDM-1则更接近端到端行为克隆路线,直接从视频到动作,不经过语言中介,天然擅长连续控制任务,但可能缺乏VLM方案的抽象推理和自然语言理解能力。

目前,FDM-1尚未成为可用产品。它不具备指令跟随能力,所有演示均为模型自主探索或执行预设行为,缺乏自然语言驱动展示。团队也未在公开标准化基准(如OSWorld或CUB)上报告结果,所有评测基于内部任务套件,与主流方案缺乏直接可比性。不使用语言模型能力迁移意味着FDM-1可能在CAD建模、游戏操控、连续滚动浏览等任务上有独特优势,但产品化落地时需解决指令理解、任务规划等问题。未来,FDM-1代表的路线与VLM代理路线可能会趋于融合。一个能在30 FPS下连续操控3D建模软件的模型,若加上语言条件化和高级规划模块,或能兼得两种路线优点。在计算机行为建模领域,数据规模和上下文长度的重要性正被重新认识,而Standard Intelligence可能是首个将这两个要素推向极致的团队。

湖北“大壮”机器人全国首创三维感知融合 嗅觉升级开启智能交互新篇章
这套系统为全国首创,使“大壮”不仅能精准分辨水与醋,还能识别玫瑰、红酒等复杂气味,甚至探测到人类难以察觉的有害气体,标志着机器人感知能力从单一视觉迈向“视觉+嗅觉+听觉”三维融合的新阶段。其系统并非单一感官…

2026-02-25

2026年春节北京商圈“热”力全开:传统现代交融,消费客流双丰收
从传统年俗到现代光影艺术,非物质文化遗产的手工艺品到智能互动体验,京城的商业中心以“全城一节”的姿态,为市民和游客提供了一场传统与现代交融的消费盛宴。海淀区的新春科技庙会设置了机器人互动展区,智慧年货集市与“…

2026-02-25

德恩精工迈入“AI+元年”:5G赋能 机械手将获“视觉”与“智能”双升级
针对研发设计、智能办公、生产、物流、销售、采购等环节,公司将开发一系列“小快轻准”的智能体,实现各业务“AI+”,推动企业从数字工厂转向智能工厂。 从智改数转的扎实推进,到AI+战略的系统规划,德恩精工正通过…

2026-02-25

元宵邂逅AI,海淀北部科技盛宴启幕,共赴传统与未来之约
场景应用展区则将实景还原智能制造、智能家居、智慧医疗、智慧教育等“AI+”生态场景,小米智能家具、AI情感伙伴“oubot机器人”、可穿戴智能人工喉、蓝点触控机械臂、一站式AI电影生成平台“FilmActio…

2026-02-25

Anthropic今晚直播秀Claude新功能,企业级市场渗透能否缓解AI焦虑?
分析师表示,投资者不愿在又一次AI产品发布前冒险,因为每一条Anthropic的新闻都被视为对现有软件的"增量竞争",无论这种判断是否公允。 据悉,Anthropic本次活动针对的目标受众为企业高管,包括首…

2026-02-25

鸿蒙OS 6.0赋能折叠新体验!华为Mate X7典藏版:大屏生产力与影像实力兼备
华为Mate X7典藏版的折叠设计,明显更适合生产力应用,虽然现在鸿蒙版WPS仍处于尝鲜版,但基础的功能都毫无问题,最多就是目前支持的格式还不够多,相比普通的手机,折叠屏在展开之后的8寸大屏上,使用体验已经…

2026-02-25

Taalas“模型即芯片”引热议,是颠覆者还是昙花一现?
在公司官网的介绍文章中,巴伊奇称,这款芯片选择了Meta公司2024年7月推出的开源大模型Llama 3.18B作为运行平台,峰值推理速度接近17000 tokens/秒,比目前市场中最先进的技术快近10…

2026-02-25

荣耀官宣:MWC2026将携首款人形机器人亮相 开启智能消费新篇章
IT之家 2 月 24 日消息,荣耀宣布,在近期深圳举行的领先边端智能开放研究院“城市云客厅”揭牌活动中,荣耀旗下具身智能加持的 AI新形态终端 Robot Phone 真机亮相其中,官方同时联袂生态伙伴机…

2026-02-24

2026苹果磁吸充电宝怎么选?百元级高性价比款适配iPhone全系列
综合价格、适配性、快充效率、便携性与使用体验,EAK磁吸支架充电宝是贴合大多数苹果用户需求的选择,140元左右的价格处于百元级高性价比段,通过Qi2.2与MFM双重认证,完美适配iPhone12-17全系列…

2026-02-24