数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

旧金山四人团队另辟蹊径:用千万小时视频训练出通用计算机操作新模型

2026-02-25来源:快讯编辑:瑞雪

旧金山一家名为Standard Intelligence的初创公司,近日宣布推出名为FDM-1(前向动力学模型)的计算机行为模型,宣称其为“首个完全通用的计算机行为模型”。该模型通过直接处理视频流,在CAD建模、网站安全测试以及自动驾驶等场景中展现出强大的泛化能力,引发行业关注。

与传统计算机使用代理依赖截屏分析和界面元素识别不同,FDM-1选择了一条截然不同的技术路径。它直接从大规模视频数据中学习人类操作计算机的行为模式,而非在已有视觉语言模型上叠加工具调用能力。Standard Intelligence认为,要实现真正通用的计算机操作智能体,关键在于利用互联网规模的视频语料库,而非局限于截屏上的分类和推理。

当前,主流的计算机使用代理如Anthropic的Claude、OpenAI的Operator以及Google DeepMind的Project Mariner,均采用“看图说话”的思路,依赖视觉语言模型和工具调用能力。这些模型通过截屏、识别界面元素、模拟点击和键入来操作计算机,尽管在特定基准测试中取得了不错成绩,但本质上仍受限于截屏分辨率和操作频率。

FDM-1的训练方法则更接近OpenAI在2022年提出的VPT(视频预训练)方法,但进行了显著改进。VPT通过少量标注数据训练逆向动力学模型(IDM),再利用IDM为大规模游戏视频自动打标签,最终实现行为克隆训练。然而,VPT的应用局限于Minecraft游戏环境,且上下文窗口极短,无法处理需要长时间连贯操作的任务。

Standard Intelligence在FDM-1的开发中,同时突破了数据规模和上下文长度两个维度。他们首先利用4万小时的标注员录屏数据训练IDM,然后用IDM为1,100万小时的互联网视频语料库自动标注操作动作。IDM采用掩码扩散架构,能够同时参照所有帧来推断每个时间步的动作,提高了数据效率和标注准确性。

在上下文长度方面,FDM-1通过自研的视频编码器实现了显著突破。现有视觉语言模型处理屏幕录制视频的方式极度浪费token,导致上下文窗口极短。而FDM-1的视频编码器能够将近两小时的30 FPS视频压缩进200k token预算,比此前最优方案高效50倍。这使得FDM-1能够在更长的上下文窗口中处理视频流,适应需要长时间连贯操作的任务。

FDM-1本身是一个标准的自回归模型,接收此前的视频帧和动作序列,预测下一个动作token。输出空间由键盘按键和鼠标移动增量组成。为了处理鼠标位移的庞大状态空间,FDM-1将鼠标位移分解为X和Y分量,使用指数分箱将其映射到有限数量的箱中。同时,每个鼠标移动token还附带预测下一个点击位置,帮助生成更精确的轨迹。

在评估基础设施方面,Standard Intelligence建立了一套可运行8万台分叉虚拟机的系统,每小时能跑超过100万次rollout。分叉机制允许他们对操作系统状态做完整内存快照并复制到新的VM上,从而在同一个起始状态上并行跑数千次评估。这种评估方式大大提高了测试效率,降低了推理延迟。

初步评测结果显示,IDM标注数据在鼠标操作、目标点击、符号记忆和UI操控等方面的表现已经超过了人工标注的承包商数据。然而,在打字和语言理解任务上,IDM数据上的进步速度慢于承包商数据,这可能是由于IDM标注噪声造成的。未来,Standard Intelligence计划混合使用两种数据,以进一步提高模型性能。

在自动驾驶的微调实验中,FDM-1在不到1小时的驾驶数据上微调后,就能用方向键控制汽车在旧金山绕街区转弯,起始准确率为50%。这一结果明显高于仅有视频编码器而没有互联网视频预训练的基线模型,展示了FDM-1在连续控制任务上的潜力。

Standard Intelligence的研究团队背景年轻但研究嗅觉敏锐。核心作者包括来自UCLA的Neel Redkar、参与过机器学习对齐理论学者项目的Yudhister Kumar等。在FDM-1之前,该团队已经有过两个引起关注的项目:一个是建造30 PB存储集群用于存放视频数据,另一个是开源全双工音频基础模型hertz-dev。这两个项目分别对应了FDM-1所需要的两个关键能力:大规模数据基础设施和跨模态学习。

尽管FDM-1现在还远不是一个可用的产品,缺乏指令跟随能力和公开标准化基准测试结果,但它在连续控制任务上的独特优势以及提出的技术路径仍然值得关注。未来,FDM-1代表的路线和视觉语言模型代理路线最终可能会趋于融合,兼得两种路线的优点。

AMD锐龙AI 400系列处理器扩展至桌面平台 商用市场或迎新选择
IT之家 2 月 24 日消息,据科技媒体 VideoCardz 今天报道,AMD 已确认锐龙 AI 400系列处理器不仅面向笔记本、迷你主机等移动平台,也将在今年第二季度登陆桌面平台。 ▲ 图源:Vide…

2026-02-25

Meta豪掷超千亿采购AMD AI芯片 股权互换开启AI芯片合作新模式
该协议总价值超过1000亿美元,Meta将在未来五年内从AMD采购相当于6吉瓦AI算力的芯片。不同于AMD以往主要销售标准化GPU,此次是AMD首次向客户提供高度定制化的AI芯片,专门优化用于AI模型的推理环…

2026-02-25

电竞玩家的梦幻装备!iQOO 15 Ultra深度评测:性能影像双巅峰
我是个王者荣耀游戏迷,最近入手了蓝厂新推出的iQOO 15 Ultra,要的就是它能够带来全网首发的144帧率极致画质+带光追的旗舰级地图显示。可以很负责任地说,iQOO 15 Ultra是一部全能无短板的…

2026-02-25

三星Galaxy S26明日发布:全系长效电池加持,影像续航亮点纷呈
在防水方面,三星 Galaxy S26 全系三款机型均通过了 IP68 级防尘防水认证。 而作为阵容中的顶级旗舰,Galaxy S26Ultra 则配备了全系最大的 4855mAh 额定容量电池,其预期续…

2026-02-25

努比亚官宣MWC 2026将发AI新品 携手豆包技术探索手机新物种
IT之家 2 月 24 日消息,努比亚今日官宣,将在下个月的 MWC 2026 展会上发布 AI 新品,宣称是“AI手机先锋|定义手机新物种”。 据IT之家此前报道,字节跳动旗下 AI 助手豆包和中兴通讯 …

2026-02-25

iPhone 18 Pro新配色亮相,折叠屏iPhone Fold来袭,最贵iPhone要来了?
至于18 Pro系列能有啥升级,外观这块还是延续了17 Pro的设计风格,不过灵动岛缩小了35%(不知道17Pro出来这么久了,大伙看习惯没) 最后,2026年秋季的发布会预计还会有新款iPhone Ai…

2026-02-24

vivo Y05海外登场:6.74英寸屏+6500mAh电池,海外市场竞争实力几何?
IT之家 2 月 24 日消息,vivo 现已在埃及市场亮相 Y05 手机,新品搭载 6.74 英寸 LCD 屏幕,配备紫光展锐 T7225芯片、4GB 内存。 IT之家从 vivo 官网了解到,这款手机采…

2026-02-24