数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

给AI百万启动资金模拟创业500天,仅三款大模型实现资金正向增长

2026-07-01来源:天脉网编辑:瑞雪

研究团队指出,乔布斯展现的正是人类在制定方向、协调资源和引导组织实现长期目标方面的高超能力,这种能力被称为"战略智能"。然而,当前的AI系统虽然能够在编程、写作等单项任务上表现出色,但在复杂商业环境中持续制定和调整战略的能力仍有待提升。为了填补这一空白,研究团队开发了CEO-Bench基准测试。

CEO-Bench测试模拟了一个长达500天的AI创业公司经营环境。在这个虚拟世界中,每个AI模型获得100万美元启动资金,需要自主经营一家初创企业。AI可以访问企业管理工具、商业数据库和社交媒体等资源,在充满噪声、信息不完全且市场持续变化的商业环境中做出决策。测试最终以企业现金余额作为衡量模型表现的核心指标。

研究团队设计了34种工具,覆盖产品研发、定价策略、用户增长、企业销售、运营管理、信息获取和对外传播等多个业务环节。AI智能体每周做出一次决策,但无法直接获取关键信息,如客户满意度、市场需求和竞争对手计划等,必须通过间接信号进行推断。决策效果往往需要数周后才能显现,且外部环境会持续变化,要求AI不断调整战略。

在初步测试中,大多数先进大模型难以在500天的模拟经营中避免破产。表现最好的三个模型是Claude Fable 5、Claude Opus 4.8和GPT-5.5,它们在最佳运行中最终现金余额超过了初始资金。其中,Claude Fable 5是唯一在多次测试中都能实现资金增长的模型。相比之下,其他模型虽然保持了正现金流,但现金余额低于初始资金。作为对照,基于规则的基线系统最终将现金余额提升至1580万美元。

研究团队对模型决策过程进行了深入分析,发现能力更强的模型展现出更广泛的策略探索能力和更强的适应性。例如,GPT-5.5会根据市场变化不断调整获客、产品研发和定价策略;Claude Opus 4.8前期积极尝试多种策略,后期收敛到稳定模式;而Claude Opus 4.7则倾向于保守决策,主要围绕现金保全展开经营。

进一步分析显示,表现优秀的模型更善于开展面向特定客户群体的精细化产品开发。GPT-5.5将89%的研发投入用于定向开发,Claude Opus 4.8为87%,而其他模型平均只有43%。这种精细化策略有助于提升产品竞争力,延缓竞争对手追赶速度。领先模型在决策中更频繁使用条件判断,提前规划应对措施,并会主动编写辅助代码支持决策,如模拟未来现金流或分析客户偏好。

研究团队强调,CEO-Bench测试表明当前AI模型在复杂商业环境中持续制定和调整战略的能力仍然有限。虽然AI已经能够熟练完成单项任务,但要成为真正的"组织管理者",还需要在复杂、动态且充满不确定性的环境中展现出更强的战略智能。这项研究为开发下一代能够做出持续有效战略决策的AI系统提供了重要参考。

万亿美元如何挥霍?马斯克花钱模拟器走红:买空NVIDIA显卡仅是零头
这些听起来遥不可及的消费,在一万亿美元面前几乎不值一提,一整年Steam游戏仅占全部资产的0.000142%,买下NVIDIA所有游戏显卡产能也只占0.7%。 它其实已不再是花钱的问题,而是这笔钱最终会流向…

2026-07-01

英伟达Blackwell平台优化显成效:DeepSeek V4单Token成本大幅降低
IT之家 7 月 1 日消息,英伟达昨日(6 月 30 日)发布博文,宣布在英伟达 Blackwell 平台上,通过优化全栈推理,相比较DeepSeek V4 模型 1 个月前上线初期,单 Token 成本…

2026-07-01

石头科技再获突破!新专利扫地机器人干湿垃圾同步处理,引领清洁新潮流
传统扫地机器人在处理液体垃圾时往往显得力不从心,然而石头科技的研发团队针对这一痛点进行了深入研究,成功开发出一种特殊的吸入通道设计。石头科技通过持续的技术迭代与专利布局,正在重塑行业竞争格局,为传统家电企业…

2026-07-01

狂暴双芯+顶级风冷!REDMI K90至尊版发布,3K档游戏性能旗舰新标杆
新一代至尊版搭载“骁龙 8 至尊版 + 游戏独显 D2”的“狂暴双芯”组合,且全面继承 REDMI K90 Max的行业最强风冷散热方案,目标打造 3K 档内最具性价比的游戏性能旗舰。基于 Sound by…

2026-07-01