给AI百万启动资金模拟创业500天，仅三款大模型实现资金正向增长-企业动态-数据世界

研究团队指出，乔布斯展现的正是人类在制定方向、协调资源和引导组织实现长期目标方面的高超能力，这种能力被称为"战略智能"。然而，当前的AI系统虽然能够在编程、写作等单项任务上表现出色，但在复杂商业环境中持续制定和调整战略的能力仍有待提升。为了填补这一空白，研究团队开发了CEO-Bench基准测试。

CEO-Bench测试模拟了一个长达500天的AI创业公司经营环境。在这个虚拟世界中，每个AI模型获得100万美元启动资金，需要自主经营一家初创企业。AI可以访问企业管理工具、商业数据库和社交媒体等资源，在充满噪声、信息不完全且市场持续变化的商业环境中做出决策。测试最终以企业现金余额作为衡量模型表现的核心指标。

研究团队设计了34种工具，覆盖产品研发、定价策略、用户增长、企业销售、运营管理、信息获取和对外传播等多个业务环节。AI智能体每周做出一次决策，但无法直接获取关键信息，如客户满意度、市场需求和竞争对手计划等，必须通过间接信号进行推断。决策效果往往需要数周后才能显现，且外部环境会持续变化，要求AI不断调整战略。

在初步测试中，大多数先进大模型难以在500天的模拟经营中避免破产。表现最好的三个模型是Claude Fable 5、Claude Opus 4.8和GPT-5.5，它们在最佳运行中最终现金余额超过了初始资金。其中，Claude Fable 5是唯一在多次测试中都能实现资金增长的模型。相比之下，其他模型虽然保持了正现金流，但现金余额低于初始资金。作为对照，基于规则的基线系统最终将现金余额提升至1580万美元。

研究团队对模型决策过程进行了深入分析，发现能力更强的模型展现出更广泛的策略探索能力和更强的适应性。例如，GPT-5.5会根据市场变化不断调整获客、产品研发和定价策略；Claude Opus 4.8前期积极尝试多种策略，后期收敛到稳定模式；而Claude Opus 4.7则倾向于保守决策，主要围绕现金保全展开经营。

进一步分析显示，表现优秀的模型更善于开展面向特定客户群体的精细化产品开发。GPT-5.5将89%的研发投入用于定向开发，Claude Opus 4.8为87%，而其他模型平均只有43%。这种精细化策略有助于提升产品竞争力，延缓竞争对手追赶速度。领先模型在决策中更频繁使用条件判断，提前规划应对措施，并会主动编写辅助代码支持决策，如模拟未来现金流或分析客户偏好。

研究团队强调，CEO-Bench测试表明当前AI模型在复杂商业环境中持续制定和调整战略的能力仍然有限。虽然AI已经能够熟练完成单项任务，但要成为真正的"组织管理者"，还需要在复杂、动态且充满不确定性的环境中展现出更强的战略智能。这项研究为开发下一代能够做出持续有效战略决策的AI系统提供了重要参考。

万亿美元如何挥霍？马斯克花钱模拟器走红：买空NVIDIA显卡仅是零头

这些听起来遥不可及的消费，在一万亿美元面前几乎不值一提，一整年Steam游戏仅占全部资产的0.000142%，买下NVIDIA所有游戏显卡产能也只占0.7%。它其实已不再是花钱的问题，而是这笔钱最终会流向…

2026-07-01

英伟达Blackwell平台优化显成效：DeepSeek V4单Token成本大幅降低

IT之家 7 月 1 日消息，英伟达昨日（6 月 30 日）发布博文，宣布在英伟达 Blackwell 平台上，通过优化全栈推理，相比较DeepSeek V4 模型 1 个月前上线初期，单 Token 成本…

2026-07-01

特斯拉Cybercab美国得州奥斯汀开启测试 20个月从概念到落地速度惊人

2026-07-01

航天电子：订单高增利润薄估值极端，投资价值几何待明晰

2026-07-01

华为9月新品来袭：Mate XT2三折叠创新登场，与苹果折叠屏同月“对决”

2026-07-01

泰晶科技全系列晶振提价10%-30% 行业迎全产业链价格传导与国产替代机遇

2026-07-01

折叠屏新标杆！vivo X Fold6开售，AI交互与全能体验引领行业进化

2026-07-01

石头科技再获突破！新专利扫地机器人干湿垃圾同步处理，引领清洁新潮流

传统扫地机器人在处理液体垃圾时往往显得力不从心，然而石头科技的研发团队针对这一痛点进行了深入研究，成功开发出一种特殊的吸入通道设计。石头科技通过持续的技术迭代与专利布局，正在重塑行业竞争格局，为传统家电企业…

2026-07-01

狂暴双芯+顶级风冷！REDMI K90至尊版发布，3K档游戏性能旗舰新标杆

新一代至尊版搭载“骁龙 8 至尊版 + 游戏独显 D2”的“狂暴双芯”组合，且全面继承 REDMI K90 Max的行业最强风冷散热方案，目标打造 3K 档内最具性价比的游戏性能旗舰。基于 Sound by…

2026-07-01