一位投资人的肺腑：AI的下波巨浪，必定是世界模型、物理AI

文｜潮涌AI

AI的下波浪潮，不在虚拟世界，在物理世界。

这不是潮涌AI闭门造车的判断，是资本市场用钱、学术界用论文共同投出来的票。

5月18日，被视为“物理AI第一股”的五一视界（06651.HK）单日暴涨23%，盘中最高涨45.6%；A股索辰科技（688507）同步涨停，此后一周内从107.52元飙至162.91元，单周涨幅51.52%，一个月内，股价从70.2元翻至162.91元，涨幅132%；凡拓数创同样实现同步涨停……物理AI板块集体爆发。

五一视界股价图源：FinScope

英伟达黄仁勋在2026年CES上说：“物理AI的ChatGPT时刻已经到来。”

但比资本市场更早看到这个方向的，是两位AI领域的奠基人——李飞飞和杨立昆（Yann LeCun）。

李飞飞直言：“仅靠语言不足以构建通用人工智能。人类大量智能是非语言的，AI必须获得空间智能。”她创办的World Labs正在用“实时帧模型”构建可交互的3D世界。

杨立昆更直接：“大语言模型路线错了，世界模型才是通往AGI的唯一解。”他离开Meta创立AMI Labs，10.3亿美元种子轮融资，用JEPA架构在抽象表征空间预测物理规律。

无论是公司的市场表现，还是大佬们的前端预言，所有信号都指向同一个地方：让AI理解物理世界。

而就在这个热度之下，复旦大学OpenMOSS、新加坡国立大学Show Lab等团队的一篇最新综述，把过去两年涌现的几十种“先想象再行动”的工作正式命名为一种新范式——World Action Model（WAM，世界动作模型）。这篇综述刚发出来就在HuggingFace daily papers上拿到260+点赞，成为5月份具身智能方向最热门的概念性论文之一。

不能否认的是，世界模型和物理AI行业也存在着急需解决的问题，只有解决这些问题之后AI才能正式跨入真实的物理世界。

当然这个跨越，也是许多创业者的机会。

01 一位投资人的逆耳忠言

5月22日，潮涌AI在望京约见了一位不愿透露姓名的投资人K。

他经历过完整的移动互联网热潮。AI浪潮起来后，他又和清华的一群人一起进入了AI硬件赛道，亲身下场创业，对“技术底座→产品形态→商业闭环”这条链路的残酷性有切肤体会。

我们聊了一下午，话题从具身智能，最终落到世界模型上。

“你现在看到的具身智能，大部分是表演。”投资人K开门见山。

“机器人在台上跳舞、翻跟头、做后空翻——视频刷屏，评论惊叹。但潮水退去，一个尴尬的问题浮出水面：这些动作，离真正的干活还有多远？”

2026年春晚机器人表演

更关键的是，他指出了一个结构性死结：

“做本体的，模型能力很弱；做模型的，又没有真正理解本体。两边各自闭着眼跑，产业中间是断层的。”

他说，当前国内具身智能名义上有两条路线——模型党做本体，本体党加模型——但实际上是两套话语体系。

主机厂商纷纷全栈投入，资源重复建设、各自为战。智谱、银河通用、智元、科大讯飞......名字一个比一个响亮，但你拆开看，要么是强模型弱硬件，要么是强硬件弱智能。两者没有真正咬合在一起。

“很多人以为，给机器人装个大模型，再教它几百个任务，就能用了。这是错的。”

他拿人类成长做类比：婴儿先学会爬、走、跑，理解空间距离和身体边界，长大后才能执行复杂任务。机器人同样如此——空间运动能力是可迁移的底座，任务执行只是上层应用。没有这个底座，堆再多任务都是空中楼阁。

“你以为我在说一个理念？不是。这件事头部企业已经全都卷进去了，只是大家叫的名字不一样。”投资人说。

他举了几个例子。

智元明牌把BFM-2推成“运控基座模型”，后面还预告了GO-3；众擎年度视频里的多动作拼接、长时程稳定、倒地起身和抗扰恢复，明显在吃“运控基座”的红利——一个把词说出来，一个把需求拍出来；英伟达的Cosmos Policy把感知、动作、未来预测全编码进同一个模型；银河通用、智谱、Figure AI也在往同一个方向堆资源。

智元BFM-2官方演示视频截图

“你可以叫它运控基座，也可以叫它行为基座、身体接口——名字不重要。重要的是所有人都在回答同一个问题：怎么让机器人身体变成上层智能可以调用的底座。”

投资人把这个方向叫 BFM，Behavior Foundation Model，行为基础模型。简单来说，VLA可以理解任务，世界模型可以预测未来，语言模型可以做规划——但这些东西最后都要落到身体上：怎么走过去，怎么保持平衡，怎么起身，怎么接触物体，怎么在扰动之后继续执行。BFM正在做的，就是把“身体能力”封装成一个上层智能可以复用、适配和调用的底座。

“而且这里有个关键区分。”投资人K强调，“BFM解决的是机器人皮囊之内的自我控制问题——怎么走、怎么平衡、怎么起身。但还有一个更大的问题：机器人怎么和皮囊之外的真实世界发生因果交互？推一个杯子，杯子倒了，水流出来——这个因果关系链，BFM管不到。”

“所以我们的判断是，BFM只是第一步。下一步是从BFM升级为空间-运动底座——不光能控制自己，还能预判和干预外部世界的变化。这才是真正的物理AI。”

投资人K还透露了他们目前项目的方向：我们的核心是帮助客户把BFM升级为空间-运动底座。BFM 解决的是机器人“皮囊之内”的自我控制问题，而空间-运动底座解决的是机器人与“皮囊之外”真实世界的因果交互问题。

BFM这条路线正在把人形机器人运动控制，从“技能训练”推向“身体接口工程”。底层不再只是一堆孤立策略，而是一套可调用、可搜索、可组合的身体空间。

02 WAM：让机器人“先想后动”

WAM，World Action Model，世界动作模型。它的核心思想很简单：机器人做动作之前，先“脑补”一下这个动作会带来什么后果。不是事后反应，而是事前预演。

如果说BFM解决的是“身体能不能动”的问题，那WAM解决的就是“动之前想没想明白”的问题。

两者不是竞争关系，而是同一条技术链路上的两个环节——BFM是身体底座，WAM是认知预判。没有能调用身体的BFM，WAM的预演就是空中楼阁；没有能预判物理后果的WAM，BFM的动作就是盲打莽撞。

这位投资人创业的体感，正在被学术界系统性地验证。

当前主流的VLA（Vision-Language-Action）模型——RT-2、OpenVLA、π0——已经能很好地完成“看一眼杯子，然后伸手去拿”这类任务。但如果你问它：“如果用力推这个杯子，下一秒会发生什么？”——它答不出来，更不会因为预判到水会洒而调整施力方向。

VLA模型的演进脉络

模型学会了反应，却没学会预演。

VLA把“观察→动作”作为一个直接映射的反射弧来训练，从未被显式要求去建模“物理世界在我干预下会怎样演化”。这带来三个结构性麻烦：

1. 没有物理前瞻——无法模拟动作后果，对未见物体或复杂接触场景泛化脆弱

2. 黑盒输出——调试时很难分辨“是感知错了，还是规划错了”

3. 数据效率低——互联网上海量人类操作视频，没有动作标签就对VLA几乎无用

WAM的核心主张，是把“预测未来状态”和“生成动作”绑成同一个目标函数——模型被迫同时预测未来状态和动作的联合分布。

这不是“VLA+World Model”的简单叠加。三者的边界必须分清楚：

Sora、Genie能预测未来帧，但和机器人控制脱钩；RT-2、π0能输出动作，但不显式预测后续状态。真正算WAM的，必须同时满足两条：生成可量化的未来状态表示，且动作解码严格与预测的未来状态对齐。

两条路线：先“脑补”再动手，还是边想边动？

技术层面，WAM目前有两条工程路线在赛跑。

第一条叫“先想象，再翻译”——专业说法叫级联架构。思路很直观：先让AI“脑补”出接下来会发生什么，比如杯子倒了、水流出来，然后从这段“脑补视频”里提取出该做什么动作。好处是能直接复用现在很成熟的视频生成模型，开发门槛低；坏处是想象和动作分两步走，一旦“脑补”错了——比如以为杯子是空的其实装了半杯水——后续动作全跑偏，而且两阶段的延迟堆在一起，实时控制很困难。

第二条叫“边想边动”——联合架构。把“预测未来”和“输出动作”塞进同一个模型里一起训练，让网络自己学会把环境变化和动作指令拧成一股绳。代价是训练极其复杂，几家头部公司烧了大量算力才跑通；但一旦跑通，推理速度快得多，而且想象和动作天然对齐，不容易出现“脑补的是A、执行的是B”的错位。英伟达的Cosmos Policy走得最激进——把感知、动作、未来预测甚至价值判断全编码进同一个模型，一个checkpoint同时当策略、世界模型和评估器。

工程上的取舍很明确：眼下用级联架构借现成的视频模型快速落地，长期看联合架构的低延迟和高一致性才是终局。这半年扩散流匹配类的联合WAM（DreamZero、Cosmos Policy等）崛起速度，已经说明产业正在往这个方向收敛。

03 世界模型的“因果困境”

如果说具身智能的下半场是空间运动，那么上半场还未走完的，是世界动作模型。

“世界模型训练的卡点，不是算力，不是算法，而是高质量的训练物料。具体来说，是缺乏带有因果关系的行为数据。”

目前行业里几条主流训练路线，各有各的困境：

“这些路线都在试图绕过一个核心问题：机器需要理解我为什么这么做，而不只是我在做什么。”

这就是世界动作模型的瓶颈——缺的不是数据量，是因果密度。

杨立昆对此有更深层的批判。他认为，当前的大语言模型本质上是“复现逻辑”——在模仿训练数据的统计规律。但真正的智能需要“预测逻辑”——在行动前预判行为的物理后果。“如果你无法预测自身行为的后果，就无法合理规划行动序列以完成复杂任务。”

这正是JEPA架构的价值——不是在像素空间预测下一帧画面，而是在抽象的表征空间预测物理规律。

04 潮涌AI观点

具身智能行业正在经历从“炫技”到“务实”的拐点。

资本仍然热烈，但耐心在减少。那些只有舞蹈视频、没有实际任务执行能力的公司，正在面临残酷的去泡沫。

WAM的兴起标志着一个更深层的变化：行业正在从“反射弧式”的VLA，走向“预演式”的世界动作模型。

短期看，级联架构借助现成视频模型快速落地；长期看，联合架构的低延迟和高对齐度终将收敛为最终形态。

BFM的同步推进则说明，“空间运动底座”不只是投资人嘴里的一个概念，它正在学术界和产业界同时被工程化。智元的运控基座、众擎的抗扰恢复、英伟达的Cosmos Policy、银河通用和智谱的身体接口探索——不同玩家在用自己的方式回答同一个问题：怎么让机器人身体变成上层智能可以调用的底座。

头部企业全部押注同一方向，这不是巧合，是产业共识。

真正的分水岭在于：谁在建造可迁移的空间运动底座，谁在堆叠不可复制的任务demo。

前者是在造“人”，后者只是在造“表演”。

而世界模型的竞争，本质上是高质量因果数据的竞争。身体能力封装、触觉融合、因果行为预判——这些看似边缘的探索，可能正是物理AI破局的关键。

*本文基于2026年5月22日潮涌AI与一线投资人深度访谈整理，经受访者审阅授权发布。