文|潮涌AI
AI的下波浪潮,不在虚拟世界,在物理世界。
这不是潮涌AI闭门造车的判断,是资本市场用钱、学术界用论文共同投出来的票。
5月18日,被视为“物理AI第一股”的五一视界(06651.HK)单日暴涨23%,盘中最高涨45.6%;A股索辰科技(688507)同步涨停,此后一周内从107.52元飙至162.91元,单周涨幅51.52%,一个月内,股价从70.2元翻至162.91元,涨幅132%;凡拓数创同样实现同步涨停……物理AI板块集体爆发。

五一视界股价 图源:FinScope
英伟达黄仁勋在2026年CES上说:“物理AI的ChatGPT时刻已经到来。”

但比资本市场更早看到这个方向的,是两位AI领域的奠基人——李飞飞和杨立昆(Yann LeCun)。
李飞飞直言:“仅靠语言不足以构建通用人工智能。人类大量智能是非语言的,AI必须获得空间智能。”她创办的World Labs正在用“实时帧模型”构建可交互的3D世界。
杨立昆更直接:“大语言模型路线错了,世界模型才是通往AGI的唯一解。”他离开Meta创立AMI Labs,10.3亿美元种子轮融资,用JEPA架构在抽象表征空间预测物理规律。
无论是公司的市场表现,还是大佬们的前端预言,所有信号都指向同一个地方:让AI理解物理世界。
而就在这个热度之下,复旦大学OpenMOSS、新加坡国立大学Show Lab等团队的一篇最新综述,把过去两年涌现的几十种“先想象再行动”的工作正式命名为一种新范式——World Action Model(WAM,世界动作模型)。这篇综述刚发出来就在HuggingFace daily papers上拿到260+点赞,成为5月份具身智能方向最热门的概念性论文之一。
不能否认的是,世界模型和物理AI行业也存在着急需解决的问题,只有解决这些问题之后AI才能正式跨入真实的物理世界。
当然这个跨越,也是许多创业者的机会。
01 一位投资人的逆耳忠言
5月22日,潮涌AI在望京约见了一位不愿透露姓名的投资人K。
他经历过完整的移动互联网热潮。AI浪潮起来后,他又和清华的一群人一起进入了AI硬件赛道,亲身下场创业,对“技术底座→产品形态→商业闭环”这条链路的残酷性有切肤体会。
我们聊了一下午,话题从具身智能,最终落到世界模型上。
“你现在看到的具身智能,大部分是表演。”投资人K开门见山。
“机器人在台上跳舞、翻跟头、做后空翻——视频刷屏,评论惊叹。但潮水退去,一个尴尬的问题浮出水面:这些动作,离真正的干活还有多远?”

2026年春晚机器人表演
更关键的是,他指出了一个结构性死结:
“做本体的,模型能力很弱;做模型的,又没有真正理解本体。两边各自闭着眼跑,产业中间是断层的。”
他说,当前国内具身智能名义上有两条路线——模型党做本体,本体党加模型——但实际上是两套话语体系。
主机厂商纷纷全栈投入,资源重复建设、各自为战。智谱、银河通用、智元、科大讯飞......名字一个比一个响亮,但你拆开看,要么是强模型弱硬件,要么是强硬件弱智能。两者没有真正咬合在一起。
“很多人以为,给机器人装个大模型,再教它几百个任务,就能用了。这是错的。”
他拿人类成长做类比:婴儿先学会爬、走、跑,理解空间距离和身体边界,长大后才能执行复杂任务。机器人同样如此——空间运动能力是可迁移的底座,任务执行只是上层应用。没有这个底座,堆再多任务都是空中楼阁。
“你以为我在说一个理念?不是。这件事头部企业已经全都卷进去了,只是大家叫的名字不一样。”投资人说。
他举了几个例子。
智元明牌把BFM-2推成“运控基座模型”,后面还预告了GO-3;众擎年度视频里的多动作拼接、长时程稳定、倒地起身和抗扰恢复,明显在吃“运控基座”的红利——一个把词说出来,一个把需求拍出来;英伟达的Cosmos Policy把感知、动作、未来预测全编码进同一个模型;银河通用、智谱、Figure AI也在往同一个方向堆资源。

智元BFM-2官方演示视频截图
“你可以叫它运控基座,也可以叫它行为基座、身体接口——名字不重要。重要的是所有人都在回答同一个问题:怎么让机器人身体变成上层智能可以调用的底座。”
投资人把这个方向叫 BFM,Behavior Foundation Model,行为基础模型。简单来说,VLA可以理解任务,世界模型可以预测未来,语言模型可以做规划——但这些东西最后都要落到身体上:怎么走过去,怎么保持平衡,怎么起身,怎么接触物体,怎么在扰动之后继续执行。BFM正在做的,就是把“身体能力”封装成一个上层智能可以复用、适配和调用的底座。
“而且这里有个关键区分。”投资人K强调,“BFM解决的是机器人皮囊之内的自我控制问题——怎么走、怎么平衡、怎么起身。但还有一个更大的问题:机器人怎么和皮囊之外的真实世界发生因果交互?推一个杯子,杯子倒了,水流出来——这个因果关系链,BFM管不到。”
“所以我们的判断是,BFM只是第一步。下一步是从BFM升级为空间-运动底座——不光能控制自己,还能预判和干预外部世界的变化。这才是真正的物理AI。”
投资人K还透露了他们目前项目的方向:我们的核心是帮助客户把BFM升级为空间-运动底座。BFM 解决的是机器人“皮囊之内”的自我控制问题,而空间-运动底座解决的是机器人与“皮囊之外”真实世界的因果交互问题。
BFM这条路线正在把人形机器人运动控制,从“技能训练”推向“身体接口工程”。底层不再只是一堆孤立策略,而是一套可调用、可搜索、可组合的身体空间。
02 WAM:让机器人“先想后动”
WAM,World Action Model,世界动作模型。它的核心思想很简单:机器人做动作之前,先“脑补”一下这个动作会带来什么后果。不是事后反应,而是事前预演。
如果说BFM解决的是“身体能不能动”的问题,那WAM解决的就是“动之前想没想明白”的问题。
两者不是竞争关系,而是同一条技术链路上的两个环节——BFM是身体底座,WAM是认知预判。没有能调用身体的BFM,WAM的预演就是空中楼阁;没有能预判物理后果的WAM,BFM的动作就是盲打莽撞。
这位投资人创业的体感,正在被学术界系统性地验证。
当前主流的VLA(Vision-Language-Action)模型——RT-2、OpenVLA、π0——已经能很好地完成“看一眼杯子,然后伸手去拿”这类任务。但如果你问它:“如果用力推这个杯子,下一秒会发生什么?”——它答不出来,更不会因为预判到水会洒而调整施力方向。

VLA模型的演进脉络
模型学会了反应,却没学会预演。
VLA把“观察→动作”作为一个直接映射的反射弧来训练,从未被显式要求去建模“物理世界在我干预下会怎样演化”。这带来三个结构性麻烦:
1. 没有物理前瞻——无法模拟动作后果,对未见物体或复杂接触场景泛化脆弱
2. 黑盒输出——调试时很难分辨“是感知错了,还是规划错了”
3. 数据效率低——互联网上海量人类操作视频,没有动作标签就对VLA几乎无用
WAM的核心主张,是把“预测未来状态”和“生成动作”绑成同一个目标函数——模型被迫同时预测未来状态和动作的联合分布。
这不是“VLA+World Model”的简单叠加。三者的边界必须分清楚:

Sora、Genie能预测未来帧,但和机器人控制脱钩;RT-2、π0能输出动作,但不显式预测后续状态。真正算WAM的,必须同时满足两条:生成可量化的未来状态表示,且动作解码严格与预测的未来状态对齐。
两条路线:先“脑补”再动手,还是边想边动?
技术层面,WAM目前有两条工程路线在赛跑。
第一条叫“先想象,再翻译”——专业说法叫级联架构。思路很直观:先让AI“脑补”出接下来会发生什么,比如杯子倒了、水流出来,然后从这段“脑补视频”里提取出该做什么动作。好处是能直接复用现在很成熟的视频生成模型,开发门槛低;坏处是想象和动作分两步走,一旦“脑补”错了——比如以为杯子是空的其实装了半杯水——后续动作全跑偏,而且两阶段的延迟堆在一起,实时控制很困难。
第二条叫“边想边动”——联合架构。把“预测未来”和“输出动作”塞进同一个模型里一起训练,让网络自己学会把环境变化和动作指令拧成一股绳。代价是训练极其复杂,几家头部公司烧了大量算力才跑通;但一旦跑通,推理速度快得多,而且想象和动作天然对齐,不容易出现“脑补的是A、执行的是B”的错位。英伟达的Cosmos Policy走得最激进——把感知、动作、未来预测甚至价值判断全编码进同一个模型,一个checkpoint同时当策略、世界模型和评估器。
工程上的取舍很明确:眼下用级联架构借现成的视频模型快速落地,长期看联合架构的低延迟和高一致性才是终局。这半年扩散流匹配类的联合WAM(DreamZero、Cosmos Policy等)崛起速度,已经说明产业正在往这个方向收敛。
03 世界模型的“因果困境”
如果说具身智能的下半场是空间运动,那么上半场还未走完的,是世界动作模型。
“世界模型训练的卡点,不是算力,不是算法,而是高质量的训练物料。具体来说,是缺乏带有因果关系的行为数据。”
目前行业里几条主流训练路线,各有各的困境:

“这些路线都在试图绕过一个核心问题:机器需要理解我为什么这么做,而不只是我在做什么。”
这就是世界动作模型的瓶颈——缺的不是数据量,是因果密度。
杨立昆对此有更深层的批判。他认为,当前的大语言模型本质上是“复现逻辑”——在模仿训练数据的统计规律。但真正的智能需要“预测逻辑”——在行动前预判行为的物理后果。“如果你无法预测自身行为的后果,就无法合理规划行动序列以完成复杂任务。”
这正是JEPA架构的价值——不是在像素空间预测下一帧画面,而是在抽象的表征空间预测物理规律。
04 潮涌AI观点
具身智能行业正在经历从“炫技”到“务实”的拐点。
资本仍然热烈,但耐心在减少。那些只有舞蹈视频、没有实际任务执行能力的公司,正在面临残酷的去泡沫。
WAM的兴起标志着一个更深层的变化:行业正在从“反射弧式”的VLA,走向“预演式”的世界动作模型。
短期看,级联架构借助现成视频模型快速落地;长期看,联合架构的低延迟和高对齐度终将收敛为最终形态。
BFM的同步推进则说明,“空间运动底座”不只是投资人嘴里的一个概念,它正在学术界和产业界同时被工程化。智元的运控基座、众擎的抗扰恢复、英伟达的Cosmos Policy、银河通用和智谱的身体接口探索——不同玩家在用自己的方式回答同一个问题:怎么让机器人身体变成上层智能可以调用的底座。
头部企业全部押注同一方向,这不是巧合,是产业共识。
真正的分水岭在于:谁在建造可迁移的空间运动底座,谁在堆叠不可复制的任务demo。
前者是在造“人”,后者只是在造“表演”。
而世界模型的竞争,本质上是高质量因果数据的竞争。身体能力封装、触觉融合、因果行为预判——这些看似边缘的探索,可能正是物理AI破局的关键。
*本文基于2026年5月22日潮涌AI与一线投资人深度访谈整理,经受访者审阅授权发布。
