机器人不再“逐帧模仿”!全球首个事件级世界模型问世,做家务终于不翻车了

作者: 智享AI发布日期: 2026/5/31阅读时间: 4分钟
机器人不再“逐帧模仿”!全球首个事件级世界模型问世,做家务终于不翻车了 封面图

机器人帮你倒杯水,结果杯子换个位置就抓空?这不是机器人笨,而是它一直在“背帧数”——只记得胳膊该挪到哪个坐标,却不知道目标是什么。5月29日,自变量机器人团队放了个大招:发布全球首个基于“事件级预测”的具身智能世界模型WALL-WM。简单说,机器人终于不再死磕每一帧画面怎么动,而是像人一样,先想“我下一步要完成什么事件”,再动手。

过去主流的机器人训练方式,就像让一个学生对着课本逐字抄写,完全不管句子意思。拍到当前画面,模型就预测下一小段动作,然后照做。一旦桌子颜色变了、水杯换了,它就懵了——因为它只记住了“胳膊往右挪5厘米”,而不是“我要抓住杯子”。自变量团队的论文里点破了这个毛病:文本、图像、动作这三种信息,在现实中节奏完全不同,强行绑在一起学,只会互相拖累。

WALL-WM怎么破局的?它把任务拆成有意义的“事件单元”——伸手、抓取、移位、放下,每个事件都有明确的起点和终点。操作时,模型不再纠结“下一帧图像是啥样”,而是先在大脑里预演:下个事件会让世界发生啥变化?比如“我伸手过去后,杯子应该出现在掌心附近”。等预演完,再精确翻译成机械臂的运动指令。这相当于从“死记硬背”升级成了“先理解任务目标,再行动”。

为了让这套新架构真正能在现实里跑起来,团队做了大量硬核工程改造。系统能自由切换两种模式:需要连续微调时就全闭环控制,需要大步执行时就按事件单位输出。视频模型和动作模型各自分工又单向耦合,防止网上学来的视觉经验被动作数据带偏。针对多摄像头视角,他们还引入了一种特殊掩码机制,强迫AI建立真实的三维空间感,而不是只看一个平面的像素。最妙的是“阶梯式思维链解码”,在决策时像人一样一步步推理,但速度又足够快,没让用户等傻眼。

能长出这种能力,靠的是扎实的数据金字塔。底层几百万段网络视频打底,让模型学会各种物体怎么动;顶层全是真机操作和纠错数据,配四级标注、双聚类采样、分布式训练系统,最后FP8量化部署。在行业标准测试Core15L1里,面对完全没训练过的场景,WALL-WM的任务完成分数直接领跑,视频生成和空间感知也全面碾压同类模型。

这项技术已经开源。接下来我们很可能看到:机器人送快递时能自己判断“包裹歪了要先扶正”,工厂里机械臂换零件不用每次都重新编程,甚至家里的扫地机器人不会再对着桌腿撞半天。世界模型从“逐帧模仿”切换到“事件理解”,这或许是具身智能走向真正实用的关键一步。

aitechupdate
精选评论
评论加载中…
发表讨论 »