机器人也能“猜未来”?蚂蚁灵波LingBot-VA入选顶会,成功率超91%

作者: 智享AI发布日期: 2026/5/25阅读时间: 7分钟
机器人也能“猜未来”?蚂蚁灵波LingBot-VA入选顶会,成功率超91% 封面图

昨天,蚂蚁灵波科技与香港科技大学等高校合作的一篇论文被机器人领域顶级会议RSS 2026接收。这个会议每年只接受不到三分之一的投稿,门槛极高。论文的核心是让机器人学会“边干边想”——先预测自己动作会带来什么变化,再决定怎么干。

对机器人来说,最难的不是完成“拿起水杯”这个动作,而是知道拿起后桌面会变成什么样。蚂蚁灵波团队开发的LingBot-VA模型,就像一个“因果脑”,它按照真实时间顺序,一步步推演:先看眼前情况,再预测下一秒,最后生成下一步指令。这让人想起人类做菜时的本能——先看锅里油热了没,再决定是否下菜。

技术实现上,LingBot-VA用了一种叫Mixture-of-Transformers的架构,把看视频和做动作统一到一个模型里。它还设计了闭环推演机制:一边干活,一边用真实环境反馈修正预测,避免越跑越偏。测试结果很亮眼:在RoboTwin 2.0的50个双臂操作任务中,简单任务成功率达92%,困难任务也有91.1%;在LIBERO基准上更是冲到98.5%。更厉害的是,现实世界中,针对长耗时、高精度、柔性物体等6项高难度任务,它只需要50条示范数据就能适应,整体成功率比业界基准高出20个百分点。

这已经不是实验室里的概念。LingBot-VA的代码和权重早已在GitHub和Hugging Face上开源。对机器人行业来说,这次入选意味着一个转折点:机器人正从“听指令的木偶”,变成会观察、会推理、会自主决策的智能体。未来,你家里的机器人可能不只是扫地,还能看懂你皱眉的表情,提前递来一杯水。让机器人学会“有前有后”地干活,蚂蚁灵波论文入选顶会RSS 2026

机器人的世界里,最难的不是伸手抓东西,而是知道伸手之后会发生什么。比如你让它端咖啡,它得先搞清楚桌面上还有什么,杯子会怎么移动,咖啡会不会洒。这不是拍视频,是真真实实的因果推断。昨天,蚂蚁灵波科技与香港科技大学等高校合作的论文《Causal World Modeling for Robot Control》被机器人领域顶级会议RSS 2026接收。这个会议是业内公认的“珠峰”,录取标准严到苛刻。能上会,意味着这套思路不仅在理论上有突破,还让同行们点了头。

论文的核心,是把“预测未来”这项能力塞进了机器人脑子里。他们打造了一个全球首个开源的自回归视频-动作世界模型LingBot-VA。简单说,这个模型会让机器人一边干活,一边推演环境会怎么变——这就像人走路时不会盲目迈腿,而是先看一眼地面,再决定落脚点。每一步预测都只依赖之前的观察和动作,按照真实时间顺序串成一条因果链。这样一来,机器人就有了“长期记忆”,能处理需要很多步才能完成的任务,比如叠衣服、组装零件。

具体怎么实现的?LingBot-VA用了Mixture-of-Transformers(MoT)架构,把视频预测和动作生成捏进同一个自回归扩散框架里。它还设计了一个闭环机制:每次推演后,机器人会对照真实环境,修正自己的判断,避免错误越积越多。效果相当亮眼。在RoboTwin 2.0的50个双臂操作任务中,LingBot-VA在简单和困难场景下分别达到92.0%和91.1%的平均成功率;在LIBERO基准测试上更是冲到了98.5%。真实世界测试中,面对长时序、高精度以及柔性与关节物体操控三大类6项高难度挑战,它只需要50条示范数据就能适应,整体成功率比业界标杆π0.5拉高了20个百分点。

对蚂蚁灵波来说,这次入选不仅仅是一张学术名片。它说明LingBot-VA这套“因果世界模型”已经被国际顶级平台认可,也验证了它作为具身智能基础模型的价值。未来,机器人不必每一步都等着人类下指令,它能在复杂环境和多变任务中自己判断、自己修正。这项技术已经在Hugging Face和GitHub上开源,任何开发者都能下载、实验、改进。机器人正从“听命令的工具”走向“会思考的伙伴”,这一天可能比你想象中来得更快。

designtechtoolinnovation
精选评论
评论加载中…
发表讨论 »