关闭广告

四足机器人首次同时「思考+走路」,北大提出链式推理MobileVLA-R1

新智元25人阅读


新智元报道

编辑:LRST

【新智元导读】在「大模型+机器人」的浪潮中,让机器人「听懂人话」已经不难,真正难的是——既要听得懂,还要走得对、走得稳。北京大学最新工作MobileVLA-R1把大模型的「链式思考(Chain-of-Thought)」真正搬进了四足机器人,在VLN导航仿真和真实Unitree Go2实验中,对标GPT-4o、NaVILA等强基线,在成功率和路径效率上实现全线提升,向「既会想、又会走」的具身智能迈出关键一步。

过去两年,RT-2、OpenVLA、NaVILA等Vision-Language-Action(VLA)模型,让机器人「能听懂复杂自然语言指令」成为现实。但一旦落地到四足机器人上,两大老问题依然突出:

  • 语义和控制断层模型在语言上「讲得通」,但落到连续控制上就开始「晃、抖、走不直」,甚至原地迷路;

  • 决策黑盒,难以纠错大模型直接给出一个动作,失败了也不知道是理解错了,还是规划错了,更谈不上线上调试与安全监管。

简而言之,现在很多VLA更像是「一次性给答案的黑盒」,而不是真正能「边想边走」的机器人大脑。

针对这些痛点,北京大学团队提出MobileVLA-R1,核心理念只有一句话:不再「看图直接给动作」,而是让机器人先生成一段可解释的链式推理(CoT),再据此输出动作。


论文链接:https://arxiv.org/pdf/2511.17889

项目代码:https://github.com/AIGeeksGroup/MobileVLA-R1

项目主页:https://aigeeksgroup.github.io/MobileVLA-R1/


MobileVLA-R1 总体架构。模型从RGB、深度和点云等多模态输入中抽取3D场景表征,与自然语言指令对齐后,通过链式推理生成高层计划与低层意图,再由Action Decoder输出连续控制命令,驱动四足机器人完成复杂路径规划与动作执行。

Vision端,MobileVLA-R1同时接入RGB图像、深度图和3D点云 / 地图等多源感知,由图像编码器、深度编码器和点云编码器提取表征,再通过统一的Projection Layer融合为时序场景表示;

Language / Reasoning端,文本编码器读取自然语言指令,如「先右转走到走廊尽头,再到壁炉前趴下」,并与多模态场景特征对齐;在此基础上,模型利用我们构建的多粒度链式推理数据集MobileVLA-CoT,把一条任务轨迹拆成

  • 「去哪、做什么」的高层目标,

  • 「从哪绕、先避什么」的中层规划,

  • 以及「当前是加速、转向还是减速等待」的低层意图;

Action端,上层MobileVLA-R1模块输出结构化的CoT,再经由Action Decoder转换为连续速度与转向指令,驱动四足机器人沿着右侧示例中那样的路径完成任务。

这样,MobileVLA-R1更像是一个有自说服能力的机器人管家:每一步该怎么走、为何这么走,都先在「内心独白」里解释清楚,再交给腿脚去执行。


MobileVLA-R1在真实室内环境中的三段示例任务。从左到右分别为:区分垃圾桶和水桶;绕开纸箱到达水桶;穿过椅子间隙到达桌子前。上方展示第三人称轨迹叠加,下方为相应视频片段。

CoT+强化学习

把「说得对」变成「走得好」

为了让「推理」和「控制」真正对齐,MobileVLA-R1采用了类似R1的两阶段训练范式:先教会「会想」,再逼它「走好」。

第一步:监督阶段(SFT)

先把「内心独白」造出来。

如下左图所示,研究人员构建了多粒度的MobileVLA-CoT 数据引擎

  • 既有面向单步控制的Step-CoT,也有覆盖整条任务轨迹的Episode-CoT / Nav-CoT

  • 输入同时包含RGB–Depth视觉、导航轨迹和指令文本,再交给Gemini-2.5生成结构化的 … … 链式推理;

  • 通过半自动校验,确保每一步「想法」都和动作、轨迹对得上。

在这一阶段,模型通过监督微调学会像人一样分步思考、拆解任务,也就是先学会「说得对」。


MobileVLA-CoT数据引擎。通过导航数据、Step/Episode级别视觉输入和结构化Prompt,借助Gemini-2.5生成多粒度链式推理标注。

第二步:强化阶段(GRPO 风格)

再把「想得清楚」变成「走得漂亮」。

研究人员在CoT之上构建了一条GRPO强化学习流水线

  • 对同一条指令,策略模型一次性生成多条 CoT + 动作方案;设计了三类奖励:

  • Movement Reward:速度、转向等连续控制是否接近专家轨迹;

  • Action Reward:离散动作选择是否正确;

  • Format Reward:是否严格遵守 / 结构,保证推理可解析;

  • 综合奖励和KL约束,只保留那些「既想得清楚、又走得好看」的策略更新模型。

相比只在文本上做奖励,MobileVLA-R1的优化目标直接对齐到真实轨迹与动作质量,真正把「大模型式慢思考」压进了四足机器人的行走行为中。


MobileVLA-R1的强化学习流水线。策略模型针对同一指令生成多条CoT+动作方案,结合Movement / Action / Format三类奖励和KL约束进行GRPO更新。

从VLN仿真到真实Go2

对标GPT-4o、NaVILA全面超越

在实验上,MobileVLA-R1覆盖了从仿真到真实机器狗的完整评估链路:

VLN-CE R2R-CE、RxR-CE等经典 Vision-and-Language Navigation 基准上,在「未见环境」下的成功率(SR)、路径效率(SPL)均显著高于现有导航模型和 VLA 基线;


在四足控制基准QUARD六大任务上,MobileVLA-R1将平均成功率提升至0.73,在「穿越狭窄区域、复杂绕障、货物卸载」等高难度任务上依然保持稳定;


在真实平台Unitree Go2上,研究人员将MobileVLA-R1部署在Jetson Orin机载计算平台上,结合L2 LiDAR+RGB-D摄像头+3D地图的多模态感知,在室外街道、室内走廊等典型场景中执行长时语言指令(如「绕开垃圾桶到门口停下」「找到黑色自行车并趴在旁边」),对比GPT-4o、NaVILA,在简单与复杂长指令下都取得更高完成率和更低导航误差。


下方两个demo分别展示了MobileVLA-R1 在室内Corridor场景和室外Outdoor场景中执行长时语言指令时的真实表现。

视频 1:室内 demo

MobileVLA-R1根据指令 「Starting from the initial position, walk forward to find a cardboard box, stop in front of it, and lie down」,在真实室内走廊中完成多模态感知(RGB/ Depth / 3D 点云)–链式推理–连续控制的完整闭环:自主前进、识别纸箱、在目标前精确停下并执行最终动作。

视频 2:室外demo

MobileVLA-R1 根据指令「Turn left and slowly go up the stairs, walk straight ahead for five seconds and stop, then turn right and descend the stairs smoothly」,在真实户外场景中完成上台阶、直行、定点停下、下台阶等连续动作,结合 RGB、深度和点云信息实现稳定的路径规划与地形适应能力。

如下图和上方视频所示,MobileVLA-R1能在真实环境中将视觉、深度和地图信息统一到同一推理链路中,一边「内心独白式」规划路径,一边稳定完成导航与避障。


MobileVLA-R1在Unitree Go2上的真实部署示意。左:机载Jetson Orin+LiDAR + RGB-D摄像头的硬件与部署流程;右:在室外街道、室内走廊等场景中执行长时语言指令时的逐步视觉 / 深度 / 地图可视化。

具身智能迈向

解释得清、走得稳、可持续优化

相比现有VLA,MobileVLA-R1的意义不只在于多了几分成功率,而是在于构建了一个更具「工程可用性」的范式:

  • 可解释:每个动作前都有清晰的CoT,方便线上排查和安全审计;

  • 可优化:可以直接在CoT + 轨迹层面设计新的奖励与人类偏好反馈;

  • 可扩展:天然可以与3D-R1、3D CoCa等3D场景理解模型、长期记忆模块结合,走向更大尺度的具身智能系统。


结语

从一条走廊,到更大的世界

当我们看着一只四足机器人,在拥挤的走廊里绕开行人、玻璃门和随机放置的障碍物,听懂「帮我把快递送到前台,再自己回充电桩」这样的指令,并稳稳完成任务时,

我们看到的不只是单个模型的性能提升,而是具身智能的一次范式升级

MobileVLA-R1告诉我们:

只要把「看懂世界」「想清路径」「走好每一步」真正连成一条可学习、可强化的链,机器人距离真正的「聪明可靠」就不再那么遥远。

参考资料:

https://arxiv.org/pdf/2511.17889

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《琅琊榜3》能否继续,孔笙表示剧本还在改,怕是“有生之年”了

最爱酷影视 浏览 2678

报道称明年AI芯片产量拟提高两倍,寒武纪尾盘拉升,深夜“严正声明”:不实

华尔街见闻官方 浏览 28

温州85后接棒,百亿企业大“换血”

中国企业家杂志 浏览 127

福建发布人工智能扶持新政:拟对企业年度算力购买最高补助50%

观察者网 浏览 121

连Win10都要停服了,那么多电脑该咋办?

江瀚视野 浏览 147

京东把榜一大哥整不会了

老斯基财经 浏览 133

华为智选SUV问界M9变相降价,至高5万!跟理想L9打价格战?

网上车市 浏览 2772

佩洛西要FBI调查"亲俄分子" 被批"诽谤"和"妄想"

环球网资讯 浏览 3057

中兴在日本发布 Libero Flip 竖向折叠屏手机

IT之家 浏览 16074

错过靳东,嫁给父亲看中的女婿,如今她怎么样了

楠楠自语 浏览 125

中国芯片首富,是个搞资本的狠人

华商韬略 浏览 2568

泽连斯基称将获射程3000公里武器 普京:他最好想清楚

每日经济新闻 浏览 135

曲刚:要付出最大努力来打好比赛,罗德里格伤势已没问题

懂球帝 浏览 145

催泪!杜兰特获篮网致敬获胜,妈妈庆祝,球迷飞上万公里观战

天涯沦落人 浏览 2857

曝AI独角兽阶跃星辰估值半年翻番,大模型创业格局变“六小强”

量子位 浏览 16649

东风日产N6最新申报图曝光:选装轮圈与红色卡钳

网易汽车 浏览 138

从夸克眼镜,到豆包手机,为什么巨头扎堆端侧AI?

华尔街见闻官方 浏览 39

大众确认!新高尔夫14.98万起售!4S店:现款优惠3万

知嘹汽车 浏览 2578

里瑟:利物浦的排名会比曼联更高,但后者也需要重返英超前列

懂球帝 浏览 18

特斯拉今年已裁员至少14%

盖世汽车 浏览 2519

高考选会计?会计法第三次修订!加大对违法会计的处罚力度

诗与星空 浏览 2665
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2024,版权所有 xingchentong.com
沪ICP备20017958号-8