星宸资讯

新智元报道

编辑：LRST

【新智元导读】在「大模型+机器人」的浪潮中，让机器人「听懂人话」已经不难，真正难的是——既要听得懂，还要走得对、走得稳。北京大学最新工作MobileVLA-R1把大模型的「链式思考（Chain-of-Thought）」真正搬进了四足机器人，在VLN导航仿真和真实Unitree Go2实验中，对标GPT-4o、NaVILA等强基线，在成功率和路径效率上实现全线提升，向「既会想、又会走」的具身智能迈出关键一步。

过去两年，RT-2、OpenVLA、NaVILA等Vision-Language-Action（VLA）模型，让机器人「能听懂复杂自然语言指令」成为现实。但一旦落地到四足机器人上，两大老问题依然突出：

语义和控制断层：模型在语言上「讲得通」，但落到连续控制上就开始「晃、抖、走不直」，甚至原地迷路；
决策黑盒，难以纠错：大模型直接给出一个动作，失败了也不知道是理解错了，还是规划错了，更谈不上线上调试与安全监管。

简而言之，现在很多VLA更像是「一次性给答案的黑盒」，而不是真正能「边想边走」的机器人大脑。

针对这些痛点，北京大学团队提出MobileVLA-R1，核心理念只有一句话：不再「看图直接给动作」，而是让机器人先生成一段可解释的链式推理（CoT），再据此输出动作。

论文链接：https://arxiv.org/pdf/2511.17889

项目代码：https://github.com/AIGeeksGroup/MobileVLA-R1

项目主页：https://aigeeksgroup.github.io/MobileVLA-R1/

MobileVLA-R1 总体架构。模型从RGB、深度和点云等多模态输入中抽取3D场景表征，与自然语言指令对齐后，通过链式推理生成高层计划与低层意图，再由Action Decoder输出连续控制命令，驱动四足机器人完成复杂路径规划与动作执行。

在Vision端，MobileVLA-R1同时接入RGB图像、深度图和3D点云 / 地图等多源感知，由图像编码器、深度编码器和点云编码器提取表征，再通过统一的Projection Layer融合为时序场景表示；

在Language / Reasoning端，文本编码器读取自然语言指令，如「先右转走到走廊尽头，再到壁炉前趴下」，并与多模态场景特征对齐；在此基础上，模型利用我们构建的多粒度链式推理数据集MobileVLA-CoT，把一条任务轨迹拆成

「去哪、做什么」的高层目标，
「从哪绕、先避什么」的中层规划，
以及「当前是加速、转向还是减速等待」的低层意图；

在Action端，上层MobileVLA-R1模块输出结构化的CoT，再经由Action Decoder转换为连续速度与转向指令，驱动四足机器人沿着右侧示例中那样的路径完成任务。

这样，MobileVLA-R1更像是一个有自说服能力的机器人管家：每一步该怎么走、为何这么走，都先在「内心独白」里解释清楚，再交给腿脚去执行。

MobileVLA-R1在真实室内环境中的三段示例任务。从左到右分别为：区分垃圾桶和水桶；绕开纸箱到达水桶；穿过椅子间隙到达桌子前。上方展示第三人称轨迹叠加，下方为相应视频片段。

CoT+强化学习

把「说得对」变成「走得好」

为了让「推理」和「控制」真正对齐，MobileVLA-R1采用了类似R1的两阶段训练范式：先教会「会想」，再逼它「走好」。

第一步：监督阶段（SFT）

先把「内心独白」造出来。

如下左图所示，研究人员构建了多粒度的MobileVLA-CoT 数据引擎：

既有面向单步控制的Step-CoT，也有覆盖整条任务轨迹的Episode-CoT / Nav-CoT；
输入同时包含RGB–Depth视觉、导航轨迹和指令文本，再交给Gemini-2.5生成结构化的 … … 链式推理；
通过半自动校验，确保每一步「想法」都和动作、轨迹对得上。

在这一阶段，模型通过监督微调学会像人一样分步思考、拆解任务，也就是先学会「说得对」。

MobileVLA-CoT数据引擎。通过导航数据、Step/Episode级别视觉输入和结构化Prompt，借助Gemini-2.5生成多粒度链式推理标注。

第二步：强化阶段（GRPO 风格）

再把「想得清楚」变成「走得漂亮」。

研究人员在CoT之上构建了一条GRPO强化学习流水线：

对同一条指令，策略模型一次性生成多条 CoT + 动作方案；设计了三类奖励：

Movement Reward：速度、转向等连续控制是否接近专家轨迹；
Action Reward：离散动作选择是否正确；
Format Reward：是否严格遵守 / 结构，保证推理可解析；

综合奖励和KL约束，只保留那些「既想得清楚、又走得好看」的策略更新模型。

相比只在文本上做奖励，MobileVLA-R1的优化目标直接对齐到真实轨迹与动作质量，真正把「大模型式慢思考」压进了四足机器人的行走行为中。

MobileVLA-R1的强化学习流水线。策略模型针对同一指令生成多条CoT+动作方案，结合Movement / Action / Format三类奖励和KL约束进行GRPO更新。

从VLN仿真到真实Go2

对标GPT-4o、NaVILA全面超越

在实验上，MobileVLA-R1覆盖了从仿真到真实机器狗的完整评估链路：

在VLN-CE R2R-CE、RxR-CE等经典 Vision-and-Language Navigation 基准上，在「未见环境」下的成功率（SR）、路径效率（SPL）均显著高于现有导航模型和 VLA 基线；

在四足控制基准QUARD六大任务上，MobileVLA-R1将平均成功率提升至0.73，在「穿越狭窄区域、复杂绕障、货物卸载」等高难度任务上依然保持稳定；

在真实平台Unitree Go2上，研究人员将MobileVLA-R1部署在Jetson Orin机载计算平台上，结合L2 LiDAR+RGB-D摄像头+3D地图的多模态感知，在室外街道、室内走廊等典型场景中执行长时语言指令（如「绕开垃圾桶到门口停下」「找到黑色自行车并趴在旁边」），对比GPT-4o、NaVILA，在简单与复杂长指令下都取得更高完成率和更低导航误差。

下方两个demo分别展示了MobileVLA-R1 在室内Corridor场景和室外Outdoor场景中执行长时语言指令时的真实表现。

视频 1：室内 demo

MobileVLA-R1根据指令「Starting from the initial position, walk forward to find a cardboard box, stop in front of it, and lie down」，在真实室内走廊中完成多模态感知（RGB/ Depth / 3D 点云）–链式推理–连续控制的完整闭环：自主前进、识别纸箱、在目标前精确停下并执行最终动作。

视频 2：室外demo

MobileVLA-R1 根据指令「Turn left and slowly go up the stairs, walk straight ahead for five seconds and stop, then turn right and descend the stairs smoothly」，在真实户外场景中完成上台阶、直行、定点停下、下台阶等连续动作，结合 RGB、深度和点云信息实现稳定的路径规划与地形适应能力。

如下图和上方视频所示，MobileVLA-R1能在真实环境中将视觉、深度和地图信息统一到同一推理链路中，一边「内心独白式」规划路径，一边稳定完成导航与避障。

MobileVLA-R1在Unitree Go2上的真实部署示意。左：机载Jetson Orin+LiDAR + RGB-D摄像头的硬件与部署流程；右：在室外街道、室内走廊等场景中执行长时语言指令时的逐步视觉 / 深度 / 地图可视化。

具身智能迈向

解释得清、走得稳、可持续优化

相比现有VLA，MobileVLA-R1的意义不只在于多了几分成功率，而是在于构建了一个更具「工程可用性」的范式：

可解释：每个动作前都有清晰的CoT，方便线上排查和安全审计；
可优化：可以直接在CoT + 轨迹层面设计新的奖励与人类偏好反馈；
可扩展：天然可以与3D-R1、3D CoCa等3D场景理解模型、长期记忆模块结合，走向更大尺度的具身智能系统。

结语

从一条走廊，到更大的世界

当我们看着一只四足机器人，在拥挤的走廊里绕开行人、玻璃门和随机放置的障碍物，听懂「帮我把快递送到前台，再自己回充电桩」这样的指令，并稳稳完成任务时，

我们看到的不只是单个模型的性能提升，而是具身智能的一次范式升级。

MobileVLA-R1告诉我们：

只要把「看懂世界」「想清路径」「走好每一步」真正连成一条可学习、可强化的链，机器人距离真正的「聪明可靠」就不再那么遥远。

参考资料：

https://arxiv.org/pdf/2511.17889

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

四足机器人首次同时「思考+走路」，北大提出链式推理MobileVLA-R1

60分！森林...

小区因千万接...

续命式改款，...

官方：31岁...

浙江一男子泳...

QQ25岁再...

推广中奖名单-更新至2025年10月10日推广

塔帅：赢球能带来能量和信心，我觉得这是足球最重要的两件事

冲击330万目标！尹同跃再“吹牛”：AI追赶特斯拉，推17款AI车

英媒：面对美国欧洲领导人＂必须学会反击＂

2023年12月轿车销量榜：比亚迪5车上榜，宏光MINIEV月销再破5万

风云突变，俄欧提前“对决”，中美怎么办？

消息称LPDDR5X内存价格持续飙升，涨幅可抵2亿像素潜望镜

美政府寻求查封数十艘与委内瑞拉有关联的油轮

强过微软？谷歌Pixel 9手机新AI功能加持拍照、截图、图片生成

农妇收玉米时遇山体坍塌失联4天周边马路出现大坑

足球报：曾有公司有意收购广西平果，但因欠账问题方面没谈拢

TA：诺丁汉森林不会因对阵曼联存在角球误判向裁判机构上诉

900V架构打造莲花ForMe将于3月29日上市

《长相思2》来了！剧情注水配角加戏，杨紫演技没发挥还暴露短板

小号普拉多丰田兰德酷路泽FJ全球首发亮相

18.99万起，智享大六座旗舰SUV风云T11上市，又要卖爆？

股价连跌6天，但泡泡玛特却在全球狂飙！

伊姐周日热推：电视剧《御赐小仵作2》；电视剧《偶像疯子》......

老年痴呆父亲掏出所有钱哽咽求女儿：能带我找妈妈吗

Google与约翰霍普金斯大学联手打造AI＂审计官＂

股市：开门红

A股进入“两会”时间，16大热门投资赛道出炉

保壳悬了？*ST赛隆预计2025年营收猛增，审计机构却上任不足半月“闪辞”

小米汽车订单回收价跌至2000元两月前曾溢价2万