ViVa——基于视频生成模型的机器人RL价值估计:比原先基于VLM的价值函数,能更好的在动态交互环境中对当前进度和未来走势下所带来的回报做估计

张开发
2026/4/18 3:33:13 15 分钟阅读

分享文章

ViVa——基于视频生成模型的机器人RL价值估计:比原先基于VLM的价值函数,能更好的在动态交互环境中对当前进度和未来走势下所带来的回报做估计
前言近期(26年4月中旬)出差长三角地区两天四城昨天衢州(代工厂)、杭州(场景中心)今天南通(变电厂)、上海(本体厂商)高铁上还完成了对一篇paper的解读。其实博客中的很多paper我们都会搞下把机器人和最前沿具身技术(比如π0.6、π0.7等)落地到各个工厂中对我们而言最感兴奋毕竟我们属于具身垂直场景的训练及落地交付而本体厂商侧重硬件制造、高校侧重理论创新、我司七月则侧重落地交付各自其职 缺一不可额外说下目前平均每月去5个工厂近两年每年基本50个工厂两年100个工厂可以让我们对工厂典型场景的理解能力最深从而提前沉淀在工业场景的技术积累而之所以有机会能跑这么多工厂原因在于1 我们是20余家头部本体厂商的场景交付伙伴他们会给我司源源不断介绍工厂客户(委托七月帮他们的工厂客户去做落地交付)2 2500万 PV的具身博客和200多万播放量的具身视频号在中国发挥着越来越大的影响力和知名度3 一帮朋友的高密度给我们介绍客户而我们给出去的方案终端客户无一例外全部高度认可第一部分1.1 引言与相关工作1.1.1 引言如原论文所说觉-语言-动作Vision-Language-Action, VLA模型Intelligence 等2025Kim 等2024Li 等2025Team 等2026Zitkovich 等2023通过利用大规模预训练在实现跨多种任务的通用操作方面取得了重大进展然而要在真实世界环境中取得成功远不止需要静态场景理解机器人交互在部分可观测性和延迟反馈的条件下展开其中决策的后果仅在较长的时间跨度后才会显现Huang 等人2022 年Zitkovich 等人2023 年因此学习如何将当前行为与未来结果关联起来仍然是真实世界机器人领域的一项根本性挑战这一挑战要求具备一种能力能够评估正在进行的交互是否正朝着成功完成任务的方向发展。这样的进展感知使机器人能够区分有益行为和不良行为并通过经验不断改进在强化学习RLSutton et al., 1998中这一能力由价值函数形式化表示它估计预期的未来结果并为策略改进提供学习信号。近期的VLA框架如π∗0,6Intelligence et al.,2025凸显了这一重要性其“通过优势条件策略进行经验与纠正的强化学习——RECAP”流程依赖于用于优势估计和策略优化的多任务价值函数表明学习性能在很大程度上依赖于价值模型的质量————详见此文《π∗0.6——通过RL框架RECAP微调流式VLA π0.6先基于示教数据做离线RL预训练再SFT最后在线RL后训练(与环境自主交互从经验数据中学习且必要时人工干预)》基于这一重要性近期工作开始探索利用视觉–语言模型VLMsBai et al., 2025Chenet al., 2024Comanici et al., 2025Li et al., 2024Marafioti et al., 2025Zhu et al., 2025进行价值估计将价值预测表述为分类问题Intelligence et al., 2025或时间顺序排序问题Ma et al., 2024尽管这些方法展现出良好前景但它们也继承了一个关键局限VLM 主要在静态图像–文本数据上进行训练侧重语义理解而并非显式建模场景如何随时间演化因此它们能够捕捉场景中“当前有什么”却难以表征交互是如何动态地改变环境的这种不匹配限制了其在具有时间延展性的机器人任务中支持可靠价值估计的能力上述局限性揭示了一个关键洞见价值估计本质上是一个预判未来如何演化的问题。与在静态数据上训练的判别式模型不同视频生成模型被显式优化用于捕捉时间演化过程学习场景在交互展开时如何变化。这使得视频生成模型自然而然成为价值估计的基础因为想象未来结果的能力可以直接用于评估当前行为是否在朝着任务完成的方向推进在这一观察的指导下来自GigaAI、四川大学和清华大学的研究者将价值学习重新表述为未来预测并提出了一种视频生成式价值模型(Video-generative Value modelViVa)其paper地址为其项目地址为简言之给定当前的多视角观测以及机器人本体感知ViVa 共同预测未来的本体感知状态并输出一个标量值来表示任务向成功完成推进的进度。通过将价值估计建立在对未来具身动力学的预期之上ViVa 利用预训练视频生成模型的时空先验将预测性的结构融入到超越静态快照的表示中具体而言这是一种将预训练视频生成器重新用作机器人强化学习中价值函数的新方法通过利用从大规模视频语料库中学习到的时空先验该模型能够捕捉关于场景随时间演化的丰富动力学特征以当前观测和机器人本体感觉proprioception作为输入ViVa 联合预测未来的本体感觉以及当前状态的标量价值将价值估计建立在对未来具身动力学的预期之上使ViVa 能够融入超越静态快照的预测结构从而在内在上将价值与前瞻性紧密耦合。这样的设计为优势函数计算提供了更可靠的价值信号进而提升了机器人操作任务中的策略优化效果作者将基于视频的价值模型集成到 RECAP 流水线中用其替换原先基于 VLM 的价值函数作者宣称在具有挑战性的真实世界任务——装箱任务中该方法相比以往方法展现出明显优势作者宣称他们对全部三个任务的定性分析进一步表明ViVa 能够产生更加可靠的价值信号准确跟踪任务进度并检测执行错误且通过利用从视频语料中学习到的时空先验ViVa 还可以推广到以往方法难以处理的新颖物体上这表明基于视频生成的价值模型为实现可扩展的真实世界机器人学习提供了一条可行路径1.1.2 相关工作首先对于机器人学习中的价值函数侧重对当前任务完成进度的评估价值函数在机器人操作的强化学习中发挥着基础性作用它通过提供学习信号在反馈延迟且稀疏的情形下引导策略改进Ross et al., 2011; Sutton et al., 1998早期工作探索了从演示与离线数据集中学习价值函数或Q函数的方法包括用于操作任务的校准Q-learning和离线强化学习方法Huang et al., 2025; Kalashnikov et al., 2018; Lampe et al., 2024; Levineet al., 2020; Luo et al., 2024; Mandlekar et al., 2020; Mendonca et al., 2023; Sharma et al.,2023后续研究将价值估计纳入端到端的机器人学习流程中采用如PPO和REINFORCE等策略梯度方法以及诸如任务完成时间预测等任务特定建模形式表明精确的价值建模对于实现长时程的机器人行为至关重要Ghasemipour et al., 2025; Zhai et al., 2025VLA 模型的成功Cheang et al., 2024; Kim et al., 2024; Li et al., 2024; Liu et al., 2024; ONeill et al.,2024; Team et al., 2024激发了人们将VLM 从策略学习扩展到价值估计的兴趣Frans et al., 2025; Ma etal., 2023, 2024GVLMa et al., 2024展示了VLM 可以通过将价值预测表述为对打乱顺序的视频帧进行时间排序的问题从视觉轨迹中提供可迁移的逐帧价值估计从而在多样的操作任务中实现对进度敏感的学习基于这一方向最新的框架π∗0.6(Intelligence et al., 2025)将基于VLM 的价值函数引入强化学习流水线利用它们来估计状态-动作优势用于基于优势的策略细化这样的整合在诸如叠衣服和制作浓缩咖啡等具有挑战性的长时间任务中带来了显著收益表明价值模型的质量在真实世界环境中可以直接转化为策略性能的提升总之如原论文所述这些工作展示了基于VLM 的价值估计在机器人强化学习中的可行性但问题是现有方法依赖于在静态图文数据上训练的判别式 VLM视觉语言模型仅以隐式方式捕获时间动态。这使得价值估计局限于单个帧而无法显式建模物理交互随时间演变的过程正是因为这种局限性促使作者利用视频生成模型这类模型直接从大规模视频数据中学习时空动态为长时间跨度任务中的价值估计提供了一个天然的基础其次面向机器人操作的视频生成模型侧重对未来走势的判断视频生成模型通过从大规模视频数据中学习来预测未来的视觉序列从而捕获关于物体运动、物理交互以及场景演化的时空先验Blattmann et al., 2023; Kong et al., 2024; Yang et al.,2024; Zheng et al., 2024与在静态图文对上训练的视觉-语言模型不同视频生成模型被显式地优化用于刻画场景如何随时间演变近期的最先进方法通常采用扩散 TransformerBaoet al., 2023; Peebles and Xie, 2023来建模潜在视频分布从而支持在语言指令Blattmannet al., 2023; Singer et al., 2022; Villegas et al., 2022或部分观测Ceylan et al., 2023; Qi etal., 2023条件下进行未来预测这些特性使得视频生成模型非常适合用于预判视觉动态总之预见未来视觉结果的能力在机器人领域引起了越来越多的关注已有工作将视频预测作为世界模型用于规划通过生成的未来画面来模拟动作结果或指导决策Du 等2023Zhou 等2024其他方法则将视频生成集成到策略学习流程中例如通过逆动力学提取动作Yang 等2023在生成的目标帧上对策略进行条件建模Du 等2023Zhang 等2025或在生成动作的同时联合生成视频帧Cheang 等2024Wu 等2023Ye 等2026最新研究还通过合成人与物体交互的视频来探索从人到机器人的迁移Bharadhwaj 等2024Kareer 等2025Zhao 等2025尽管已有这些进展现有方法主要利用视频生成来产生或引导动作与之相反作者研究视频生成的一种互补角色价值估计对未来动力学的预测会隐式编码任务进展的信号这表明视频模型可以评估交互是否朝着成功完成的方向发展。基于这一洞见作者提出 ViVa这是一种视频生成式价值模型它将一个预训练的视频生成器重新用作标量价值预测器从而将价值估计建立在对未来具身动力学的预期之上1.2 完整方法论1.2.0 问题表述作者将机器人操作形式化为由元组定义的马尔可夫决策过程MDP其中S 是状态空间A 是动作空间T : S × A →S 是状态转移动力学R : S × A →R 是奖励函数γ ∈[0, 1] 是折扣因子实际上完整状态并不能被直接观测到取而代之的是在每个时间步智能体接收一个观测(例如多视角RGB 图像)以及其本体感受状态例如关节位置和速度然后将联合观测记为其作为底层状态的代理智能体根据策略选择动作环境根据动力学转移到新的观测长度为的轨迹是一个序列在策略π 下一条轨迹的概率为奖励函数表示为回报是累积奖励强化学习RL的目标是最大化期望回报在这项工作中作者专注于学习价值函数它用于估计给定观测下的期望未来回报对于一个策略π价值函数被定义为作者的目标不是学习一个策略而是学习一个能够从当前观测准确预测的模型。然而由于部分可观测性以及需要对未来动态进行推理直接从单张图像估计长时域回报是具有挑战性的为了解决这一问题作者才提出的视频生成式价值模型通过想象未来状态将价值预测建立在预期具身动态之上1.2.1 整体架构作者在 Wan2.2Wan 等人2025之上构建他们的视频生成式价值模型Wan2.2 是一个预训练的视频扩散 Transformer最初用于在给定初始图像和文本条件的情况下生成未来帧。为了将其适配为价值估计模型作者通过 latent injectionAgarwal 等人2025Liang 等人2025扩展其输入与输出模态而无需修改其核心架构ViVa 的整体架构如图 2 所示『左当前机器人的本体感知信息和标量价值通过重复填充与广播操作被映射到潜在帧。右注入的潜变量组成一个统一的序列其中当前观测空白 token、本体感知信息以及多视角图像作为干净的条件帧而未来的本体感知信息和价值则作为带噪声的目标帧。扩散 Transformer 在这些干净前缀的条件下对目标进行去噪联合预测未来的具身状态以及一个标量价值该价值被定义为归一化回报』模态的潜在编码所有输入和输出模态都被映射到形状为的潜在帧其中,是经过VAE下采样后的空间维度是潜在通道维度作者使用预训练的时空VAE 对图像进行编码每个相机视角被独立压缩为一个潜在帧对于如本体感受状态和标量值这类低维向量且设计了专门的注入过程————这二者首先被归一化到[−1, 1] 以匹配潜在空间的统计分布本体感受状态通过重复填充进行嵌入重复其元素以匹配潜在帧尺寸并重塑为生成标量值通过广播方式嵌入将潜在帧的每个元素都设为相同的归一化值从而得到训练期间的潜在序列训练期间作者组装一个固定长度的潜在帧序列其中包含条件帧和目标帧。令K 表示一个固定的预测范围。该序列为其中是因果VAE 所需的零初始化占位符前五帧空白、当前本体感受以及当前图像作为干净的条件输入而剩余两帧未来本体感受和值则在随机采样的噪声级别下被加入高斯噪声去噪器学习在给定干净前缀的条件下从带噪声的目标中恢复出干净目标推理过程中的潜在序列在推理时仅有条件帧可用。作者将当前观测图像和本体感受编码到各自的潜在帧中构成相同的前缀并运行反向扩散以生成目标帧和预测值通过对的所有元素取平均并从[−1, 1] 缩放回[0, 1] 得到为了恢复未来的本体感受状态作者应用重复填充注入的逆操作将展平按原始本体感受维度大小切分为连续的块对每一块取平均并缩放回原始范围训练目标作者采用与 Wan2.2Wan 等2025中相同的 flow matching 形式化方法。令表示一个干净的潜在帧可以是或并令为具有相同形状的高斯噪声潜在变量作者构建一条线性插值路径模型被训练用于预测沿这一路径的恒定速度总体目标是一个加权组合其中和是模态特定的插值潜变量表示干净的条件帧而是流动时间步————作者也尝试过联合预测未来的视觉潜变量但观察到价值估计精度有所下降作者推测这是由于两个任务之间固有的难度不匹配所致视觉生成需要捕获高维空间结构而价值潜变量具有更简单的结构在联合优化过程中更容易受到视觉重建目标的干扰通过将所有模态都视为潜在帧作者的架构在保留其时空先验的同时将一个强大的视频生成器重新用于价值估计而引入对未来本体感受proprioceptive的预测有两个目的一是迫使模型内化机器人的自身动力学这对于需要精确肢体协同的任务至关重要二是为价值估计提供一种补充视觉线索的隐式运动度量总之通过在视觉观测的基础上联合推理并预测具身动力学作者宣称他们的模型捕捉到任务状态如何演化的更丰富概念从而在长时间跨度的操作任务中实现更准确的回报归因1.2.3 奖励定义与价值训练作者现在为他们的视频生成价值模型定义学习目标。训练数据中的每个episode 都带有一个二元成功标签用于指示最终任务结果对于长度为T 的一个episode作者定义逐步奖励以编码时间上的进展和完成状态其中在这种表述下累积收益提供了一种判别性的监督信号通过不同的取值范围来区分结果在这种形式化下对于成功的轨迹表示处于区间 [0, 1) 内的归一化任务进度而对于失败的轨迹则由于终止惩罚被整体平移到区间 [1, 2)这在任意时间阶段都保证了不同结局之间固定为 1.0 的间隔从而有效消除了在价值估计中任务进度与失败之间的歧义回报作为价值潜变量的监督信号(The return serves as the supervision signal for the value latent z)在上一节(1.2.1 整体架构)所描述的流匹配目标中被视为干净的目标。该形式化方法在不同长度的轨迹中提供了一致且结果感知的监督信号。通过联合预测回报和未来本体感受模型学习同时捕捉任务层面的整体性和机器人的具身动力学从而有效地奠基通过共同预测回报和未来的本体感受该模型学会捕捉任务层面的完整性以及机器人的具身动态从而有效地将价值评估建立在预期的具身进化之上1.3 实验1.3.1 任务与数据收集作者在三个真实世界任务上收集演示数据并进行训练叠衣服、装箱打包以及卫生纸整理每个任务对应的演示视频都在补充材料中提供。下面对这些任务进行概述衬衫折叠本任务用于评估双臂在操作高度可变形纺织品时的协同能力。机器人必须先在桌面上将衣物铺平然后执行一连串协调动作先将袖子与两侧向内折叠接着沿衣物长度方向折叠最后再进行一次横向折叠任务成功的判定标准是在 200 秒内将衬衫整齐地折叠在指定区域内。若在过程中因严重缠绕导致衣物损坏或已形成的折叠结构发生塌陷则视为失败纸箱包装与装配本任务通过多阶段操作序列来评估机器人在长时间跨度上的双臂协同能力。机器人首先抓取目标物品将其放入一个尚未完全成型的纸箱中随后折叠侧翼并合上箱盖成功的判定标准是在 300 秒内目标物品被完全封装在一个结构稳固的纸箱中且所有插舌均正确扣合。若物品掉落、纸箱受损或纸箱无法完全封口则视为任务失败卫生纸整理本任务评估在多阶段操作中对柔性纸张的精确操控能力。机器人必须先抓取并撕下一张单独的纸张将其丢弃到指定容器中然后与协作方一起将卷纸上剩余的松散纸头重新卷回直到其与纸卷边缘齐平。最后需要贴上一枚封口贴纸以固定纸头若能在 300 秒内完成撕纸、丢弃和封口三个步骤即视为成功。撕裂过多或未能牢固贴上封口贴纸则记为失败1.3.2 实验设置首先对于基线方法作者将他们的方法与若干具有代表性的基线进行比较预训练的VLA 模型π0.5 (Intelligence etal.,2025) 和Gigabrain-0 (Team et al.,2025) 被用作无RL 微调的模仿学习基线为了在RECAP (Intelligenceet al., 2025) 框架下考察价值模型设计的效果作者基于Gigabrain-0 作为基础策略实现了两个变体一个配备了常规的基于VLM 的价值函数另一个则将价值函数替换为作者提出的视频生成式模型 ViVa。所有其他组件保持完全一致从而可以对不同价值模型设计进行受控对比其次对于实现细节对于基于VLM 的价值模型作者遵循与π∗0.6 (Intelligence et al., 2025) 相同的设计将价值估计表述为在离散化回报区间上的201 分类问题该基线和基于ViVa 的变体都在完全相同的RECAP 流程中训练使用来自三个任务的混合示范数据以确保公平比较所有模型都以批大小为192 训练一个epoch预测视野K 在所有任务中都设为50与RECAP 框架中用于优势估计的默认视野保持一致对于ViVa未来本体感受和价值预测的损失权重分别设为和在推理过程中作者对ViVa 使用1步去噪并采用DDIM 采样所有实验均在8 块NVIDIA A800 GPU 上进行1.3.3 定性分析作者在两种设置下评估他们的方法一是在训练任务上的域内性能二是对新奇物体的域外泛化能力首先对于域内性能作者首先分析在训练任务的轨迹上学习到的价值函数的行为。图4、图5 和图6 可视化了在具有代表性的任务执行过程中由基于VLM 的价值函数和作者提出的ViVa 模型生成的价值估计的时间演化图4展示了一个盒子装配的运动轨迹在插入过程中机器人在拐角处出现了对不齐以及部分悬垂『图中突出显示了两个失败事件蓝色阴影区域。基于 VLM 的价值对这些错误基本不敏感表明其对成功轨迹存在过拟合。相比之下ViVa 在这些错误发生的时刻出现明显的价值骤降表明其通过对预期具身动态的建模而对次优动作更加敏感』ViVa会在这些次优行为发生的时刻产生明显的数值骤降表明它能够通过推理预期的具身动力学检测到与理想执行偏离的情况相比之下基于VLM的价值在整个轨迹中单调上升对这些中间阶段的错误不敏感。这种行为暗示了过拟合模型将时间推进与价值增加机械地关联起来而没有真正评估执行质量图5展示了在一次叠衬衫轨迹过程中数值价值的演化ViVa 维持了一条平滑且持续上升的价值曲线从初始状态到最终叠好的状态能够紧密跟踪任务的推进过程相较之下基于 VLM 的价值在常规动作过程中呈现出不稳定的剧烈波动并在任务执行的大段时间内基本保持平坦未能反映任务进展循序渐进的特性图6展示了在整理厕纸任务中的价值轨迹并突出两个关键里程碑对齐纸卷的松散末端以及贴上标签ViVa在这两个阶段都出现了明显的价值提升体现出对有意义进展的敏感性相较之下基于 VLM 的价值几乎保持平坦未能捕捉这些关键事件并且存在与任务状态无关的高频波动综上这些结果清晰地凸显出两种价值建模范式之间的根本差异基于 VLM 的方法依赖静态视觉识别其产生的预测要么对任务进展单调不敏感要么与任务进展完全脱节相比之下ViVa 则利用视频生成模型的时空先验将价值评估直接锚定在对具身动态的预期之上其次对于域外泛化能力为了进一步评估这两种价值模型在未见过的对象类别上的泛化能力折叠一条裤子该类别未包含在训练数据中图7可视化了在一次成功执行过程中的价值估计ViVa在四个关键执行里程碑提起、折叠裤腿、折叠腰部和最终放置处都表现出极其陡峭且精准对齐的价值跃升从而形成一条平滑且单调上升的轨迹能够忠实地在这一新颖物体上跟踪任务进度相比之下基于VLM的价值估计始终未能检测到第一和第四个里程碑在任务初始阶段尽管在持续取得进展却呈现出违反直觉的下降趋势并且在整个执行过程中都受到高频振荡的影响这种性能退化清楚地表明基于 VLM 的函数在很大程度上依赖于从训练分布中记忆的表层视觉模式因此在迁移到全新场景时不可避免地会遇到困难相较之下ViVa通过利用视频生成中固有的时空先验即便面对未见过的物体也能保持稳健的价值估计体现出其对任务动态在静态视觉特征之外的真正理解1.3.4 真实环境实验// 待更

更多文章