中国具身模型狂揽全球第一!机器人的人类数据时代来了

张开发
2026/4/12 22:23:16 15 分钟阅读

分享文章

中国具身模型狂揽全球第一!机器人的人类数据时代来了
鹭羽 发自 凹非寺量子位 | 公众号 QbitAI还得是这届00后强得可怕一出手具身智能就被“整顿”得底朝天。当别人还在Sim2Real打转时这支00后带队的灵初智能已经开始用近10万小时人类数据暴力拆解。这个数字就是放到整个行业里看也是遥遥领先。毕竟目前人类操作数据集大多还都集中在几千到几万小时量级最大的也不过是英伟达的EgoScale包含2万小时人类第一视角视频数据。灵初这次直接上了个新台阶10万数据其中1000小时还开源。而且发布形式也够潮——直播show timeAI博主弗兰克和灵初智能的00后联合创始人陈源培直接手把手给你剖析的那种。techblog指路https://www.psibot.ai/from-human-skill-to-robotic-mastery/言而总之整场直播我们复盘下来就讲两件事给具身智能喂什么吃、让具身智能长什么样的脑子。说人话就是灵初给的是一条与众不同的务实路径——不整虚的直接对齐人类数据再用Psi-R2和Psi-W0双系统架构平稳落地具体场景。结果也很直观灵初Psi-R2迅速登顶MolmoSpace榜单。MolmoSpace由美国艾伦人工智能研究所AllenAI发起是全球具身智能领域权威基准评测平台NVIDIA、PI等全球顶尖团队均参与本次评测。而灵初Psi-R2在评测中一举超越PI、DreamZero等国际知名模型表现也显著优于其他基线模型妥妥的行业第一梯队。在成功率这块也比同类VLA模型要高出近10倍。情况就是这么个情况灵初一来就整了个大活具身智能终于迎来首个直接能用的大规模人类手部操作全模态数据集。下面就让我们回到直播间现场一一复盘拆解。10万小时让具身智能吃个顶饱“为啥偏偏具身智能会数据荒”弗兰克化身观众嘴替率先给出这句经典灵魂拷问。要回答这个问题首先需要厘清一点具身智能和自动驾驶、大语言模型这些AI领域存在原生的数据差异。后者基于现实场景和互联网长期积累沉淀形成了海量存量数据然后通过简单粗暴的算力Scaling law就能实现性能稳步提升。但具身智能则截然不同物理世界复杂的情况让它几乎没有可用的成熟数据集也很难像互联网产品那样边用边攒数据。可以说影响具身智能发展的关键之一就是数据卡脖子。那咋办呢以灵初在内的具身智能公司纷纷将目光投向人类数据。仿真数据还需要迁移处理才能在真实机器人上使用但人类数据就是最优秀的参考对象数据量大而且质量高。但事实上这里也同样存在一个无法忽视的问题人类和机器人之间存在本体差异embodiment gap。直接复用显然不行机器人必定会出现运动学结构、动力学特性不匹配种种问题。其次现有的人类数据要直接给到预训练也是万万不行的。因为要么都是些小规模开源数据要么就是网络上一些低质量的第一人称视频。但除去人类数据也几乎没有其它更好的路径可走。灵初给出的判断是具身智能要想面向真实商业化场景落地纯人类数据训练是必要的。一方面使用人类数据能够让机器人抢先学习到人类一线的标准作业流程SOP而这些都是得到商业实际验证过的即拿即用且行之有效。换言之真实场景的无缝衔接能够将数据成本降至最低比如人类的触觉数据收集成本就仅为机器人的1/10以下。另一方面人类数据的SOP也可以使操作速度达到机械臂物理运动上限如1200远超遥操作可达的800也更适配商业工厂的高节拍要求。所以灵初最终选择了人类数据并造出了首个可用于预训练的大规模人类操作数据集。其中在人类数据和机器人数据的融合处理中灵初遵循的是一条化繁为简的思路Raw Data InRaw Data Out原生数据进原生数据出。舍弃人工设计的复杂数据处理直接进行人类关节与机器人本体的运动学对齐让模型在海量数据中自行探索。另外Auto Labeling也会替代人工进行数据质检和标注最后再交由人工审核。最终模型预训练使用的数据集将包括真机数据5417小时和人类数据95472小时两部分总计10万小时数据。目前其中1000小时已开源到年底整个数据集还将Scaling到百万量级。具体来讲人类数据包括灵初自研外骨骼手套采集数据与裸手操作数据覆盖294种场景、4821种任务与1382种物体。至于为什么要强调触觉数据呢归根结底还是为了更好地弥补人机之间的embodiment gap。虽然人类与机器人在多个方面差异明显但二者在接触信号上却保持了惊人的高度一致能够有效补偿动力学差异以及在显著提升世界模型能力的同时还能更好地预测机器人与物体之间的交互情况。这样一整套高质量数据预训练下来机器人的泛化能力、长流程操作能力和操作精度都会有所突破后续也仅仅只需要不到100条轨迹的真机数据就能完成微调。另外值得关注的是灵初在此期间还发现了另一处华点数据信噪比才是决定人类数据能否有效支撑预训练的核心因素。低信噪比的数据甚至还会起到反作用。如果要想判断数据信噪比可以从两方面看1、数据集分布操作任务多样性物体多样性场景多样性。泛化能力其实是模型最难学会的能力之一但如果在预训练阶段可以见到更多任务和操作对象自然而然模型接手新任务速度就越快。2、感知模态精准3D位姿触觉模态2D图像特征。在全模态信息中人手全域3D位姿追踪是2D到3D模型转化的关键也和机器人动力学特性匹配度最高。简单来说灵初认为无论是精准采集的可复现数据还是舍弃部分精度的粗糙泛化数据都缺一不可。二者相互补充既保证模型精度又确保泛化。具身智能长出双系统新脑所以基于以上认知灵初全新发布Psi双系统架构——Psi-R2和Psi-W0。先看Psi-R2这是一款能让机器人学习人类做事的模型核心就是靠这10万的海量数据学会精细操作。图像和语言指令将作为输入输出预测的未来操作视频和可执行动作所以Psi-R2可以称之为世界行动模型WAM。其中训练骨干网络选用Wan2.2-IT2V-5B-480P预训练阶段同步使用真机数据和人类数据还搭建了一套完整的数据处理流程从数据清洗、自动标注到质量检测、人工核对Psi-W0还会帮忙检查数据质量。同时采用专门技术精准捕捉人类手部动作轨迹比如通过外骨骼手套将动作误差控制在亚毫米级以确保人类的操作细节能被机器人精准模仿。但WAM模型架构普遍存在一个bug——反应慢。单次推理要2.2秒反映到机器人身上就是明显的卡顿。于是灵初通过DiT缓存、Torch编译、模型量化等多项技术优化把反应时间极限压缩到了100毫秒以内。再看Psi-W0它和Psi-R2的基础架构相似但分工完全不同。Psi-R2是学习怎么做Psi-W0是协助做得更好。首先它和Psi-R2一样都是基于预训练视频生成模型构建的但在Psi-W0里机器人动作是输入输出的是对未来场景视频的预测所以Psi-W0也被定义为动作条件型世界模型AC-WM。这里就引出了另一个问题Psi-R2也能输出预测那为什么还要做Psi-W0答案很简单为了反事实推理。Psi-R2学到的只有成功的操作比如成功抓起苹果但没有办法预测到苹果抓不稳这类失败情况。但老话说得好失败是成功之母机器人亦是如此。失败经验能够帮助机器人避开错误、优化动作Psi-W0就是专门负责填补这部分空白。具体来讲两个模型的训练骨干和数据格式都是一致的只是在Psi-W0的训练数据中额外加入了30%的失败样本。显然Psi-R2和Psi-W0并非孤立存在而是彼此之间协同配合。当Psi-R2学完人类操作后Psi-W0就会模拟人类操作场景让Psi-R2再演练一遍也就是进行策略评估检查它有没有学漏学歪。Psi-W0还有一项核心功能是通过强化学习将人类数据转换为机器人数据。传统方法中数据转换靠的是仿真环境调整不仅复杂而且准确性不高。但用Psi-W0替代后它就会模拟机器人视角和动作模式再通过强化学习的试错调优将人类动作调整为机器人能精准执行的动作。更厉害的是在这个过程中还能持续生成新的优质数据当把这些数据反向喂给Psi-R2和Psi-W0继续学习就能构成闭环数据飞轮。当然也可以故意给Psi-W0进行随机扰动以模拟部分特殊场景然后再生成目标场景和训练数据。高质量数据滋养模型高性能模型场景落地反哺数据扩充。于是自然而然轮子飞起来了。最终整套系统能够实现长程任务自主规划、任务自主恢复和适配多场景复杂任务。开源是最高效的落地杠杆回看整场直播无论是弗兰克还是陈源培聊的内容其实贯穿技术始终的都是同一个关键词——落地。弗兰克站在观众角度好奇什么时候具身智能才能落地。陈源培则站在厂商视角给出了灵初智能的落地方案技术端从大规模的真实人类数据采集再到实际应用中的具身模型无一不是从切实的落地场景中出发构建。应用端灵初智能也同时宣布要和北京石景山共建数采厂以及和腾讯云、抖音、觅蜂、智域基石达成生态合作。不难看出灵初这家公司从诞生之初的DNA就是聚焦技术落地、提供通用全栈技术。它的每一步都在验证一个行业共识具身智能从诞生之初就锚定的终点绝非实验室而是每一个具体可感的复杂场景。而这恰恰才是检验具身智能的标准所在。在通往落地的过程中灵初也率先意识到单打独斗并非最优解开源是必要的。对于它们自身而言只有开源才能让全行业帮助他们快速采集海量数据才能弥补上这套数据飞轮体系中的关键一环。而且AI时代时间和数据就是最稀缺的黄金资源。越早进场、拥有越多数据就能抢先收获长尾效益。再放眼整个行业开源不仅是情怀也是打破技术封闭孤岛的钥匙。它能够建立起广袤的开发者生态通过标准化的数据管线和预训练底座让具身智能不再是孤立的厂商个体。而全行业开源共建还能反向喂养灵初这类硬核玩家让他们集中精力攻坚最难的技术瓶颈。集众智才是具身智能跑赢节拍、实现商业落地的唯一捷径。而灵初无疑是当中走得最快最稳的一位明星选手。最后化用一句老话用来描述我眼中的灵初智能——有仰望星空的勇气亦有脚踏实地的努力。具身智能正在因这场青春风暴而面目一新。P.S.点击阅读原文即可一键抵达techblog

更多文章