探索机器人训练的多种数据策略提升泛化能力。
近日,黄仁勋在 CES 上发布世界基础模型开发平台Cosmos,它可以大规模生成基于物理世界的合成数据,为机器人提供接近真实世界的虚拟训练场,这有利于提升机器人泛化能力。
提升机器人泛化能力的关键之一在于数据的丰富性和准确性,围绕这一目标探索的不仅英伟达,清华和北大的科研团队近期也密集发布研究成果,探索如何通过低成本方式实现丰富的数据训练。他们主要利用仿真数据和真机数据的不同组合,目前的尝试集中在以下三种路径:
第一种,以合成仿真数据为主导,比如银河通用。银河通用成立于 2023 年年初,其背后是前如布科技联创尹方鸣和姚腾洲、科学家团队则包括北大助理教授王鹤。银河通用是低成本仿真路线的拥护者,经过两年的努力,公司近期推出了产品 GraspVLA。
其思路类似于 RoboCasa 和 RoboGen,在海量合成的仿真环境中生成机器人训练数据。GraspVLA专注于抓取任务,通过在仿真中部署预训练的 AnyGrasp 模型采集数据,用于训练一个 VLA。此外,仿真环境中加入大量随机化设计,进一步提升了VLA模型的泛化能力。
(AnyGrasp、GraspVLA、OpenVLA demo视频对比)
第二种路径是结合仿真数据与真机数据进行联合训练,灵初智能是这一方向的代表公司之一。该公司成立于2024年9月,由前京东机器人总裁王启斌、机器人算法负责人柴晓杰以及李飞飞的学生陈源培联合创立,科学家团队包括北大助理教授杨耀东和梁一韬。
(以上是Psi R0的demo视频)
灵初智能的技术路线与银河通用类似,也是在仿真环境中对模型进行大规模预训练。其特点是在模仿学习中引入了强化学习技术,并结合真机数据对其进行微调训练。这种方法使得即便仅使用少量的仿真和真机数据,也能完成具有高度泛化能力的复杂任务,同时实现不同技能的顺畅衔接与操作。
2024年12月底,灵初智能发布了 Psi R0 模型,该模型成功完成了双手协作的长程泛化打包任务,展现出实现商业化潜力。此前,灵初智能还发布过其他具有代表性的成果,例如完成长程灵巧手任务的 Lego 组装,突破了传统强力抓取的能力边界,实现了更灵活的抓取和高精度动作。
根据公开信息,灵初智能计划于2025年3月发布自研本体以及更加泛化的具身大模型。
(以上为Lego组装视频)
第三种路径是以真机数据为主导的训练方式,星海图是这一方向的典型代表。该公司成立于2023年9月,由清华系背景的团队创建。星海图的CEO是前Momenta执行董事高继扬,科学家团队包括清华助理教授赵行和许华哲。
(以上为星海图real2sim2real视频demo)
在数据策略上,星海图采取了与其他公司完全不同的观点,认为数据价值排序为:真机数据 > 互联网数据 > 仿真数据。他们计划在2024年发布100万条真机数据,并在2025年扩展到1000万条。这些数据将成为星海图构建具身大模型的核心,而不是依赖灵初智能和银河通用所采用的大规模仿真数据预训练。
然而,以大规模真机数据为主也存在问题,例如数据的多样性(diversity)不足,可能限制模型的泛化能力。为解决这一问题,星海图提出了 Real2Sim2Real 的训练策略。具体而言,他们利用真实数据,在仿真环境中通过随机化扩充,将数据规模扩大至原来的1000倍。这些仿真数据仅作为后训练的强化剂,旨在提升模型的成功率和实际应用效果,从而实现更高效的落地能力。
这三家清北团队在算法和数据策略上展现出不同的侧重:灵初智能在算法上突出强化学习的应用,银河通用侧重于仿真数据的优势,而星海图则更强调真实数据的核心价值。不过,它们都采用了仿真数据与真实数据相结合的方式,只是在预训练与后训练阶段对数据比例的侧重点有所不同。
此外,清华北大近期还有很多值得关注的成果。比如清华星动纪元ERA-42、北大与国地共建具身智能中心RoboMind、北大与智元OmniManip、清华千寻智能CoPa和Data Scaling Law等。