像 ChatGPT 和 Claude 这样的聊天机器人在过去三年里使用量激增,因为它们能帮你完成各种各样的任务。无论是写莎士比亚十四行诗、调试代码,还是回答冷门知识问题,这些 AI 似乎都能搞定。它们这种多才多艺的能力背后,是来自互联网的数十亿甚至万亿级别的文本数据点。
然而,仅仅依靠这些数据,远不足以将一个机器人训练成能干的家庭或工厂助理。机器人需要通过实际的演示来理解如何在多变的环境中抓取、堆叠和摆放各种物体。你可以将机器人的训练数据想象成一系列操作指南视频,一步步地拆解任务中的每个动作。在真实机器人上采集这些演示数据不仅耗时,而且过程难以精确重复。为此,工程师们尝试过用 AI 生成模拟数据(但这些数据往往与真实世界的物理规律脱节),或是耗费巨大精力从零开始手动构建每一个数字环境。
现在,来自麻省理工学院计算机科学与人工智能实验室 (MIT's Computer Science and Artificial Intelligence Laboratory, CSAIL) 与丰田研究院 (Toyota Research Institute) 的研究人员或许已经找到了解决方案,能够为机器人打造它们所需要的既多样又逼真的虚拟训练场。他们提出了一种名为“可控场景生成” (steerable scene generation) 的方法,可以程序化地创建厨房、客厅、餐厅等数字场景,供工程师模拟大量的真实世界互动与情境。该工具在一个包含超过 4400 万个 3D 房间的数据集上进行训练,这些房间中充满了桌子、盘子等各类物体的模型。它能将现有的资产布置到全新的场景中,并对每个场景进行精细调整,使其成为一个物理上精确且栩栩如生的环境。
“可控场景生成”技术通过“引导”一个扩散模型 (diffusion model) 来创建这些 3D 世界。扩散模型是一种 AI 系统,它能从随机噪声中生成视觉图像,并朝着用户所期望的日常场景演化。研究人员利用这个生成系统对环境进行“内部绘制” (in-paint),即在场景中填充特定的元素。你可以想象一块空白画布,突然间变为一个堆满 3D 物体的厨房,然后这些物体被逐步重新排列,最终形成一个遵循真实世界物理规律的场景。比如,该系统能确保叉子不会穿过桌上的碗——这在 3D 图形中是一种被称为“穿模” (clipping) 的常见错误,即模型之间发生重叠或交叉。
至于“可控场景生成”究竟如何引导其创作过程趋向真实,则取决于所选择的策略。其核心策略是“蒙特卡洛树搜索” (Monte Carlo tree search, MCTS),这是一种让模型创建一系列备选场景,并以不同方式进行填充以达成特定目标的算法(例如,让场景的物理表现更真实,或在场景中包含尽可能多的可食用物品)。AI 程序 AlphaGo 正是利用该策略在围棋比赛中击败人类顶尖选手,系统在做出最优选择前会预先考量一系列可能的移动序列。
“我们首次将 MCTS 应用于场景生成领域,通过将场景生成任务构建为一个序列决策过程来实现,” MIT 电子工程与计算机科学系 (Department of Electrical Engineering and Computer Science, EECS) 的博士生、CSAIL 研究员及该项目论文的第一作者 Nicholas Pfaff 表示,“我们持续在部分已生成的场景基础上进行构建,以期随时间推移产出更好或更符合需求的场景。因此,MCTS 能够创造出比其训练所用的扩散模型更为复杂的场景。”
在一次极具说服力的实验中,MCTS 在一个简单的餐厅场景中成功添加了最多达 34 件物品,其中包括堆叠得很高的多层点心蒸笼,而其训练数据中的场景平均仅包含 17 件物品。
“可控场景生成”还允许通过强化学习 (reinforcement learning) 来生成多样化的训练情景。其本质是教会扩散模型通过试错来达成目标。在初始数据训练之后,系统会进入第二个训练阶段。在这一阶段,你会设定一个奖励机制(即一个期望的结果,并用分数来衡量与目标的接近程度)。模型会自动学习如何创造得分更高的场景,其产出的情景往往与训练数据大相径庭。
用户还可以通过输入具体的视觉描述来直接向系统发出指令(例如,“一个厨房,桌上有一个碗和四个苹果”)。 “可控场景生成”能够精确地将这些指令变为现实。例如,该工具在构建食品储藏架场景时,准确遵循用户指令的成功率高达 98%,而在生成凌乱的早餐桌场景时则达到了 86%。这两项指标均比 MiDiffusion 和 DiffuScene 等同类方法高出至少 10%。
该系统还能通过提示或简单的指令来补全特定场景(例如,“使用相同的物体,设计一个不同的场景布局”)。你可以让它将苹果摆放在厨房桌子的几个盘子上,或是将棋盘游戏和书籍放到架子上。这本质上是在保留场景其余部分的同时,“填补”空白区域。
研究人员认为,他们项目的优势在于能够创造出大量可供机器人专家实际使用的场景。Pfaff 指出:“我们的一个关键发现是,用于预训练的场景不必与我们最终想要的场景完全一致。利用我们的引导方法,我们可以超越原有的数据分布,从一个‘更好’的分布中进行采样。换言之,我们可以生成我们真正想用来训练机器人的那种多样化、真实且与任务对齐的场景。”
这些丰富的场景成为了理想的测试平台,研究人员可以在其中记录虚拟机器人与不同物品的互动。例如,机器可以精准地将刀叉放入餐具筒,或是在多种 3D 环境下将面包重新摆放到盘子里。每一次模拟都显得流畅而逼真,让我们得以一窥未来由“可控场景生成”技术训练出的高适应性机器人的模样。
尽管该系统为生成大量多样的机器人训练数据提供了一条前景光明的道路,但研究人员表示,目前的工作更多是作为一种概念验证。未来,他们希望利用生成式 AI 来创造全新的物体和场景,而不仅仅是使用固定的资产库。他们还计划引入可活动的关节式物体(如可以打开的柜子或装有食物的罐子),以增强场景的互动性。
为了使虚拟环境更加逼真,Pfaff 及其同事可能会借鉴他们之前的研究项目“Scalable Real2Sim”,整合一个从互联网图像中提取的物体和场景库。通过扩展 AI 构建的机器人测试平台的多样性和逼真度,团队希望建立一个用户社区,共同创造海量数据,最终形成一个庞大的数据集,用于教授灵巧机器人掌握不同的技能。
“在今天,为模拟创建逼真的场景是一项极具挑战性的工作;程序化生成虽然可以快速产出大量场景,但这些场景很可能无法代表机器人在真实世界中会遇到的环境。而手动创建定制场景既耗时又昂贵,” 亚马逊机器人公司 (Amazon Robotics) 的应用科学家 Jeremy Binagia 评论道(他并未参与该项研究)。“‘可控场景生成’提供了一种更好的途径:在一个大型的预先存在的场景集合上训练一个生成模型,并(通过强化学习等策略)使其适应特定的下游应用。与以往那些依赖现成视觉语言模型或仅限于在 2D 网格上排列物体的方法相比,这种新方法保证了物理上的可行性,并全面考虑了 3D 的平移和旋转,从而能够生成远为有趣的场景。”
丰田研究院的机器人专家 Rick Cory(拥有 2008 年的科学硕士学位和 2010 年的博士学位,他未参与此项研究),他表示:“‘可控场景生成’结合了训练后处理和推理时搜索,为大规模自动化场景生成提供了一个新颖而高效的框架。更重要的是,它能够生成那些被认为对下游任务至关重要的‘前所未见’的场景。未来,将这一框架与浩瀚的互联网数据相结合,有望在实现机器人在真实世界中高效部署的道路上,解锁一个重要的里程碑。”
来源: DeepTech深科技