迪士尼研究院教机器人优雅摔倒:当失控变成一门艺术
创始人
2025-12-09 15:02:31
0

视频来源:https://www.youtube.com/@DisneyResearchHub

体操运动员在空中翻腾时,即使知道自己可能失误,也会本能地调整身体姿态,用最安全的方式着陆。然而当我们看到机器人摔倒时,情况却截然不同——它们往往像木头人一样僵硬地倒下,摔得七零八落。迪士尼研究院的科学家们决定改变这一现状,他们没有继续研究如何让机器人永不摔倒,而是反其道而行之:既然摔倒不可避免,为什么不教会机器人像体操运动员那样,把每一次跌倒都变成一场优雅的表演呢?

双足机器人面临的挑战就像是让一个人用两根筷子支撑一个保龄球。它们需要在一个相对狭小的支撑面上控制沉重的身体,稍有不慎就会失去平衡。虽然最新的强化学习技术已经让机器人的运动控制能力大幅提升,但在复杂多变的真实环境中,跌倒仍然是一个无法完全避免的风险。当机器人被推向性能极限时,就像人类运动员一样,总会遇到某些干扰或条件导致它们摔倒。但与人类不同的是,机器人通常会以一种毫无章法、完全失控的方式摔倒,既无法保护自己的精密部件,也破坏了原本流畅自然的动作美感。

传统的解决方案主要集中在提高控制器的鲁棒性上,比如在训练中加入各种随机干扰,在优化算法中增加安全约束,或者干脆限制机器人的运动能力范围。这些方法确实能在一定程度上提高稳定性,但它们都无法真正保证机器人在实际应用中不会摔倒,而且可能会严重限制机器人的性能和能力。研究团队认为,与其不惜一切代价地防止跌倒,不如拥抱跌倒的可能性,让用户能够控制机器人的最终姿势,既能实现艺术化的表现,又便于后续的恢复动作。

跌倒是一个极具挑战性的问题。当机器人开始失去平衡时,它只有非常短暂的时间窗口来做出反应,而且需要在这个过程中完成复杂的接触操作。更棘手的是,机器人需要同时兼顾多个相互竞争的目标:减少冲击力、保护关键部件,以及实现期望的运动特征。这就像是让一个正在摔倒的体操运动员,在空中既要保护头部,又要调整姿势以便完美着陆,还要确保动作优美流畅,难度可想而知。

现有的机器人跌倒研究大多只关注单一目标或特定场景。一旦检测到即将摔倒,常见的策略要么是用高增益冻结所有关节,要么是用低增益实现柔顺反应。然而这两种方法对最终动作的控制能力都很有限,而且会产生很大的冲击力。更复杂的解决方案通常依赖于人工设计的跌倒策略,比如执行预定义的跌倒动作,或者跟踪预设的接触顺序。虽然最近有研究将这一思路扩展到自适应接触顺序,但仍然局限于单一的跌倒方向,或者需要针对特定跌倒场景(如向前摔或向后摔)进行人工调整。

相比之下,这项研究不仅能够减少整体冲击力,还能提供精细的用户控制。通过指定需要保护的关键部件和期望达到的最终姿势,用户可以实现对机器人跌倒过程的全方位掌控。这种能力可以用于艺术表现,正如研究中展示的那样,也可以作为后续恢复策略的起始姿势。研究团队提出的强化学习解决方案能够在损伤减少和姿势目标之间实现可调整的权衡。

让机器人学会摔倒的秘诀

整个训练过程就像是在教一个体操运动员学习各种落地技巧。研究团队使用了强化学习这个强大的工具,它的工作原理类似于训练一只宠物——通过奖励和惩罚来引导行为。但与训练宠物不同的是,他们需要在虚拟环境中同时训练成千上万个"机器人学员",让它们在无数次摔倒中逐渐掌握技巧。

训练系统的核心是一套精心设计的奖励机制。当机器人在摔倒过程中成功减少了冲击力时,它会获得奖励;当它的最终姿势接近目标时,也会得到奖励。这就像是体操教练在评判运动员的表现——既要看落地是否轻盈,又要看姿势是否到位。但这里有一个巧妙的设计:奖励的权重会随时间变化。在摔倒的初期,系统更关注如何减少冲击力,就像运动员首先要确保安全着陆;随着时间推移,系统会逐渐增加对姿势准确性的关注,就像运动员在确保安全后才开始追求动作的完美。

为了让机器人能够应对各种各样的跌倒情况,研究团队开发了一套物理模拟驱动的姿势采样策略。他们在虚拟环境中生成了大量可行的最终姿势——机器人可能躺在背上,也可能侧卧,或者以各种奇特的姿势静止。这个过程类似于让体操运动员练习所有可能的落地姿势,从最常见的到最罕见的,确保他们能够应对任何突发情况。

具体来说,系统首先会随机生成各种关节配置,筛选掉那些会导致机器人自身部件相互碰撞的姿势。然后,它会将机器人在虚拟环境中旋转到各个方向,从略高于地面的位置释放,让它在关节冻结的状态下自然落下。当机器人静止后,如果这个姿势是稳定的,就会被记录下来作为一个可能的目标姿势。这个过程利用了GPU加速的物理模拟技术,可以快速生成大量符合物理规律的姿势样本。

为了确保训练的全面性,研究团队还特别注意了姿势分布的均衡性。某些姿势(比如背部着地)在自然落体过程中可能更容易出现,而其他姿势(比如侧身着地)则相对少见。为了避免训练数据出现偏差,系统会迭代采样新姿势,同时剔除那些已经有足够代表性的姿势类型,确保各种朝向的姿势都能得到充分覆盖。

在训练开始时,每一轮练习都会从不同的初始条件开始。系统会随机设置机器人的初始倾斜角度、旋转速度和关节速度,模拟各种可能导致跌倒的不稳定状态。这就像是教练从各个方向推倒运动员,让他们学会从任何失衡状态中恢复并控制着陆。为了进一步增加训练的多样性,系统还会在训练过程中随机施加外力,模拟真实世界中可能遇到的各种干扰。

整个强化学习过程使用了PPO(近端策略优化)算法,这是一种经过验证的、稳定高效的强化学习方法。训练在GPU加速的物理引擎上进行,能够同时运行四千多个虚拟环境实例,让数千个"虚拟机器人"并行学习。经过大约48小时、75000次迭代的训练,机器人策略就能够学会如何在各种跌倒情况下做出恰当的反应。

在冲击力和优雅之间找平衡

奖励函数的设计是整个系统的核心,它就像是一份详细的评分标准,告诉机器人什么是好的跌倒,什么是糟糕的跌倒。这份标准需要同时考虑多个方面,就像体操比赛的评分既要看技术动作,又要看艺术表现。

首先是冲击力的惩罚机制。系统会实时监测机器人身体各个部位承受的接触力。当某个部位受到撞击时,这个力会被乘以该部位的敏感度权重。头部作为最脆弱的部位,被赋予了最高的权重4.0,肩膀的权重是3.0,肘部是2.0,而骨盆和腿部的权重是1.0。这意味着头部受到的任何撞击都会被放大四倍计入惩罚,促使机器人优先保护这个关键部位。此外,系统还会惩罚机器人躯干的急剧加速度,因为即使没有直接接触,剧烈的加速度变化本身也可能对内部部件造成损害。

姿势跟踪的奖励则更加微妙。系统会比较机器人的实际姿势与目标姿势,包括整体的朝向和各个关节的角度。但这里有一个巧妙的设计:姿势跟踪的奖励不是一开始就全力生效,而是通过一个时间相关的平滑函数逐渐增强。在跌倒的最初阶段,这个奖励的权重接近零,让机器人可以专注于减少冲击;随着时间推移,权重会平滑地增加到完整值,引导机器人逐渐调整到目标姿势。这个过渡过程使用了一个三次样条函数,确保从冲击最小化到姿势跟踪的切换是平滑而自然的。

除了这两个主要目标,系统还加入了一些正则化奖励来鼓励更流畅、更高效的动作。比如,它会惩罚过大的关节扭矩,避免电机过度用力;会惩罚动作的剧烈变化,鼓励平滑的运动轨迹。这些正则化项虽然权重较小,但对于产生自然、高效的运动至关重要。最后,系统还加入了一个恒定的正向奖励作为基准,这是强化学习中的一个技巧,可以让训练过程更加稳定。

所有这些奖励和惩罚项被精心加权和组合,形成了一个总体的奖励信号。机器人的学习目标就是最大化这个总奖励,从而在减少冲击、达到目标姿势和保持动作流畅之间找到最佳平衡点。通过调整各个奖励项的权重,研究人员可以灵活地改变系统的优先级——如果更关注安全性,可以增加冲击惩罚的权重;如果更关注艺术表现,可以提高姿势跟踪的权重。

从模拟到现实的跨越

虽然机器人在虚拟环境中训练,但最终目标是要在真实世界中应用。从模拟到现实的转移一直是机器人学习领域的一大挑战,因为现实世界充满了各种模拟器无法完美复制的复杂性和不确定性。为了应对这个挑战,研究团队采用了多项技术来缩小模拟与现实之间的差距。

训练过程中,系统会向机器人的感知数据中添加高斯噪声,模拟真实传感器的不完美性。这就像是让运动员在视线模糊的情况下练习,当他们在清晰的环境中比赛时,表现反而会更好。此外,系统还会随机施加各种干扰力,作用在机器人的不同部位上。这些干扰力的大小、方向和持续时间都是随机的,模拟真实世界中可能遇到的各种意外推力。

训练使用的双足机器人是一个定制设计的平台,总重16.2公斤,高0.84米,拥有20个自由度。每条腿有5个自由度,使用Unitree A1执行器;手臂和颈部则装备了Dynamixel XH540-V150-R执行器。机器人的状态估计通过融合机载惯性测量单元和运动捕捉系统的数据来实现。训练好的策略会以50赫兹的频率预测关节位置指令,这些指令随后被传递给每个关节的PD控制器执行。

研究团队生成了24000个训练姿势和2000个测试姿势,确保模型能够泛化到未见过的姿势。除此之外,他们还准备了10个由艺术家在Blender软件中手工设计的表现力丰富的姿势。这些艺术姿势在设计时遵守了关节限制并避免了自我穿透,但没有考虑物理约束,代表了一些极具表现力和挑战性的目标。

实验验证:比传统方法更安全

为了验证方法的有效性,研究团队首先将他们的方法与机器人领域常用的几种标准跌倒策略进行了对比。第一种是零扭矩策略,即完全不对关节施加力;第二种是阻尼策略,使用比正常值低10倍的增益使关节变得柔顺;第三种是冻结策略,使用比正常值高10倍的增益将关节锁定在最近的位置。这三种方法代表了实践中最常见的应对跌倒的方式。

实验结果清楚地展示了新方法的优势。在32768次随机初始状态的测试中,新方法产生的最大冲击力和平均冲击力都显著低于三种基线方法。更重要的是,新方法的冲击力变异性也更小,这意味着跌倒行为更加可控和可预测。冻结关节的策略会让机器人像一个刚性物体一样倒下,完全沿着初始倾倒的方向;而阻尼或零扭矩策略则会产生更复杂但也更难预测的运动,因为不同部件之间会产生相互作用。相比之下,新方法能够主动控制跌倒过程,产生既安全又可预测的动作。

研究团队还进行了一系列深入的消融实验。第一个实验探讨了冲击力惩罚权重对结果的影响。他们训练了多个策略变体,每个使用不同的接触力奖励权重,从50到800不等。结果表明,随着接触力权重的增加,最大冲击力确实会下降,但关节跟踪误差会相应增加。这证实了冲击最小化和姿势跟踪之间存在固有的权衡关系。经过权衡,研究团队发现权重200能够在这两个目标之间取得较好的平衡。

第二个消融实验验证了基于采样的姿势生成策略的重要性。研究团队比较了两个版本:一个使用自动生成的24000个姿势训练,另一个仅使用10个艺术家设计的姿势训练。结果显示,在生成的测试姿势集上,使用生成姿势训练的模型在关节跟踪和朝向跟踪上都表现更好。虽然仅用艺术姿势训练的模型在这些训练过的姿势上表现不错,但它在未见姿势上的泛化能力很差,在生成的测试集上误差显著增大。这表明大规模、多样化的训练数据对于学习通用的跌倒策略至关重要。

第三个消融实验探讨了数据集规模的影响。研究团队训练了多个模型,每个使用不同比例的完整训练集,从0.8%到100%。结果表明,在数据量非常少的情况下(1%-6%),性能提升最为显著,说明最小数据量对泛化至关重要。超过这个范围后,增加数据仍能持续改善性能,但边际收益逐渐递减。使用完整的数据集能够获得最佳的关节和朝向跟踪性能。

保护关键部件的艺术

机器人的不同部位对损伤的敏感度差异很大。研究团队通过一个特别设计的实验展示了如何利用部件敏感度权重来实现针对性的保护。他们将机器人骨盆分成两部分:主体和后部的电池包。电池包被赋予了高达5.0的敏感度权重,而其他所有部件保持为1.0。这模拟了机器人背部携带敏感硬件的情况。

对比实验的结果令人印象深刻。在所有敏感度权重都设为1.0的基线策略中,电池包受到的冲击力中位数为36.12牛顿,95百分位数高达3321.75牛顿。但当电池包的权重提升到5.0后,中位数降至0,95百分位数降至810.69牛顿。中位数为0意味着在大多数跌倒场景中,机器人能够完全避免电池包受到撞击。虽然这种保护策略导致关节跟踪误差从0.32弧度增加到0.42弧度,朝向误差从0.11弧度增加到0.16弧度,但对于需要保护关键硬件的应用来说,这种权衡是完全值得的。

这个实验清楚地证明,研究团队提出的框架能够灵活地在不同目标之间进行权衡,既能减少整体冲击力,又能针对特定部件提供额外保护,同时仍然保持对目标姿势的合理跟踪。

真实世界的优雅落地

虽然模拟实验提供了定量的证据,但真正的考验在于真实世界。研究团队在实体双足机器人上进行了一系列定性实验。他们选择了10个由艺术家设计的表现力丰富的目标姿势,然后通过用棍子随机推动机器人来创造各种初始跌倒条件。

实验结果令人欣慰。机器人能够从各个方向的推力中恢复,并最终达到或接近目标姿势。更重要的是,在所有实验过程中,机器人没有遭受任何明显的损伤,保持完全正常工作。这强有力地证明了该方法能够在真实世界中实现柔软的跌倒行为,有效保护机器人最敏感的部位,而且不受跌倒方向的限制。

观察实际的跌倒过程,可以看到机器人展现出了类似人类或动物的自我保护本能。当机器人开始失去平衡时,它不会僵硬地倒下,而是会主动调整身体姿态,用较不敏感的部位先接触地面,同时保护头部等关键区域。整个过程流畅自然,既没有剧烈的碰撞声,也没有部件的损坏。到达地面后,机器人会继续微调姿势,最终稳定在预设的目标姿势上。

这些真实世界的实验不仅验证了技术的可行性,也展示了其实用价值。对于娱乐行业的应用来说,这种受控的、风格化的跌倒能够让机器人的表演更加生动和可信。对于其他应用场景,精确控制的最终姿势可以作为后续恢复动作的良好起点,帮助机器人从跌倒中快速恢复到站立状态。

至顶AI实验室洞见

虽然这项研究取得了令人鼓舞的成果,但研究团队也坦诚指出了一些局限性和未来的改进方向。当前的所有实验都在同一个双足机器人上进行,虽然建模方法对机器人形态是通用的,但方法在不同类型的人形机器人或其他多足机器人上的迁移能力还需要进一步验证。

在实际应用中,一个关键的挑战是如何判断何时应该触发跌倒策略。目前的研究将跌倒作为一个孤立的行为来研究,有意地将机器人置于不稳定状态以触发跌倒。但在实际部署中,需要一套机制来预测不稳定状态并及时触发相应的跌倒动作。简单的启发式方法可以基于状态估计的失效、电池电量不足或其他安全关键条件来触发跌倒。未来的工作可以探索从机器人的运动动力学中预测跌倒的可能性。

当前方法中,每个机器人部件的冲击权重需要在训练前确定。一个令人兴奋的未来方向是开发能够在推理时调整策略目标的方法,类似于多目标强化学习的思路。这将允许用户动态地调整优先级,比如当某个部件接近其磨损极限时,自动增加对该部件的保护力度。

此外,目前的实验中目标姿势是预先选定的。未来的研究可以探索如何根据机器人的初始状态自动确定最合适的跌倒姿势。这需要考虑当前的动量、朝向、与障碍物的距离等多种因素,选择一个既安全又易于达到的目标姿势。

最后,跌倒和恢复是紧密相关的两个行为。目前的研究专注于风格化和柔软的跌倒,但这种行为与近期其他研究探索的恢复策略是天然耦合的。未来的工作可以研究如何最好地结合跌倒和恢复策略的训练,在两个策略中都考虑风格化的要求,创造一个从失衡到跌倒再到恢复的完整、流畅的动作序列。

跌倒意味着暂时失去对系统的控制。但如果能够控制跌倒的最终状态并减轻损伤,这也为机器人操作打开了新的可能性。这种能力不仅适用于特技机器人和喜剧表演,还可能在未来被用于穿越更极端的地形。当我们不再将跌倒视为必须不惜一切代价避免的失败,而是将其看作可以被优雅管理的正常事件时,机器人的能力边界就会进一步拓展。就像体操运动员通过无数次练习掌握了各种落地技巧一样,机器人也终于学会了这门摔倒的艺术。这项由迪士尼研究院完成的研究,让我们看到了机器人向真正智能和自适应系统迈进的又一步。

论文地址:

https://arxiv.org/pdf/2511.10635

END

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:这项研究中的机器人跌倒技术能应用在哪些实际场景中?

A:这项技术有多个实际应用方向。在娱乐行业,机器人可以执行更真实、更有表现力的动作,甚至可以进行特技表演和喜剧效果。在工业应用中,这种受控跌倒能够保护昂贵的硬件设备免受损坏。此外,通过控制机器人的最终姿势,可以为后续的恢复动作提供良好的起点,使机器人能够从跌倒中快速站起来继续工作。

Q2:迪士尼研究院的这套跌倒控制系统如何平衡安全性和动作美感?

A:系统通过一个精心设计的奖励函数来实现平衡。在跌倒的初期阶段,系统主要关注减少冲击力和保护关键部件,就像确保运动员安全着陆。随着时间推移,系统会平滑地将重点转移到达到目标姿势上,追求动作的美感。研究人员可以通过调整不同奖励项的权重来改变优先级,如果更看重安全性就增加冲击惩罚的权重,如果更追求艺术表现就提高姿势跟踪的权重。

Q3:训练机器人学会跌倒需要多长时间和什么样的计算资源?

A:研究团队使用了一块RTX 4090 GPU,同时运行4096个虚拟环境实例来加速训练。整个训练过程需要大约48小时,进行了75000次迭代。训练使用了PPO强化学习算法,并生成了24000个训练姿势和2000个测试姿势。虽然训练时间较长,但一旦训练完成,机器人就可以在50赫兹的频率下实时做出反应,快速调整姿态应对各种跌倒情况。

相关内容

热门资讯

相泥而生 瑞兽呈祥——“瑞兽相... 2025年12月7日,一场叩问土地灵性、重叙民间生命哲思的陶艺雅鉴——“瑞兽相泥:王凯陶艺展”于雅昌...
韩媒:日本深夜突发强震,高市早... 【环球网报道 记者 姜蔼玲】据《韩民族日报》9日报道,日本青森县东部海域当地时间8日23时15分左右...
北京本周五将迎降雪:大部地区有... 北京市气象台9日11时发布天气预报:今天下午晴,北转南风二三级,最高气温7℃;夜间晴间多云,南转北风...
景德镇市昌江区苏格陶瓷工作室(... 天眼查App显示,近日,景德镇市昌江区苏格陶瓷工作室(个体工商户)成立,法定代表人为江国珍,注册资本...
永州市冷水滩区韦国琴珠宝店(个... 天眼查App显示,近日,永州市冷水滩区韦国琴珠宝店(个体工商户)成立,法定代表人为喻地根,注册资本1...
2025年铜器回收,书画回收,... 在2025年,随着人们对传统文化的重视和收藏意识的提升,铜器、书画、玉器等藏品的回收市场也日益繁荣。...
上海儿童写真哪家好?多元风格满... 上海儿童摄影市场已形成以“婴童纪实、国风美学、亲子旅拍”为核心的三极格局。家庭在选择时需综合考量机构...
汇聚82名艺术家书画精品!“三... 由三苏祠博物馆与眉山市美术馆共同承办的“三苏与巴蜀”书画文献展,自6月6日于眉山启程,在相继走过乐山...
北交所或迎首家艺术品公司:朱炳... 更多“中年人的泡泡玛特”正迎来上市。 继铜师傅向港交所发起冲刺后,又一家铜艺术品公司走上了证券化的道...
清华美院敦煌艺术研究成果展亮相... 中新社联合国12月9日电 (记者 廖攀)“敦耀光华:清华大学美术学院敦煌艺术研究及设计成果展”8日在...