“见面吧，RoboPianist：一个用模拟机器人手进行高维控制的钢琴技艺基准测试套件”

“见面吧，RoboPianist：一个用模拟机器人手进行高维控制的钢琴技艺基准测试套件” 四海第1张

在控制和增强学习领域中，测量过程非常具有挑战性。一个特别不足的领域是关注高维控制的鲁棒基准，特别是高维机器人技术的“挑战问题”：掌握双手多指控制。与此同时，控制和增强学习方面的一些基准努力已经开始聚合和探索不同的深度方面。尽管对模仿人手的灵巧性进行了数十年的研究，但机器人中的高维控制仍然是一个主要难题。

加州大学伯克利分校、谷歌、DeepMind、斯坦福大学和西蒙弗雷泽大学的一组研究人员提出了一个名为ROBOPIANIST的高维控制基准套件。在他们的工作中，双手模拟的人形机器人手被要求根据音乐谱面演奏各种歌曲，这些歌曲以音乐器件数字接口（MIDI）转录为条件。机器人手总共有44个执行器，每只手有22个执行器，类似于人手的轻度欠驱动。

演奏一首好歌需要能够以展示高维控制策略的许多特质的方式对动作进行排序。这些特质包括：

空间和时间的精确性。
两只手和十个手指的协调。
关键按键的战略计划，以使其他按键更容易。

原始ROBOPIANIST-repertoire-150基准包括150首歌曲，每首歌曲都是独立的虚拟作品。研究人员通过模型自由（RL）和模型基于（MPC）方法的全面实验来研究无模型和模型方法的性能范围。结果表明，尽管还有很大的改进空间，但提出的策略可以产生出色的表现。

策略学习一首歌曲的能力可以用来按难度对歌曲（即任务）进行排序。研究人员认为，根据这种标准对任务进行分组的能力可以鼓励在与机器人学习相关的各个领域进一步研究，例如课程和迁移学习。RoboPianist为各种学习方法提供了有趣的机会，例如模仿学习、多任务学习、零样本泛化和多模态（声音、视觉和触觉）学习。总的来说，ROBOPIANIST提供了一个简单的目标，一个易于复制的环境，清晰的评估标准，并且在未来有各种扩展潜力。