这个世界上没有任何东西能够非常接近人手的敏捷性和灵活性,无论是动物还是机器人。对于埃隆·马斯克创立的非营利组织OpenAI的工程师来说,这既是挑战也是机遇。它们的研究人员如何使用
人工智能来教导机器人像人一样巧妙地操纵物体?
通常,在教授AI来控制物理机器人时,科学家们往往会遇到同样的问题。培训通常使用强化学习来完成;AI通过反复试错的学习方法。但这需要很多时间,几乎相当于多年的经验。如果你想让AI打赢一场电子游戏,很简单,你只需要让它以更快的速度玩游戏。但如果你想教它一个真实的任务,那就麻烦了。你无法等待机器人手臂经历多年的练习,并且很难足够准确地出于训练目的模拟世界。
对于OpenAI,它们自己设定的任务是教一个机器人用手来操纵一个六面立方体;将这个立方体从一个位置移动到另一个位置,使特定的一面朝上。与早期的研究一样,首先尽可能准确地模拟这种环境,但下一步却产生差异:开始弄乱模拟。
图片来源:OpenAI
首先,添加了随机视觉噪音;然后,改变了虚拟手和立方体的颜色。它们随机化了立方体的大小;表面有多滑;有多重。它们甚至弄乱了模拟的重力。所有这一切的效果是让AI更好地理解在现实世界中操纵立方体的可能性。虽然模拟可能不是完全真实的,但它有足够多的变化,允许系统学习处理意外。
参与该项目的OpenAI的Matthias Plappert解释说,改变模拟的重力是一个特别有趣的变量。该团队知道,当AI系统(称为Dactyl)正在控制真正的机器人手时,手的基部每次可能不会以相同的角度定位。较低的角度意味着立方体会更容易从手中掉落。为了教Dactyl如何处理这种变体,他们决定将模拟中的重力随机化。 “没有这种随机化,它就会一直弄丢物体,因为不习惯。”Plappert说。
通过所有这些随机化需要很长时间。很长一段时间。事实上,Dactyl必须积累大约100年的经验才能达到最佳表现。反过来,这意味着团队必须使用大量的计算能力 —— 大约6,144个CPU和8个非常强大的英伟达 V100 GPU。这种硬件只有极少数研究机构才能使用。
但Plappert说,最终的结果是值得的。完成训练后,Dactyl能够将立方体从一个位置移动到另一个位置,连续50次,而不会掉落。 (虽然它这样做的中位数要小得多;只有13次。)在学习移动立方体的过程中,Dactyl甚至开发了类似人类的行为。所有这些都是在没有任何人为指导的情况下学到的 —— 只是反复试错,几十年一次。
“这表明我们人类为操纵所做的事情是非常优化的。”Plappert说。 “当你看到一个试图解决问题的机器人时,这是一个非常有趣的时刻,你会想‘噢,嘿,我也会这样做。’”
图片来源:OpenAI
机器人技术和人工智能领域的专家对The Verge高度赞扬了OpenAI的工作,但警告说它并不代表机器人操纵有了突破。卡内基梅隆大学机器人研究所的Smruti Amarjyoti指出,随机化系统训练环境的想法之前已经完成,但是说Dactyl的动作是“优雅的”,他认为对AI来说是不可能的。
“最终的结果非常复杂和精细。”Amarjyoti说,“[但]我认为OpenAI在这一领域的最大成就将是,它所采用的工程协调以及用于实现这一壮举的计算能力。”
Istituto Italiano di Tecnologia的机器人学教授安东尼奥·比奇(Antonio Bicchi)表示,这项研究“优雅且令人着迷”,但指出了一些局限性。 “结果仍然局限于在相当有利的条件下(手正面朝上,所以骰子落在掌中)进行的一个特定任务(滚动一个大小合适的模具),对于这些技术能解决现实世界的机器人问题,甚至不是一个确凿的论据。”比奇说。
对于OpenAI来说,这项研究大体上是令人满意的。该系统使用了许多与实验室开发的相同算法和技术,来教授其电子游戏机器人OpenAI Five。该公司建议,这表明它正在构建通用算法,可以用来处理各种各样的任务,对于雄心勃勃的AI实验室和公司来说,这是一个里程碑。
在人工智能的帮助下创建更灵巧的机器人,对于尝试自动化手工劳动的公司来说,将是一个巨大的福音,并且有许多初创公司积极地在该领域进行研究。 但是,提高机器人技术的先进水平肯定会让更多的工作岗位自动化,而这种工作破坏浪潮是否可以被新技术创造的工作所抵消,这是一个悬而未决的问题。
不管怎样,很明显,人工智能还有一段路要走,才能与人类的运动技能相匹配。但毫无疑问,机器正在迎头赶上,比以往任何时候都要快。