这将把我们带向何方?
智能机器可以执行的任务的复杂性正在呈指数级增长。最终这将把我们带向何方?如果 机器人 能够自己学会叠毛巾,有朝一日它也会学会给你做饭,给你做手术,甚至打仗吗?
人工智能可能有助于解决我们面临的一些复杂问题,比如治疗癌症和应对气候变化——但在短期内,它也有可能用来开展监视活动、破坏隐私,进行电子推销。除此之外,更大的问题也隐隐呈现出来:机器有朝一日会拥有独立思考、对问题进行推理,以及展示情绪的能力吗?没人知道这些问题的答案。
智能机器的兴起不同于其他任何技术革命,因为它最终和“人性”这个概念利益攸关。我们有可能正处在创造一种新的生命形式的边缘,它不仅标志着进化上的突破,也会对人类物种的生存构成潜在威胁。
但这场革命已经开始。去年夏天,伯克利团队给一个仿真机器人安装了一个短期记忆系统。参与该项目工作的计算机科学家谢尔盖·莱文(Sergey Levine)说,在机器人身上测试这个记忆程序时,他们注意到“一件怪事”,他们向它发出一个命令,让它把一个木钉放在的两个孔洞中的一个里面,或者放左边,或者放右边。
为了做比较,他们在没有记忆程序的时候重做了实验 ,结果令他们吃惊:机器人仍然能够把木钉放在正确的孔洞中。没有了记忆程序,它是怎么记得该放哪里的? “最终我们发现,一旦机器人接收到命令,它就把胳膊朝着正确的孔洞伸过去,”莱文说。然后,在命令消失后,它可以根据自己身体的姿势,知道该放哪个孔洞。实际上,机器人是自己想出了一个方法来正确地执行这个命令。 “这真是非常令人惊讶,”莱文说。 “而有点令人心惊肉跳。”
算法:现代生活的燃料
阿比尔谈到了DeepMind最近取得的突破。DeepMind是谷歌在2014年斥资4亿美元购买的一家人工智能初创公司。几年前, DeepMind教一台计算机玩《太空侵略者》这样的雅达利电子游戏,使其技能远远超过了人类玩家。但令人惊异的是,DeepMind的方法并不是通过给计算机编程来让它了解游戏规则。这和“深蓝”(Deep Blue)在国际象棋比赛中击败人类不一样,深蓝的程序中编入了游戏规则。
那台计算机只知道一件事情,就是它的目标是得高分。使用一种称为强化学习(reinforcement learning,就好比是狗狗做了一件正确的事情后,你要说“乖狗狗”)的方法,计算机对游戏进行各种尝试,自己来学习规则。在几个小时内,它玩游戏的技就超越了人类水平。这是人工智能领域的重大突破——计算机第一次“自学”了一项复杂的技能。
出于好奇,阿比尔这个实验室的研究人员决定也做一个类似的强化学习实验——他们写了一个学习算法来帮助机器人学会游泳、跳跃和走动。那么玩电子游戏又怎么样呢?令他们吃惊的是,这个被称为Trust Region Policy Optimization(简写TRPO)算法获得的效果几乎不亚于DeepMind的算法。换句话说,TRPO展示了一种广义的学习能力。 “我们发现TRPO可以在玩电子游戏时打败人类”阿比尔说。“而不仅仅是教机器人走路。”