言下之意就是,现在的 机器人 如此之蠢,为什么大家都想去分析一个正在学习爬行的婴儿会不会飞的比飞机还快?
注意这个类比的特点:婴儿再怎么长大,再怎么学习,也是不可能单独飞起来的,更何况要飞的比飞机还快,同样,目前的增强学习模型,如果不在某种程度上发生飞跃性、本质上的进步,很难相信它随着不断的学习就能成为能超越一切的智能。
不够智能=不会犯错?
让我们回到论文本身的分析来,谷歌相信现在的 机器人 只有极其有限的智能,不代表他们就认为这样的智能不会对人类造成损害。事实上,没有智能的东西对人类造成的损害大了去了。其实人类在执行某项任务的时候,除了任务目标和手中掌握有的工具之外,人类在进行思考的时候还会考虑两项很重要的因素:常识和道德。它在不知不觉中影响着我们的一言一行。但由于在通常RL模型的指引下, 机器人 对周遭除了模型中有所描述的环境的概念一无所知,这时候它是没有常识和道德可言的。因此很容易做出一些看起来匪夷所思,但于 机器人 的角度来说却是合情合理的行为。谷歌在论文中以一个清洁 机器人 为例,主要提出了五种可能的、AI在执行RL学习时可能出现的错误趋势:
负面影响:AI在试图达到目标时可能对环境做出有负面影响的举动。比如它可能会为了更快的打扫地面而径直推翻(而不是绕过去)一个花瓶。
非法解读:AI可能通过篡改测量值等手段在奖励函数上玩花样。比如扫地 机器人 可能只是找个东西把脏东西盖起来让自己看不见它,就认为自己已经扫干净了地面。
监管可扩展性有限:AI系统可能无法对那些在系统中不方便太过频繁的评估的物体做出适当的反应。比如,如果 机器人 需要从人那里获得训练结果的反馈,那它就需要有有效的利用这条反馈的能力(而不能像普通的训练那样不停的核对训练结果),因为不停的问一个人问题是很烦人的。但目前这点很难做到。
环境探索 安全 性:AI系统评估环境的时候可能会造成太过负面的影响。比如,一个扫地 机器人 可能会需要进行建立拖地策略的实验来作为以后工作的依据。但是很显然它无论怎么实验无论如何也不应该尝试把湿拖把插进插座中。
分配转变的鲁棒性不足:AI系统处在与其训练环境完全不同的环境时认知和行为可能不稳定。比如,启发式 算法 让机器在在工厂中学到的行为可能在一个办公室中就会显得不那么 安全 。
相关搜索(Beta) 谷歌AI AI开发 详解可可的五大功能 五大联赛派系详解 五大发展理念详解 ai工具详解 java反射机制详解 handler机制详解 熔断机制详解 谷歌ai围棋 谷歌ai对弈李世石 谷歌ai是什么 谷歌 ai 谷歌ai大战李世石 谷歌ai三战李世石 谷歌ai围棋直播 李世石对战谷歌ai