仔细看完这些条件会让人感慨现在AI的愚蠢却又诧异它那诡异的“智慧”。或许构建一个AI系统是世界上对逻辑性要求最严密的职业了,因为正是逻辑造就了AI,在它们的世界里现在还不存在感情之类的约束。如果你要求AI去完成一件事,那AI毫无疑问的会在它的逻辑框架下想尽一切办法去完成,哪怕因此必须要完成一些在人类看来是“作弊”或者“得不偿失”的动作。
因此整篇论文的关键点就围绕在奖励条件的建立和维护上进行。正如之前所说,论文中并没有涉及过多的具体方法和公式,而倾向于提供思路,一部分原因应该是RL的研究实际上还不足以支撑在这些措施的太过具体的实现,不过在某种程度上应该也是因为谷歌不希望太具体的方法限制了 算法 开发者们的发挥。
防范的思路
对应这五点可能的错误,谷歌在论文中零零总总列出了大概十条防范措施的思路,不过总结起来,大致就是从三个RL设计的三个最基本的方面来考虑的:
对于奖励条件本身的优化:
人类的行动都是基于常识和道德来考虑的,因此,为机器也加上一个类似的价值观系统是一个比较合理的考虑方向,谷歌在论文里提出:指派RL 算法 完成任务的时候,人们最倾向的希望其实是该 机器人 不要给环境造成任何影响——不要破坏环境中已有的物品,不要打翻花瓶,不要……。但是如果只是简单粗暴的给所有对环境的改变都加上负奖励,那很可能会导致代理最终决定不再做任何事,因为一旦代理开始行动,或多或少都会给环境带来改变。
谷歌对此提出了几种思路,包括推测一个代理用正确的方式完成任务后环境的状态,然后用这个状态作为奖励、对代理进入完成任务时不希望其进入的区域的行为作出惩罚,以及让代理能够理解它的行为对其他代理个体(包括人)带来的影响,但谷歌在论文里也指出,目前并没有足够强大的能支持这种理解的模型出现。
防止对奖励条件的滥用和曲解:
对于这个方面,谷歌提出的方法大概能分为这么几类:
谨慎行动:这是最笨的办法,只要人们设计系统的时候够小心,可能就能避开所有能被 算法 利用来获取奖励的bug。或者从另一方面来说,人们可以故意留出一些可以被 算法 利用的漏洞来作为预警,并时刻监视这些漏洞,当这些漏洞被攻破,就意味着 算法 需要调整了。
相关搜索(Beta) 谷歌AI AI开发 详解可可的五大功能 五大联赛派系详解 五大发展理念详解 ai工具详解 java反射机制详解 handler机制详解 熔断机制详解 谷歌ai围棋 谷歌ai对弈李世石 谷歌ai是什么 谷歌 ai 谷歌ai大战李世石 谷歌ai三战李世石 谷歌ai围棋直播 李世石对战谷歌ai