其中,快速判断,指用于快速的观察围棋的盘面,类似于人观察盘面获得的第一反应。深度模仿,指“AlphaGo”学习近万盘人类历史高手的棋局来进行模仿学习,用得到的经验进行判断。这个深度模仿能够根据盘面产生类似人类棋手的走法。
自学成长,指“AlphaGo”不断与“自己”对战,下了3000万盘棋局,总结出经验作为棋局中的评估依据。全局分析,指利用第三步学习结果对整个盘面的赢面判断,实现从全局分析整个棋局。
现实中有人工智能吗?中国能造出类似的人工智能吗?
人工智能经过60年的风风雨雨,取得了长足的进展,目前已在各行各业得到应用。史忠植的《人工智能》一书中,将其归纳为8个方面:专家系统、数据挖掘、自然语言处理、 智能机器人 、模式识别、分布式人工智能、互联网智能和博弈。
看到了“阿尔法围棋”,人们自然联想到中国的同类科技,目前能否达到甚至、超越这一水平。史忠植介绍说:“在国家自然科学基金、973、863和广大企业等的支持下, 在广大科研人员和应用单位的努力下,我国人工智能几乎与世界同步发展,特别在机器翻译、语音识别、人脸识别、农业专家系统、数据挖掘、深水 机器人 等方面是非常有特色的,也有能力创造出战胜世界顶级棋手的人工智能系统。”
人工智能会否有朝一日能战胜所有人类棋手?如果可以,大概需要多久?
李世石接连落败,柯洁甚至成为拯救人类围棋智慧“尊严”的最后稻草。史忠植认为,经过学习和积累,在未来3-5年人工智能系统能够战胜所有的人类棋手。
为何这台人工智能如此厉害,不妨深究其内涵:“AlphaGo”的核心是两种不同的深度神经网络:“策略网络”(policy network)和“值网络”(value network)。它们的任务在于合作“挑选”出那些比较有前途的棋步,抛弃明显的差棋,从而将计算量控制在计算机可以完成的范围里。
其中,“值网络”负责减少搜索的深度——AI会一边推算一边判断局面,局面明显劣势的时候,就直接抛弃某些路线,不用一条道算到黑;而“策略网络”负责减少搜索的宽度——面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。
然后,将这些信息放入一个概率函数,AI就不用给每一步以同样的重视程度,而可以重点分析那些有戏的棋招。“AlphaGo”利用这两个工具来分析局面,判断每种下子策略的优劣,就像人类棋手会判断当前局面以及推断未来的局面一样。这样,“AlphaGo”分析了比如未来20步的情况下,就能判断在哪里下子赢的概率会高。
另据媒体报道,阿尔法围棋采用机器学习方法,主要是深度卷积神经网络和强化学习。研发团队收集了围棋职业高手大量的棋谱,并用这些棋谱对“深度卷积神经网络”进行了3000万步的训练,使其判断职业选手下一步走法的正确率达到了57%,之前的纪录是44%。(完)