落子选择器是怎么看到棋盘的?数字表示最强人类选手会下在哪些地方的可能。
团队通过在 KGS(网络围棋对战平台)上最强人类对手,百万级的对弈落子去训练大脑。这就是 AlphaGo 最像人的地方,目标是去学习那些顶尖高手的妙手。这个不是为了去下赢,而是去找一个跟人类高手同样的下一步落子。AlphaGo 落子选择器能正确符合 57%的人类高手。(不符合的不是意味着错误,有可能人类自己犯的失误)
更强的落子选择器
AlphaGo 系统事实上需要两个额外落子选择器的大脑。一个是 “强化学习的策略网络(Policy Network)”,通过百万级额外的模拟局来完成。你可以称之为更强的。比起基本的训练,只是教网络去模仿单一人类的落子,高级的训练会与每一个模拟棋局下到底,教网络最可能赢的下一手。Sliver 团队通过更强的落子选择器总结了百万级训练棋局,比他们之前版本又迭代了不少。
单单用这种落子选择器就已经是强大的对手了,可以到业余棋手的水平,或者说跟之前最强的围棋 AI 媲美。这里重点是这种落子选择器不会去 “读”。它就是简单审视从单一棋盘位置,再提出从那个位置分析出来的落子。它不会去模拟任何未来的走法。这展示了简单的深度神经网络学习的力量。
更快的落子选择器
AlphaGo 当然团队没有在这里止步。下面我会阐述是如何将阅读能力赋予 AI 的。为了做到这一点,他们需要更快版本的落子选择器大脑。越强的版本在耗时上越久-为了产生一个不错的落子也足够快了,但 “阅读结构” 需要去检查几千种落子可能性才能做决定。
Silver 团队建立简单的落子选择器去做出 “快速阅读” 的版本,他们称之为 “滚动网络”。简单版本是不会看整个 19*19 的棋盘,但会在对手之前下的和新下的棋子中考虑,观察一个更小的窗口。去掉部分落子选择器大脑会损失一些实力,但轻量级版本能够比之前快 1000 倍,这让 “阅读结构” 成了可能。
第二大脑:棋局评估器 (Position Evaluator)
AlphaGo 的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子位置情况下。这 “局面评估器” 就是论文中提到的 “价值网络(Value Network)”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的 “好” 与 “坏”,AlphaGo 能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么 AI 就跳过阅读在这一条线上的任何更多落子。
局面评估器是怎么看这个棋盘的。深蓝色表示下一步有利于赢棋的位置。
局面评估器也通过百万级别的棋局做训练。Silver 团队通过 复制两个 AlphaGo 的最强落子选择器,精心挑选随机样本创造了这些局面。这里 AI 落子选择器在高效创建大规模数据集去训练局面评估器是非常有价值的。这种落子选择器让大家去模拟继续往下走的很多可能,从任意给定棋盘局面去猜测大致的双方赢棋概率。而人类的棋局还不够多恐怕难以完成这种训练。