爱吧机器人网 » 技术 > 人工智能 > 正文

冷扑大师背后的AI算法和博弈论:CFR算法是核心

量子位 报道 | 公众号QbitAI

昨天下午,量子位在中关村举办了一个技术沙龙,邀请创新工场AI工程院技术VP李天放、联想智慧医疗CEO林林等,从技术和实战的角度,对德州扑克人机大战进行解读。

以下是李天放对德州扑克AI的技术解读:

文字版本整理如下:

AI算法和博弈论,这两个交叉点还是有一点难度的。

先从博弈论开始。

大家需要对GTO/纳什平衡有一个初期的理解。在德州扑克,翻硬币,剪刀石头布这类游戏里面,纳什平衡点的定义是:如果双方都在用一个比较好的战略,任何一方做出调整结果都会更糟糕,也就是存在一个平衡点,使得两个人都不能再进步。

我们用一个简单的游戏解释。

如果我们玩一手剪刀石头布,可能靠运气;玩二十万手,就要看战略是什么。如果我们想解这个问题,也是很简单,下面这个就是所谓的完美战略:

· 33%剪刀33%石头33%布

· 无论对手用什么战略,都不可能战胜我们

· 但我们也赢不了…

然而想要接近一个真正的完美战略是非常难的,大部分人有些偏好,更接近的可能是这样一个情况,对手比较笨不知道能出剪刀:

· 假设对手#1:从来不出剪刀,50%布,50%石头

· 我们的老战略有问题么?(各33%)

老战略可能还是不输的,但也不是最佳战略(GTO)。纳什平衡的意思是双方都不能改进,如果知道对手从来不出剪刀,我们的战略是能改进的。针对上面的对手#1,我们的战略可以改成:50%剪刀,50%布。

为什么不用100%布的战略?因为对方可能也调整成100%布。使用50%剪刀,50%布的战略至少可以比打平做的更好。

从博弈论来说,我们找到了对手的弱点,但没有暴露自己的弱点。也就是说,我们找到了一个新的平衡点。

这就是Libratus在做的事情。

相比于石头剪刀布,一对一的德州扑克,是一个复杂度非常高的博弈。如何找到德州扑克的GTO和纳什平衡点?这是此类AI算法的核心。

CounterFactual Regret Minimization(CFR,反事实遗憾最小化),这是一个类似强化学习的算法,但是更高效。让AI之间对战德扑,采用随机的策略,然后每局过后看看在什么地方后悔了,然后尝试不同的战略,再在决策点上复盘。

这个算法与人类学习德州类似:累积经验、评判自己的选择,但需要注意的是,这里正确的“后悔点”非常重要。德州扑克有很强的随机性,所以很容易陷入错误的学习方式。

算法很简单,问题是无限德州的空间太大了,复杂度是10的160次方。有几种解决方案:合并简化+CFR(Claudico),CFR+“直觉”(DeepStack),CFR+End Game Solver+RL(Libratus)。

总结一下:

· CFR类似于强化学习。权重调整基于概率。

· AI的战略和学习方式和职业牌手相似,但是更准确。


上一篇:人工智能威力显现 语音转化文字准确率达95%
下一篇:人工智能逆天:竟已学会种族和性别歧视
精选推荐
人工神经网络技术解码人类行为和想象时的大脑活动信号
人工神经网络技术解码人类行为和想象时的大脑活动信号

[2017-08-23]  为搜索引擎过滤信息,棋盘游戏对弈,识别图像 人工智能在某些任务中远远超过了人类智能。来自弗莱堡由神经科学家私人讲师Tonio Ball博士领导的几个杰出的BrainLinks-Bra......

通过对抗性图像黑入大脑
通过对抗性图像黑入大脑

[2018-03-02]  在上面的图片中,左边是一张猫的照片。在右边,你能分辨出它是同一只猫的图片,还是一张看起来相似的狗的图片?这两张图片之间的区别在于, ...

谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

麻省理工学院最新研究:优化软体机器人的控制和设计
麻省理工学院最新研究:优化软体机器人的控制和设计

[2019-11-24]  软体机器人属于一个新的领域,它可能在诸如外科手术等领域发挥重要作用(手术时的纳米机器人需要在人体内部移动而不损伤软组织)。软体机器 ...

2018年企业数字化转型的五大趋势
2018年企业数字化转型的五大趋势

[2017-12-16]  据2016年哈佛商学院研究表明,选择进行数字化转型的企业在3年内表现出了55%的平均毛利润提升,相比之下其他企业毛利润同期降低了37%。数字化转型企业的领头羊,也曾是收入处于......

美国喷气推进实验室的AI驱动无人机挑战人类飞行员
美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08]  随着无人机及其组件越来越小,效率越来越高,功能越来越强大,我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中,而不依赖于外部定位。 宾夕法尼亚大学在......

瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作
瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作

[2019-07-12]  EPFL(瑞士联邦理工学院)的研究人员受到了蚂蚁的启发,开发了一款仅有10克重的小型机器人:他们可以相互交流,分配角色并完成复杂的任务。 ...

国外眼科手术机器人为视网膜静脉阻塞患者带来希望
国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20]  视网膜静脉阻塞,简称RVO,对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块,这可能导致视力严重下降,在某些情况下,病 ...

本周栏目热点

说一说那些进入日常生活的智能机器人

[1970-01-01]    从《星球大战》里的机器人英雄,到前些年大受欢迎的电影《我,机器人》,无数的科幻作品里都少不了机器人元素,人们将之视为 未来感的 ...

奇点大学:人工智能与“奇点理论”

[1970-01-01]    就在前几天和行业内的几个朋友吃饭时,内容在不经意间又转向了那个老生常谈的话题-到底什么是在智能电视上最好的交互方式上,于是乎五 ...

说客小π情感机器人体验【评测】

[2015-12-29]     前言  随着语音识别技术的发展,声控灯、语音输入法、语音交互等各具特色 ...

Facebook人工智能机器人生成照片以假乱真

[1970-01-01]    无论你是否认为面部识别令人毛骨悚然,很明显全球多家科技公司正在继续投资开发更强大的图像智能技术。  无论是微软的猜年龄机器人, ...

麻省理工智能机器人最新技术 机器手指研究获得突破

[2015-12-27]     麻省理工智能机器人最新消息,今年在研究机器手方面跨出了一大步,现在它又 ...