博弈AI大时代崛起 AI是如何战胜人类世界冠军的?

2017-08-11 10:42:29 来源:中国经济网 热度:
说起人工智能,大家可能比较熟悉的是AlphaGo,但在业界更加受人瞩目的是德州扑克人工智能程序——冷扑(Libratus)。在今年年初,Libratus战胜美国四位顶尖德州扑克大师。那么,Libratus是如何战胜人类世界冠军的?
 
 
卡耐基梅隆大学计算机系教授、德扑AI之父 Tuomas Sandholm
 
Libratus之父Tuomas Sandholm教授日前在杉数科技和钛媒体主办的“AI大师圆桌系列”第三场“AI时代,博弈与行为分析”中详细阐述了Libratus如何战胜人类世界冠军。 Libratus使用的这些技术如何服务公众、社会,如何去创造新的商业机会。
 
AI是如何战胜人类世界冠军的
 
德州扑克这个场景下,没有海量的棋谱,没有充分公开的完全信息,Tuomas Sandholm教授组织研发的Libratus系统结合优化博弈论和机器学习等算法,是迄今能够击败德扑最顶级高手的唯一一种人工智能系统,在战略推理和战略思维方面达到了超越人类的水平。
 
在一对一无限注德州扑克中,游戏中两个玩家相互对决,在一系列的牌局中测试对方的策略,改善自己的战术,并且疯狂地唬牌。在今年一月份,Libratus完胜四个对手,赢取了1776250美元的模拟赌金,打败了世界上最出色的扑克玩家。人类玩家Dong Kim曾对《连线》杂志说: “今天之前我都没有认识到它那么强。我觉得我好像在和一个作弊的人打牌,好像它能看到我的牌一样。我不是在指控它作弊,它就是那么厉害。”
 
德州扑克,其实是一种非完全信息的博弈,它的难度显著高于完全信息博弈。Tuomas Sandholm教授团队研发的Libratus在一个完全有利于人类棋手的场景设计下,依然以压倒性的优势,战胜了人类最顶尖的选手。Tuomas Sandholm教授将海量的博弈场景简化、抽象,寻找一个近似的纳什均衡最终来实现一个基于博弈论的决策。
 
Libratus包括了三个模块,分别是赛前的游戏规则抽取和纳什均衡近似,赛中用到的残局解算(Endgame Solving)以及持续自我强化。
 
博弈论中的纳什均衡主要指博弈双方的理性参与者都不会有单独改变策略的冲动,而该系统中采用纳什均衡,使得不论对手用什么样的策略,都不能取胜。
 
在前期寻求纳什均衡的过程中,采用了CFR算法(Counterfactual Regret Minimization,反事实遗憾最小化)的强化学习。这是一个源自心理学的算法,即“如果当初做了另外一种选择就好了”的反向思考方式。这种强调试错的方法可以让机器自己和自己玩大量的游戏。
 
通过CFR算法,Tuomas Sandholm向Libratus描述游戏规则后,耗时几个月,随机训练100万亿手牌,Libratus最终达到了足以挑战最优秀人类选手的水平,还开发出了一些人类没有的玩法。
 
而在残局解算中,Libratus的改进算法包括考虑对方所犯下的错误,尽早开始残局解算,对手每出一招即实时展开残局解算(Nested Endgame Solving)等等。
 
而在持续自我强化模块,Libratus在比赛的每晚不是分析对手的问题,而是总结自己当天的主要败笔。这就好像人类每天总结自己的弱点,再进行针对性的弥补。这样自己的弱点越来越少,给对手的可乘之机也越来越少。这种主动防守型的打法,最坏的结果就是双方打成平手,所谓纳什均衡追求的就是一种平衡。
 
打开非完美信息世界之门
 
 
上海财经大学交叉科学研究院院长、杉数科技首席科学家葛冬冬(左),不列颠哥伦比亚大学(UBC)Sauder商学院助理教授丁弋川(右)
 
Libratus是博弈AI的最新成果,是该领域达到的最新高度。但这并不意味着Libratus就已经完美。Libratus针对的是一对一比赛的场景,主要是纳什均衡即针对一对一对场景,在多人博弈场景下纳什均衡就不太适用。此外,Libratus针对的是每场重置筹码的比赛,而人类不重置筹码的比赛也未必适用。
 
尽管Libratus还有局限性,但Libratus至少打开非完美信息世界的大门。
 
目前Libratus已经取得的成就,可以通过机器自动化的方式,在很多商业场景中帮助人类做出战略决策和最优化策略选择。这就是人工智能梦寐以求的决策自动化。
 
Tuomas Sandholm表示,如果机器能够替代人类做出战略决策,那么结合深度学习,就可以形成自动化的学习-决策-再学习-再决策的闭环,这才是完整的人工智能算法。
 
 
上海财经大学教授、奥数金牌、杉数科技科学家何斯迈
 
“在现在的数据化时代,要对数据进行量化管理。一个实际调度的管理问题,决策变量就有上百万个,而且解决的实时性非常高,必须在秒级别把这个问题解决了。我们为了调度问题,专门设计一个算法,要求在一秒内能解决,像定价、库存等决策问题,同时还需要考虑顾客行为。顾客行为就得去学,根据数据,去仔细研究客户到底是怎么去做决策,不一定按照书本上的行为模型去做,往往需要结合经济学、行为性的知识去预测行为。”上海财经大学教授何斯迈说,“用Tuomas Sandholm教授这些框架,用均衡的想法,在商业活动中去争取到更大的利润。”
 
何斯迈介绍了杉数科技在新零售行业,特别是收益和库存管理中应用博弈论和人工智能的例子。
 
很多国内企业开始进入数字化和数据化时代,基于数据积累要开始量化管理,需要用到博弈AI算法。比如根据友商价格、顾客价格敏感度、顾客心理价位、季节性、产品替代及互补性、促销及拉升效应等多种量价关系要素来进行动态博弈,解决方案包括使用网络爬虫及机器学习来捕捉友商实际价格及分析友商价格策略,分析产品市场定位(主导者/跟随者/竞争者),再寻找远期利益与近期利益的动态平衡点。
 
何斯迈表示,现在商业企业的规模普遍很大,在一个调度管理问题的实例中,可能涉及的决策变量就有上百万个,而且对实时性要求非常高,必须在秒级别完成上百万个决策变量的问题求解。何斯迈一直在杉数科技进行这方面的工作。
 
葛冬冬也强调,实际上,对整数规划来说,哪怕只有几百个变量,求解都非常困难,极端情况下最好的商业软件也需要很长时间才能计算出来。然而在杉数科技等的推动下,特定类型问题中百万级变量的整数规划问题求解,可以在1秒钟完成
 
杉数这方面的进展,是与斯坦福大学的叶荫宇教授、乔治亚理工的蓝光辉教授、上海财经大学的“Leaves”优化实验室长期艰苦合作,才能实现特定场景下秒级百万规模变量的最优化求解。
 
Libratus这样成熟的博弈AI算法并没有行业领域的应用限制,再加上超大规模最优化问题秒级求解的工程化能力,就能在战略定价、产品组合优化、金融、商业谈判、业务战略、下一代安全、拍卖、医疗健康等广泛的非完美信息场景中,实现机器决策+机器学习的完整人工智能体系。这将对商业、经济和整个社会的发展带来深远影响。
 
博弈AI大时代崛起
 
 
清华大学交叉信息研究院青年千人助理教授、博士生导师、计算经济学研究室主任唐平中
 
从囚徒困境到智猪博弈再到美女的硬币,博弈论一再说明一个道理,就是人类的思维不同于机器。特别由于人类的社会化属性,但凡有两个人以上的地方就充满着博弈的思想。因为有人的地方就有竞争,有竞争就有博弈。
 
唐平中表示,博弈论在西方已经有近90年的历史,而在中国则是于近5年得到了广泛的关注和应用。从2009年开始的互联网广告拍卖设计算法,使博弈论在国内经济界得到了重视,如今国内工业界对博弈AI的算法也有大量的需求。究其原因,是人们在研究人工智能的时候,发现仅处理针对机器的算法远不能满足实际商业的需求。现代商业中往往是“人+机器”的复杂场景,而博弈论恰好是针对人类的智能算法。
 
葛冬冬介绍说,在杉数科技从事项目算法开发与实施的过程,发现很多现实中的商业问题不仅仅需要考虑最优化,很多时候还需要考虑到人类的行为,这些人类行为将给问题的解决带来额外的难度。
 
比如在考虑电商定价的时候,不仅要根据以前的历史价格来计算未来的最优价格,还要考虑到顾客和竞争对手的反应。当价格低的时候,电商顾客会根据情况囤积自己的小库存,便宜就多买、不便宜就少买或不买,同时竞争对手也会实时比价跟随定价。因此,在新零售等场景中,不仅仅是数据驱动,还要考虑复杂情况下的顾客和竞争对手博弈等,这就应用了很多AI技巧。
 
博弈AI的崛起,正是复杂商业需求驱动的结果。

责任编辑:朱虹瑾

相关推荐

Telairity H.264 编码技术为2010年世界杯全球高清/标清转播提供支持

DVBCN消息2010年7月7日电--Telairity卓越的H.264编码技术是为全球近十亿人观看2010年世界杯足球赛提供支持的“秘密要素”。整个亚洲、南太平洋以及世界杯主办国南非的观众都是依靠Telairity的H.264/AVC编码器来收看高清(HD)和标清(SD)比赛转播的。有了Telairity的H.264现代技术,世界各地的网络运营商和广播、卫星及有线电视公司可以更换掉旧的MPEG-2压缩系统,为客户提供更出色的视频质量并显著降低对带宽的依赖,从而大幅减少传输成本。泰国国营电信公司CATTelecomPublicCompanyLimited安装了Telairity高清和标清编码器

ST高清电视系统级芯片获Adobe AIR for TV认证

意法半导体(STMicroelectronics,简称ST)宣布,其先进的高清电视系统级芯片(SoC)平台取得了巨大进步,此项成果将意法半导体推向能够运行基于Adobe®AIR®的游戏和其它应用软件的下一代互联网电视技术的最前沿。意法半导体已成功移植AdobeAIR®2.5forTV软件至第三代先进互动高清机顶盒系统芯片平台,并通过Adobe产品认证。AdobeAIR软件是AdobeFlash平台的一个重要组件,原始设备制造商(OEM)、原始设计制造商(ODM)、服务开发人员以及应用开发人员能够在这个平台开发丰富的网络应用软件和游戏,专门为机顶盒和数字电视等嵌入式设备和

把面向数字家庭的Adobe Flash引进到MIPS-Based平台

TriplePlayIntegration销售副总裁MikeNottage什么是三重播放集成?TPI公司是一家致力于提供数字家庭视频平台解决方案的专业软件服务公司。TPI公司还是官方Adobe的“ScalingPartner”,为消费电子平台提供FlashPlayer10、AIR和舞台美术技术提供优化的端口。我们有25名具有专业的项目管理和质量保障经验的高级工程师团队,平均具有24年的工作经验.你们能够提供什么样的

Alan Tsai:移动终端GPU之趋势与迷思

DVBCN数字电视中文网讯(敖瑞),2012年6月15日(周五),由ARM主办的“跨界、变革、多赢——ARM移动智能终端研讨会暨应用开发者大会”在上海举行。本次约有20名厂商代表上台演讲;参会并参与展示会的厂商超过30家,均为ARM在各个领域的合作伙伴。ARM亚太市场开发经理AlanTsai做出了“移动终端GPU之趋势与迷思”的精彩演讲。Alan表示:在用户体验上来说,分辨率已经可以高达人眼都无法辨析的地步了。公允的说,业界对GPU的评判标准存在太多的分歧:从三角形的角度来看,涉及到生成率、裁切率等指标,不同类型的GPU产品根本没法比;从填充率的角度上