围棋一战,AlphaGo显示出大局观远胜人类,自由且无法捉摸。而这一切,也是人类对人工智能的期盼——思维的超脱,以及将人力从重复劳动中解放。
5月23日午后3点,中国乌镇围棋峰会会场附近的空气松弛下来。当前世界围棋排名第一的中国选手柯洁以四分之一目惜败于人工智能阿尔法狗(AlphaGo),结束双方首回合比赛。这个结果完全在各界预料之中,但结果尘埃落定前难免让人扔抱有一丝念想——毕竟此刻的柯洁,角色是全体人类的代表。
继2016年3月以4:1大比分击败李世石,并在2017年1月化名“Master”在线上狂取60连胜后,AlphaGo再次展现了它在围棋领域压倒性的实力。本回合比赛过后,AlphaGo也以“击倒人类最后一个堡垒”的象征意义,为人工智能技术掀开新的图景。
慢棋:柯洁的规则福利
“(柯洁)开局不错,有些优势。”围棋职业九段、世界冠军罗洗河对《财经》记者分析,“后面双方陷入胶着,中后盘AlphaGo优势越来越突出,柯洁的落后就明显了。”
根据清华航院AI神算子公布的数据,双方行棋至106手,柯洁胜率一度提升至45.91%,只落后7目;至108手,柯洁胜率仍有45.63%,总体优于去年与AlphaGo对弈的韩国选手李世石。
“这盘棋在我来看,阿尔法狗优势已经逐渐在缩小了。快到终点时,虽然双方差距缩小,但是阿尔法狗的优势不可动摇。由于阿尔法狗的构思招法远胜于人类,柯洁在不知不觉中就中了阿尔法狗的招了,不知不觉就落后了。”“棋圣”聂卫平在新浪直播间点评称。
和去年AlphaGo与李世石比赛时不同,本次比赛采用了慢棋规则,即每位棋手下子时间为2小时,这也缩短了人类棋手和人工智能棋手的体能和精力差距。这也是中国棋院和GoogleDeepMind团队拉锯战式谈判后的胜利。
《互联网进化论》作者、人工智能博士刘锋也认为,这是柯洁最大的规则福利。“AlphaGo的运算所需时间很短,精力也不会衰减,更长的下子时间对柯洁帮助很大。因此,这次(柯洁)也应该是输得心服口服。”
AlphaGo 2.0:比老版强在哪里?
每一次AlphaGo与人类棋手的厮杀,都会引发围棋和人工智能两个领域的热烈讨论。在“人工智能能否战胜人类围棋第一人”的悬念被削弱的当下,历经一年不断演算改进的AlphaGo 2.0可能才是比赛的最大看点。
Google公开的资料显示,改版后的AlphaGo采用了新的机器学习技术,目的是应对围棋的巨大复杂性。这种新的机器学习技术,基于policy network(策略网络)训练,同时兼备监督学习技术和强化学习技术的优势。
研究者通过将棋盘上的局势作为输入信息输入AlphaGo,得出所有可行的落子位置数据,并据此生成一个概率分布。AlphaGo经历大量的类似训练后,能自动生成出一个value network(价值网络)用于预测自我对弈的结果,并以 -1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行的落子位置结果。
利用价值网络,AlphaGo能筛选出对棋局价值更高、变化可能性更多样的落子位置,并在大量的模拟中形成自身的经验。
这样的训练,本质上是AlphaGo不断自己跟自己下棋,并总结胜利和失败数据,然后用海量数据尽量穷尽全部胜利可能的过程。“从已知信息看,新版的AlphaGo不像旧版一样使用输入海量棋谱的方法,而是集中于自我模拟战局。”刘锋指出。
AlphaGo的通过更新迭代实行进化的能力也不可忽视。据悉,AlphaGo2.0模拟的所有训练数据,都会作为下一代版本提供参考,减少重复运算的可能。因此,与李世石对战时的AlphaGo已经远不可与现在的它同日而语,演算时间更长、模式更多样的AlphaGo3.0、AlphaGo4.在整体战略视野上会更加强大。这也与聂卫平、常昊等职业棋手对AlphaGo棋风的评价不谋而合——大局观远胜人类,自由且无法捉摸。
而这一切,似乎也是人类对人工智能的期盼——思维的超脱,以及将人力从重复劳动中解放。
比“战胜人类”更重要的是,它能用在哪里?
从Google高调地领着AlphaGo大杀四方开始,舆论对于这只“好学的怪兽”就质疑不断,特别是对其实际运用的领域、产品化日程讨论非常热烈。
在充分证明自己的“下围棋”能力后,AlphaGo要怎么样证明自己能“干实事”?从Google的官方消息看,“医生助手”很可能会是它的下一份工作。
AlphaGo之父哈萨比斯透露, DeepMind正在使用AlphaGo系统的变体来服务其他行业,“其中一种变体应用于医疗行业,蛋白质折叠的问题是我们当下希望着力解决的”。
Google 大中华区总裁石博盟接受媒体采访时也称,医疗领域会是AlphaGo的第一个应用点,为医院提供诊断判定辅助,也会有效推进糖尿病、癌症等疾病的研究进程。
“最接近的领域可能是游戏系统,比如即时战略、整体布局等。然后就很容易运用到军事领域。”刘锋认为AlphaGo的应用可能性非常多样:“此外医疗、教育、天气预报也有望成为其接下来的运用领域。”
不过想象还是要基于现实,AlphaGo的局限也已经显露出来。刘锋总结称,AlphaGo目前只能在满足三个条件的场景中运作:“一是有明确运算目标,二是有对抗性,三是有明确清晰的规则。”
《财经》记者 刘浩南/文 王小/编辑