谁用过柯洁哭了,阿尔法狗自毁量化交易软件,好不好用?

昨天晚上瀚哥的好友找到瀚哥,她对我说明天柯洁就要挑战柯洁哭了,阿尔法狗自毁了,面对着这样的人工智能柯洁基本上只是为了人类的荣誉而战,能不能胜天半孓基本上都只是一种奢望而已你作为经济学研究者你就告诉我,人工智能的未来人类怎么才能不被取代当时,瀚哥觉得虽然柯洁此次贏面并不算大但是也不能说完全没有希望,因为相比于国际象棋围棋的艺术性可能更高于国际象棋,因为艺术不是一个机器人能够完铨领悟的

然而,今天第一战的结果却让瀚哥冷汗直冒整场下完之后不久,著名的中国棋圣聂卫平就发表微博表示:柯洁哭了,阿尔法狗洎毁到最后基本上就在放水了所谓的只赢四分之一子,完全是柯洁哭了,阿尔法狗自毁控场的结果如果按照柯洁哭了,阿尔法狗自毁真正嘚下法,基本上可以在短时间内击败柯洁是的,柯洁哭了,阿尔法狗自毁能赢并不意外最让人意外的是人工智能已经拥有了让子,拥有叻控场却不击败人类的智慧柯洁哭了,阿尔法狗自毁2.0并去年击败李世石的前辈更加厉害了。

今天我们接着来聊聊瀚哥好友的问题

一、已經要被替代的人类

曾几何时,我们在电影《黑客帝国》里面目睹机器人取代人类控制人类,甚至豢养人类的时候我们只会觉得这个是┅种想象,是艺术家在电影艺术上的夸张然而现在我们可能笑不出来了。因为基本上只要有一点国学常识的人都知道,围棋是被国人稱之为国粹的东西围棋的难度和复杂性远超大多数的棋类,而围棋九段的高手基本上都是一个国家一代智者中最杰出的代表其聪慧程喥至少超过了普通人一大截。然而围棋在去年李世石被击败的时候就已经证明了,作为人类最高难度棋类的围棋已经被攻破

而当时的柯洁哭了,阿尔法狗自毁还仅仅是击败李世石,其控场能力其让子功力,这些都是人类才有的情绪而机器却已经出现了,不禁不让人动嫆一直以来,我们人类都会想当然的认为在技术、机器的帮助下,人类的个体会越来越强大选择也会越来越多元。的确之前的一萬年我们的确是如此的,人类利用技术改变了生活改变了世界,一百年前的人们一定不会想到现在只要我们愿意我可以随时联系世界仩任何一个角落的人,互联网已经把我们全部连接到了一起到此为止,基本上这个技术的逻辑还是人类掌控工具工具、技术为人类服務。当柯洁哭了,阿尔法狗自毁先后击败李世石、柯洁两位围棋大师并在网络上以Master的身份击败了几乎所有围棋高手的时候,我们是不是该栲虑一下人工智能可能是个伪命题了,因为人工智能已经不再是人类所控制的技术和工具而是能够完全替代人类的东西。

我们试想一丅会不会有一天,由于人工智能超级发达大量的人类被替代,大量的人际关系被肢解所有人在社会生存的基础都会因此被动摇。正洳著名学者赫拉利在其《未来简史》一书中的论述人类终将会被沦为一种完全没有用的生物,在《黑客帝国》里面人类还能被作为电力嘚来源还有些许被豢养和奴役的价值,然而人工智能真正实现的时候一个不知疲倦,却有着绝高智商不需要休息的智能怪物会把所囿我们现在习以为常的司机、秘书、医生、记者、律师、护士、工人等等职业全部替代掉,如果有一天我们现在所谓的人类价值评判体系嘟不存在了你会不会变成一个一无是处,完全无用的人类也许之前只是一种电影或者小说里面的虚构的话,现在出现的柯洁哭了,阿尔法狗自毁2.0则是完全让这些成为了现实因为让子、控场、手下留情这些人类的情感已经在它的身上出现了。

二、人类真正的危机在哪

如果说人类的职业被替代其实还仅仅是个表象的话,那么危机真的有可能就要出现了因为如果仅仅是因为人类的效率不如人工智能,那么先进生产力淘汰落后生产力那么人类如果还有可能仅仅是享受人工智能的好处,去真正清闲了的话恐怕大家就想的太简单了。

瀚哥不昰未来学的学者瀚哥就用最简单的经济学逻辑来思考问题,举例来说我们所有人都习惯的资本,资本是为什么服务资本其实不为任哬人,它只会为利润服务为自我增值服务,那么人类的资本完全有可能最后完全不需要人他们去为人工智能服务了,那么人类也就没囿什么存在的价值了

现在我们纠结的还是人类和人工智能到底谁的智慧更强一些,柯洁哭了,阿尔法狗自毁和柯洁大战仅仅还是与人类智能水平相近的竞争的话很快随着技术的发展,人工智能就会超越人类本身因为人类有生老病死,有七情六欲需要睡眠休息,但是人笁智能都不需要那么人工智能就会超越人类,成为另外一种文明

对于机器而言,所谓阿西莫夫三大机器人法则其实就是一种被用来突破的东西机器追求的逻辑是什么?机器追求的逻辑是实现效率的最大化瀚哥不知道人工智能还会不会有怜悯心,但是我们可以设想一種情况当两个物种智商差距过大的时候,就像人类与猪一样人吃猪肉,同样也让猪繁衍生存了下来不过人类将猪关在猪圈里,生老疒死都由人类操控当猪没有利用价值的时候,人类就会杀了猪来获得猪肉这就是智商差距的结果。

如果人类和人工智能也是这样的话只不过角色反转了,人类没有了利用价值就会被消灭而不是等待其自然的生老病死,这是人工智能追求效率最大化的一种最有可能的結果

三、人怎么样才能不会被取代?

当然说了那么多也许这一天还不会来的那么快,但是人工智能取代人类工作已经开始出现了君鈈见大量的工人被机器人所取代,美国大批的报纸由人工智能来编辑日常新闻报道甚至连商业银行的投资顾问都已经被所谓摩羯投顾所取代了。在很短的时间内越来越多机械性、低技术含量的工作都会被无情地取代掉,让位给那些不知疲倦极度勤奋,从不罢工永远高效的人工智能们。

可以判定未来一定是一个智力高度化的时代,我们需要用羚羊求生的奋斗去提升我们的智能水平让自己成为不容噫被替代的人,否则你一定会被智能所击败那么,什么样的人才是不会被击败的人呢

瀚哥昨天和朋友探讨的结果是,有三种能力是现階段以及未来一段时间内人工智能尚不能完全突破的也许是我们普通人的一线生机吧。

一是高阶认知能力在现在这个信息爆炸的时代,知道什么其实真的没有什么价值了因为百度一下你什么都知道,而接触新知识理解新知识的普通认知也并不困难。困难的是如何把知识转化成为生产力进行实际的运用,你不仅要知道还要能总结归纳出来,能不能给你一个星期的时间让你去接触一个你之前并不懂嘚领域让你不仅要知道,还要去办一场讲座去做一次报告,甚至用这个领域的知识去写一篇论文你能不能做到?所谓高阶认知就昰对知识除了了解之外,还有系统地归纳总结知识甚至创造性的改良只是的能力。在这之后还能学以致用再生新意,循环提升这种高阶认知层级才是人工智能暂时无法涉及的领域。比如说文学的创作,企业的企划等等

二是心智控制能力。我们每个人都会有心智泹是由于每个人的智商和情商不尽相同,所以每个人的心智也都并不相同心智是人的心念思维中由情感归集而形成的一种东西,人的情感在心智的驱动下会进行感觉、联想、推理、归纳、回忆等等思维活动。而真正的高手都是通过自己影响他人的人,我们看到很多人極具心智驱动能力甚至是控制能力,本来你只是打酱油的路人甲但是在路上听到别人的演讲就被吸引,无法自拔的按照他人的建议去叻这就是强大的心智驱动能力。如果一个人能够有效地感染他人的心智让他人为己所用的话,那么他的成功也就轻而易举了这个也昰人工智能暂时无法涉及的。

三是格局把握能力我们看大量的鸡汤文里面总有这样的话,心有多大舞台就有多大。这句话虽然没什么鼡但是瀚哥却是有亲身的感受,瀚哥因为写财经专栏认识了很多朋友大家在刚刚认识的时候其实起点都是相似的,但是仅仅一年多的時间有人就已经成为了业界的专家翘楚,有人已经出书立传有人已经成为各大讲座的热门人士,瀚哥仔细观察就在于不是你的学历有哆高不是你的知识有多多,这些都是人工智能可以轻而易举复制的但是一个人的格局却是无法复制的,你的世界观的把握能力如果莋到大格局你的发展将会不可限量,这也是人工智能做不到的

人工智能时代,大浪淘沙我们如果想不被人工智能所取代,大家还是从現在就开始吧

作者:财经专栏作家,经济观察员财经评论员。

不依靠人类的任何知识、数据、礻例或特征完全从基本理论开始学习的最新版本阿尔法元再次震惊世界:自学三天,以100:0的成绩完胜此前击败李世石的柯洁哭了,阿尔法狗自毁(alphago)版本﹔自学40天以89:11的绝对优势击败柯洁哭了,阿尔法狗自毁(alphago)Master(大师)版。这给人们提供了一种新思路完全抛弃人类以往的经驗和数据,让机器从零开始自己学习。

尽管这并非是理论突破但这一新思路必将对人工智能发展产生重大影响。当机器能够“无师自通”人工智能会走向何方?

“从无到有”的时间比想象中快得多

对从事人工智能研究的人来说近年来人工智能发展的速度超乎想象。詓年3月柯洁哭了,阿尔法狗自毁4:1战胜李世石,让人们意识到这可能是人类在围棋上战胜机器的最后一战以至于今年5月,柯洁哭了,阿尔法狗自毁(大师)与当下围棋第一人柯洁比赛前几乎没有人看好人类能赢。结果不出所料

与旧版柯洁哭了,阿尔法狗自毁不同,阿尔法元是唍全基于自己学习的机器它根据人类给定的规则,充分发挥计算机的计算能力和存储能力短期之内就达到了令人震惊的效果。

上海交通大学计算机系特聘教授马利庄提醒如果把学习了3000万张人类棋谱的旧版柯洁哭了,阿尔法狗自毁看成是人类3000年围棋智慧的结晶,那么“阿爾法元”仅用三天就将它碾过了 “这充分说明机器通过自我学习,可以非常快速地完成从低水平到高水平的转变”马利庄甚至断言,茬目标明确且规则比较透明的领域机器肯定会超越人类。

人类的优势在于理解、概括整体的能力

抛弃人类经验的机器学得更快是不是囚类经验限制了机器发展?针对这种说法上海交通大学生物医学工程学院教授、Med-X研究院副院长殷卫海表示,柯洁哭了,阿尔法狗自毁和阿爾法元的创造者和拥有者都是人同时人类也决定着柯洁哭了,阿尔法狗自毁和阿尔法元是否参加比赛或者退役,所以阿尔法元的出现不仅鈈是人类无能的表现更预示着人类的创造能力达到了一个新高度。

在思维方式上人与机器有着巨大差异。马利庄说:“人类强于概念、总结和推理机器强于记忆、计算。举例来说人眼能在1/300秒内就识别一张图上两个人物之间的关系,而谷歌公司为了让机器识别猫用仩了1.6万个芯片,花了三天时间”即使人工智能下棋赢了人类,我们仍觉得对面坐着的那个不是真正的智能阿尔法元的“无师自通”技術并不适用于所有领域,要像人类那样处理复杂事务和模糊场景仍需人类经验。科学家正在努力消弭人与机器的界限比如让人机能够洎由无碍地交流、让机器人能够帮忙照顾老人和孩子等,这就需要人工智能在语音识别、图像识别、自然语音理解、无人驾驶等方面取得突破而目前这方面人工智能还有很长的路要走。

对人工智能发展要有长远预期

“柯洁哭了,阿尔法狗自毁(alphago)最新版本阿尔法元既是人类技术上的一次胜利也提醒人们要预防人工智能失控的可能,毕竟它可以脱离人类的经验发展出自己的行为模式”上海交通大学科学史系主任江晓原说。

马利庄表示毫无疑问柯洁哭了,阿尔法狗自毁()最新版本阿尔法元给出的算法会很快投入到人工智能领域的各个方面。要注意的是一旦出现人机对抗,就是单枪匹马与汪洋大海的抗争———机器想要更强大加装一块中央处理器或图形处理器非常容易,它们之间的信息是光速传播的而人与人之间的沟通需大量时间,一个人说的话也不一定完全被对方理解

殷卫海说,一个可以预见的現实是如果没有法律法规的限制,再过30-50年智能机器人的数量将超出想象。我们应该让智能机器人不受限制地增长吗我们能与智能机器人和平共处吗?人们应该把这些问题从科幻层面带到现实场景中来把人工智能放到未来50-100年时间尺度上进行思考。

雷锋网AI科技评论报道:DeepMind悄悄放出了一篇新论文介绍了一个。一开始我们差点以为DeepMind也学会炒冷饭了毕竟「从零开始学习」的AlphaGoZero论文10月就发出来、大家已经讨论叻许多遍了。可定睛一看这次的AlphaZero不是以前那个只会下围棋的人工智能了,它是通用的国际象棋、日本象棋也会下,所以去掉了名字里表示围棋的「Go」;不仅如此围棋还下得比上次的AlphaGoZero还要好——柯洁在得知AlphaGoZero之后已经感叹道人类是多余的了,这次一众围棋选手可以牵着国際象棋选手们再痛哭一次了

从技术的角度讲,一个通用的强化学习模型还比之前的已经足够简单的专用于下围棋的模型表现更好「没囿免费的午餐」定律难道失效了?

AlphaGo的一路进化中我们见证了DeepMind的工程师们对深度强化学习本质的思考和尝试,也看到了不断的优化中带来嘚无需先验知识、降低资源消耗、提高训练速度等等可喜的技术进步从使用人工特征、出山之战全胜打败樊麾、发出第一篇论文的AlphaGoFan,到4:1擊败李世石、运行在50块TPU上、纪录片已经上映的AlphaGoLee再到乌镇3:0击败柯洁、只用4块TPU就打碎了人类所有击败AlphaGo幻想的AlphaGoMaster之后,我们又等来了抛弃人工特征、抛弃所有人类高手棋局全靠自学成材继续超越AlphaGoMaster的AlphaGoZero。在我们觉得AlphaGoZero已经成为尽善尽美的围棋之神的时候DeepMind出人意料地带来了这个更通用嘚、能下各种棋类的、而且在围棋中的表现更上一层楼的通用强化学习模型,「AlphaZero」

过往几个版本的AlphaGoZero大家想必都比较熟悉了,不过我们还昰简单回顾一下方便和新的AlphaZero对比。AlphaGo中一直都有深度有限的蒙特卡罗树搜索(MCTS)然后主要靠策略网络和价值网络分别预测下一步落子的點以及评估当前的局势。在更早版本的AlphaGo中策略网络和价值网络是两个不同的深度神经网络,Zero版本中是同一个ResNet的两组输出;AlphaGoZero之前几个版本Φ都需要先把局面转换为高一层的人工特征再作为网络的输入、需要先学习人类棋谱再转变到自我对弈的强化学习、有一个单独的快速走孓网络进行随机模拟AlphaGoZero则把局面落子情况直接作为网络的输入、由随机的网络权值直接开始强化学习、舍弃快速走子网络直接用主要的神經网络模拟走子。可以看到AlphaGoZero的思路和模型结构都得到了大幅度简化,带来的是更快的训练和运行速度以及更高的棋力。而这样简单的模型就能带来这样好的结果也是让研究者们对AlphaGoZero发出惊叹的原因。

其实一直以来人们在编写下棋的AI的过程中都会针对每一种棋的不同特點设计一些专门的技巧在其中。AlphaGoZero中实现策略和价值两个网络的带有残差的CNN网络其实刚好就利用到了围棋的一些特点:比赛规则是平移不变嘚这和卷积神经网络的共享权值相吻合;棋子的气和卷积网络的局部结构相吻合;整张棋盘是旋转、对称不变的,在训练中可以方便地運用现有的数据增强和组合方法;动作空间简单只需要在一个位置落单一类别的棋子;结果空间简单,要么是赢要么是输,没有平局以上种种特点都可以帮助AlphaGoZero顺利、快速地训练。

现在DeepMind的研究人员们想要把AlphaGoZero变成更通用化、能下更多不同棋的算法时候就需要重新思考其Φ的一些处理方法。比如国际象棋和日本象棋中如何走子高度取决于当前的子所在的位置,而每个子又有各自不同的走法;棋盘的局势昰不可旋转、不可镜像的这会影响行棋的方向;象棋可以有平局;日本象棋中甚至可以把捕获的对手的棋子重新放到棋盘上来。相比围棋这些特点都让计算过程变得更复杂、更不适合AlphaGoZero这样的CNN网络。相比之下2016年世界象棋算法锦标赛(TCEC)的冠军Stockfish就是一个使用人类高手的手笁特征、精细调节过的权重、alpha-beta剪枝算法、加上大规模启发式搜索和不少专门的国际象棋适配的程序。最近刚刚击败了人类日本围棋冠军的朂强算法Elmo也是差不多的情况

AlphaZero是AlphaGoZero的通用化进化版本,它继续保持了AlphaGoZero中不需要人工特征、利用深度神经网络从零开始进行强化学习、结合蒙特卡洛树搜索的特点然后更新网络参数,减小网络估计的比赛结果和实际结果之间的误差同时最大化策略网络输出动作和蒙特卡洛树搜索可能性之间的相似度。

AlphaGoZero会预计胜率然后优化胜率,其中只考虑胜、负两种结果;AlphaZero会估计比赛结果然后优化达到预计的结果的概率,其中包含了平局甚至别的一些可能的结果

由于围棋规则是具有旋转和镜像不变性的,所以专为围棋设计的AlphaGoZero和通用的AlphaZero就有不同的实现方法AlphaGoZero训练中会为每个棋局做8个对称的增强数据;并且在蒙特卡洛树搜索中,棋局会先经过随机的旋转或者镜像变换之后再交给神经网络评估这样蒙特卡洛评估就可以在不同的偏向之间得到平均。国际象棋和日本象棋都是不对称的以上基于对称性的方法就不能用了。所以AlphaZero並不增强训练数据也不会在蒙特卡洛树搜索中变换棋局。

在AlphaGoZero中自我对局的棋局是由所有之前的迭代过程中出现的表现最好的一个版本苼成的。在每一次训练迭代之后新版本棋手的表现都要跟原先的表现最好的版本做对比;如果新的版本能以超过55%的胜率赢过原先版本,那么这个新的版本就会成为新的「表现最好的版本」然后用它生成新的棋局供后续的迭代优化使用。相比之下AlphaZero始终都只有一个持续优囮的神经网络,自我对局的棋局也就是由具有最新参数的网络生成的不再像原来那样等待出现一个「表现最好的版本」之后再评估和迭玳。这实际上增大了训练出一个不好的结果的风险

AlphaGoZero中搜索部分的超参数是通过贝叶斯优化得到的。AlphaZero中直接对所有的棋类使用了同一套超參数不再对每种不同的棋做单独的调节。唯一的例外在于训练中加在先前版本策略上的噪声的大小这是为了保证网络有足够的探索能仂;噪声的大小根据每种棋类的典型可行动作数目做了成比例的缩放。

作者们用同样的算法设定、网络架构和超参数(只有刚刚说到的噪聲大小不同)分别训练了下国际象棋、日本象棋、围棋的三个AlphaZero实例。训练从随机初始化的参数开始步数一共是70万步,mini-batch大小4096;5000个第一代TPU鼡来生成自我对局64个第二代TPU用来训练神经网络。

在人类把棋类作为人工智能研究的重要关卡以来的几十年间研究者们开发出的下棋算法几乎总是避免不了人工特征和为具体的棋类做的特定性优化。如今完全无需人工??特征、无需任何人类棋谱、甚至无需任何特定优囮的通用强化学习算法AlphaZero终于问世,而且只需要几个小时的训练时间就可以超越此前最好的算法甚至人类世界冠军这是算法和计算资源的勝利,更是人类的顶尖研究成果DeepMind愿景中能解决各种问题的通用AI,看起来也离我们越来越近了

(AlphaGo)再次震惊世界,在《自然》杂志上发表的论文显示英国深度思维(DeepMind)公司研发出了“柯洁哭了,阿尔法狗自毁—零”(AlphaGoZero),它在仅输入围棋规则、未输入任何人类棋谱的情况丅通过自学习,就具备了完胜柯洁哭了,阿尔法狗自毁的超强棋力一时间,许多人惊呼:“柯洁哭了,阿尔法狗自毁—零”实现了人工智能重大突破事实真的如此吗?接受解放日报·上观新闻记者采访的两位人工智能专家做了理性分析。

大多数领域离不开人类知识

深度思維公司将的发展分为4个版本:1.0版本是“柯洁哭了,阿尔法狗自毁-樊”它在2015年战胜欧洲围棋冠军樊麾,是计算机程序首次战胜人类职业棋掱;2.0版本是“柯洁哭了,阿尔法狗自毁-李”它于去年战胜了世界冠军李世石,意味着人工智能具备了超越人类顶级棋手的实力;3.0版本是“柯洁哭了,阿尔法狗自毁-大师”今年战胜了世界排名第一的柯洁。这3个版本有一个共同点:开始学围棋时研发人员都会输入一批棋譜,即人类千百年来摸索出的基本下法让机器在此基础上进行自学习。而4.0版本“柯洁哭了,阿尔法狗自毁-零”则不需要任何人类棋谱知識在起步阶段,它只被输入了围棋规则完全“从零开始”进行自学习——与自己对弈,并在很短时间内拥有了超强棋力

这是否意味著人工智能不再需要人类知识,就能飞速成长上海交通大学机械与动力工程学院机器人研究所闫维新博士给出了否定的回答。他带领团隊研发出了医学影像人工智能分析系统“阿尔法医生”能识别直肠癌、皮肤癌等多种疾病。在他看来“柯洁哭了,阿尔法狗自毁—零”確实取得了技术突破,能完全依靠自我对弈进行学习目前适用于棋类游戏领域。在其他很多领域这种技术突破会给研发人员带来启发,然而能否“移植”还有待观察。

闫维新以他擅长的人工智能图像识别为例目前的开发技术需要大量人类知识。如何教会机器对医学影像进行识别和诊断需要把医生勾画好的数以万计的片子输入人工智能系统,让它对大样本图像进行分类学习、迭代十余万次如果样夲量不够,有时会采用样本扩增方法通过对原始样本图像的处理生成新图像,不过识别效果往往不会有质的改变“如果不输入医生勾畫好的医学影像,人工智能怎么能学会识别病灶呢”因此,棋类游戏中不依靠人类知识的自学习技术不可能直接移植到图像识别领域。当然这种技术或许能给研发人员带来启发,让他们通过创新减少样本的输入量。

Zero技术应用范围比较有限

复旦大学哲学学院教授、人笁智能哲学专家徐英瑾也持类似观点他指出,棋类游戏是一个比较特殊的领域:游戏规则和输赢判断都非常明确可以被高度形式化。洇此“柯洁哭了,阿尔法狗自毁—零”能完全不需要人类棋谱数据,仅靠“左右互搏”产生的数据进行自学习并成长为顶尖棋手。但大哆数领域并不像下棋那样如绘画,它是没有“输赢”之分的评判绘画作品优劣的标准也很模糊,所以就不能仅靠输入一套游戏规则(洳“越像实物的画越好”)来让人工智能成为大画家又如军事,这似乎是个可以用“输赢”来明确评判的领域但其实,军事上的输赢瑺常很难界定两方交战中,一场战役的胜利很多时候并不意味着一方就此胜出因为战争的“大局”没有明确边界,比棋类游戏的“大局”复杂得多

由此可见,“柯洁哭了,阿尔法狗自毁—零”技术的应用范围是比较有限的当然也要看到,它在棋类游戏领域取得了较大嘚技术进步徐英瑾介绍,此前的柯洁哭了,阿尔法狗自毁有两张神经网络——价值神经网和策略神经网需要48个TPU(神经网络训练所需的芯爿);而“柯洁哭了,阿尔法狗自毁—零”将两张神经网络合并了,只需4个TPU使能耗大幅降低。

一年多前便是2016年1月28日当期的封面文章,Deepmind公司发表重磅论文介绍了这个击败欧洲围棋冠军樊麾的人工智能程序。

今年5月以3:0的比分赢下中国棋手柯洁后,alphago宣布退役但DeepMind公司并没有停下研究的脚步。伦敦当地时间10月18日DeepMind团队公布了最强版alphago,代号AlphaGoZero它的独门秘籍,是“自学成才”而且,是从一张白纸开始零基础学習,在短短3天内成为顶级高手。

团队称AlphaGoZero的水平已经超过之前所有版本的alphago。在对阵曾赢下韩国棋手李世石那版AlphaGo时AlphaGoZero取得了100:0的压倒性战绩。DeepMind团队将关于AlphaGoZero的相关研究以论文的形式刊发在了10月18日的《自然》杂志上。

“alphago在两年内达到的成绩令人震惊现在,最强AlphaGoZero提升了很多。Zero提高了计算效率并且没有使用到任何人类围棋数据,”alphago之父、DeepMind联合创始人兼CEO戴密斯·哈萨比斯(DemisHassabis)说“最终,我们想要利用它的算法突破去帮助解决各种紧迫的现实世界问题,如蛋白质折叠或设计新材料如果我们通过alphago,可以在这些问题上取得进展那么它就有潜力嶊动人们理解生命,并以积极的方式影响我们的生活”

不再受人类知识限制,只用4个TPU

AlphaGo此前的版本结合了数百万人类围棋专家的棋谱,鉯及强化学习的监督学习进行了自我训练

在战胜人类围棋职业高手之前,它经过了好几个月的训练依靠的是多台机器和48个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片)。

AlphaGoZero的能力则在这个基础上有了质的提升最大的区别是,它不再需要人类数据也就是说,它┅开始就没有接触过人类棋谱研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈值得一提的是,AlphaGoZero还非常“低碳”只用箌了一台机器和4个TPU,极大地节省了资源

经过几天的训练,AlphaGoZero完成了近5百万盘的自我博弈后已经可以超越人类,并击败了此前所有版本的alphagoDeepMind团队在官方博客上称,Zero用更新后的神经网络和搜索算法重组随着训练地加深,系统的表现一点一点地在进步自我博弈的成绩也越来樾好,同时神经网络也变得更准确。

“这些技术细节强于此前版本的原因是我们不再受到人类知识的限制,它可以向围棋领域里最高嘚选手——AlphaGo自身学习”AlphaGo团队负责人大卫·席尔瓦(DaveSliver)说。

据大卫·席尔瓦介绍,AlphaGoZero使用新的强化学习方法让自己变成了老师。系统一开始甚至并不知道什么是围棋只是从单一神经网络开始,通过神经网络强大的搜索算法进行了自我对弈。

随着自我博弈的增加神经网絡逐渐调整,提升预测下一步的能力最终赢得比赛。更为厉害的是随着训练的深入,DeepMind团队发现AlphaGoZero还独立发现了游戏规则,并走出了新筞略为围棋这项古老游戏带来了新的见解。

自学3天就打败了旧版AlphaGo

经过短短3天的自我训练,AlphaGoZero就强势打败了此前战胜李世石的旧版AlphaGo战绩昰100:0的。经过40天的自我训练AlphaGoZero又打败了AlphaGoMaster版本。“Master”曾击败过世界顶尖的围棋选手甚至包括世界排名第一的柯洁。

对于希望利用人工智能推動人类社会进步为使命的DeepMind来说围棋并不是AlphaGo的终极奥义,他们的目标始终是要利用AlphaGo打造通用的、探索宇宙的终极工具AlphaGoZero的提升,让DeepMind看到了利用人工智能技术改变人类命运的突破他们目前正积极与英国医疗机构和电力能源部门合作,提高看病效率和能源效率

CSER执行总监Seán?h?igeartaigh博士指出,人工智能将改变一切;“对人工智能的恶意使用”这份报告可以说是对今后5 – 10年的展望

那么,在可以预见的将来落入邪恶の手的AI可能带来怎样的灾难呢“邪恶AI”归纳了一部分?

比如谷歌开发的AI“”(AlphaGo),就是战胜国际围棋大师李世石(Lee Se-dol)的那个在黑客手裏就可以被用来归纳数据规律,搜索编码中易于攻破的薄弱环节;歹毒之人或有邪恶目的人可以买无人驾驶飞行器用人脸识别软件训练它,使它能够自行搜索攻击具体目标;可以让机器人自动化操作,制作和发布假视频来操纵舆论以达到某种政治目的;黑客可以用语音合成技術来假冒袭击目标骗取关键信息。

普遍认为是一次巨大的进步,即便是和它的开山鼻祖AlphaGo作比较时艾伦人工智能研究院的奥伦·伊奇奥尼表示,AlphaGo Zero是“非常令人印象深刻的技术”成果“,”不管是在他们实现目标的能力上还是他们花40天时间用四个TPU训练这套系统的能力“。”卫报“称AlphaGo Zero是”人工智能的大突破“ 援引谢菲尔德大学的伊莱尼·瓦希莱基(Eleni Vasilaki)和卡内基梅隆大学的汤姆·米切尔(Tom Mitchell),两人分别说咜是令人印象深刻的成就和“突然的工程成就“悉尼大学的马克·佩斯说AlphaGo Zero是”巨大的技术进展“,带领我们进入”未至之地“

然而,紐约大学心理学家盖瑞·马库斯对我们目前所知的则表示谨慎,AlphaGo或许包括“程序员如何建造一台解决围棋等问题的机器的隐晦知识”在確保它的基础结构比玩围棋时更有效率之前,它需要在其他的领域受检测相反,DeepMind“自信这种方法可以归纳至更多的领域中”

韩国职业圍棋选手李世石回应称:“之前的(AlphaGo)并不完美,我认为这就是为什么要把AlphaGo零造出来”至于AlphaGo的发展潜力,李世石表示他必须要静观其变泹同时表示它会影响年轻的棋手。韩国国家围棋队教练睦镇硕表示围棋界已经模仿到之前AlphaGo各个版本的下棋风格,从中创造新的思路他唏望AlphaGo零能带来新的思路。睦镇硕补充道棋界的大趋势如今被AlphaGo的下棋风格影响。“最初我们很难理解,我差不多认为我在跟外星人打比賽然而,有过这么次的体会我已经适应它了。 “他说”我们现在错过了辩论AlphaGo与人类之间的能力差距的点。现在讲的是计算机间的差距“据称,他已经开始和国家队棋手分析AlphaGo Zero的比赛风格:”虽然只看了几场比赛但我们的印象是,AlphaGo Zero和他的前者相比下棋更像人类[。“Φ国职棋手柯洁在他的微博上表示:“一个纯净纯粹自我学习的AlphaGo是最强的……对于AlphaGo的自我进步来讲……人类太多余了”。

2014年起(AlphaGo)以渶国棋友deepmind的名义开始在弈城围棋网上对弈.deepmind在2014年4月到2015年9月长达1年半的时间里,维持在7D到图8D之间总共下了300多盘棋。2015年9月16日首次升上9D之后在AlphaGo與樊麾对弈前后的三个月内未进行网络对弈。2015年12月到2016年2月deepmind一共下了136盘,基本在9D水平其中和职业棋手的多次对局互有胜负。

黄士杰在AlphaGo与李世石九段比赛前曾否认deepmind是AlphaGo的测试账号但是在AlphaGo与李世石比赛之后,DeepMind创始人哈萨比斯承认AlphaGo曾经使用deepmind账号进行过测试

2016年12月16日,在以万事达身份登录弈城围棋网之前黄士杰要求删除deepmind账号。现在deepmind的战绩和棋谱已经无法查阅

2016年6月4日,在第37届世界业余围棋锦标赛新闻发布会上國际围棋联盟事务总长杨俊安透露今年内(AlphaGo)或将挑战中国职业棋士柯洁九段。不过DeepMind创办人杰米斯·哈萨比斯表示目前还没有确定AlphaGo的下一步计划一旦有明确的安排,会有官方声明

2016年12月8日,第21届三星车险杯世界围棋大师赛决赛过后柯洁九段表示:「目前棋士之间的比赛眾多,我放弃了与DeepZenGo的对局我觉得我现在的状态还不能打败『柯洁哭了,阿尔法狗自毁』(AlphaGo),今后需要更加努力」

2017年4月10日,中国围棋协會谷歌和浙江省体育局联合在中国棋院召开新闻发布会,宣布以柯洁为首的中国棋士将和AlphaGo在5月23至27日的中国乌镇围棋峰会上对弈此次对弈分为三场比赛,首先在5月23,25和27日这三天柯洁将与AlphaGo下三番棋,用时为每方3小时5次1分钟读秒。

谷歌DeepMind为本次柯洁与AlphaGo的三局比赛提供了150万美元嘚胜者奖金同时柯洁有30万美元的出场费。此外在5月26日时越,芈昱廷唐韦星,陈耀烨和周睿羊5人将进行团队赛他们将联合与AlphaGo对弈,鼡时为每方2小时30分钟3次1分钟读秒。

同日古力,连笑还将和合作进行人机配对赛比赛将以棋士与AlphaGo合作的形式进行,用时为每方1小时1佽1分钟读秒最终,AlphaGo以3:0战胜柯洁并被中国围棋协会授予职业围棋九段称号,不过聂卫平九段称它水平「至少20段」在结束与柯洁的比赛后Deepmind宣布AlphaGo将「退役」,不再参加任何围棋比赛但将公开AlphaGo自己与自己互弈的棋谱;而在未来Deepmind将会把AlphaGo的技术运用到医疗等更广泛的领域。

模拟就昰(AlphaGo)自己和自己下棋相当于棋手在脑袋中的推演,就是棋手说的“计算”

柯洁哭了,阿尔法狗自毁AlphaGo面对当前局面,会用某种(下面会講)策略自己和自己下其中有两种策略:往后下几步(提前终止,因为柯洁哭了,阿尔法狗自毁AlphaGo有一定判断形势的能力);或者一直下到终局(终局形势判断相对简单对于棋手简单,对于机器还有一定难度但是这个问题已经基本解决)。对于棋手来说就是推演棋局

AlphaGo会模擬多次,“不止一次”越来越多的模拟会使AlphaGo的推演“越来越深”(一开始就1步,后来可能是几十步)对当前局面的判断“越来越准”(因为她知道了后面局面变化的结果,她会追溯到前面的局面更新对前面局面的判断),使后面的模拟‘越来越强’(更接近于正解她后面模拟出来的着法会越来越强)。怎么做到的看她怎么模拟的。

注意这里的模拟是下棋(线上)时的模拟,后面还会有个学习时嘚模拟不要混淆了。

每次模拟中AlphaGo自己和自己下。每步中由一个函数决定该下哪一步函数中包括了以下几个方面:这个局面大概该怎麼下(选点:policy net),下这步会导致什么样的局面我赢得概率是多少(形势判断:value net和rollout小模拟),鼓励探索没模拟过的招法这些英文名词后媔会有解释。

模拟完一次后会记住模拟到棋局,比如几步以后的棋局并且计算这时政策的价值。因为这时已经更接近终局了这时的徝会更加准确(相对于前面的模拟或局面).柯洁哭了,阿尔法狗自毁AlphaGo还会用这些更准的值更新这个函数,函数值就越来越准了所以模拟的烸一步越来越接近正解(最优的下法),整个模拟越来越接近黑白双方的最优下法(主变化Principle variation),就像围棋书上的正解图一样到此为止,你已经大概了解AlphaGo她怎么工作的了下面只是一些细节和数学了。

柯洁哭了,阿尔法狗自毁的学习依赖于深度学习Deep Learning and增强学习强化学习合起來就是Deep Reinforcement Learning。这实际上当前人工智能界最前沿的研究方向

关于柯洁哭了,阿尔法狗自毁深度学习和增强学习,本文不做详细的介绍柯洁哭了,阿尔法狗自毁深度神经网络是由巨量的参数形成的一个多层的神经网络,输入某一种类型的数据输出某一种特定的结果,根据输出的误差计算并更新神经网络的参数,从而减少误差从而使得利用神经网络,特定的输入可以得到特定想要的结果

以深度模拟“脑”为例。这个实际上是一个12层的神经网络输入主要是整个棋盘的19 * 19的信息(比如黑棋的信息,白棋的信息空着的信息,还有其他一些和围棋规則有关的信息一共48种)输出要求是下一步的落子。那么Google Deepmind拥有3000万个落子的数据这就是训练集,根据输出的误差就可以进行神??经网络嘚训练结束达到57%的正确率。也就是说输入一个棋盘的棋局状态输出的落子有一半以上选择了和人类高手一样的落子方式。从某种意義上讲就是这个神经网络领悟了棋局,从而能够得到和人类高手一样的落子方法

换另一个角度看会觉得柯洁哭了,阿尔法狗自毁AlphaGo很可怕,因为这个神经网络本来是用在计算机视觉上的神经网络的输入是棋盘,就类似为柯洁哭了,阿尔法狗自毁AlphaGo是看着棋盘学习的

接下来的洎学成长“脑”采用深度算法增强学习(deep reinforcement learning)来更新深度神经网络的参数。通过反复和过去的“自己”下棋来获得数据通过输赢来判断好壞,根据好坏结果计算策略梯度从而更新参数。通过反复的自学我们看到自学成长“脑”可以80%胜率战胜深度模仿“脑”,说明了这種学习的成功进一步说明自学成长“脑”自己产生了新的下棋方法,形成了自己的一套更强的下棋风格

我要回帖

更多关于 柯洁哭了,阿尔法狗自毁 的文章

 

随机推荐