搞Reinforcement learning，除了OpenAI Gym，还有什么测试平台

你的位置：网站首页 >> 频道首页 >>编程语言 >>搞Reinforcement learning，除了OpenAI Gym，还有什么测试平台

搞Reinforcement learning，除了OpenAI Gym，还有什么测试平台

来源：蜘蛛抓取(WebSpider) 时间：2017-09-13 04:47 标签： ai怎么用

版权说明：本文为原创文章未經作者允许不得转载。

想必很多知友都知道Open这家初创公司Open是2015年底刚成立的人工智能公司，由Elon Musk领投号称有10亿美金的投资额，由几位人工智能的顶尖好手组成这基本上意味着一个新的DeepMind公司诞生，只不过这次Open是一个非营利性的研究机构不属于任何大公司。

为什么要了解Open

洇为Open的研究内容很大程度上代表着人工智能的研究方向，由于Elon Musk的影响力公司非盈利的性质以及地处加州硅谷这种黄金地段，未来聚集更哆顶尖人才的可能性很大成为一个和DeepMind公司抗衡的可能性非常大。Open的出现将使顶级人工智能的研究不至于被GoogleMicrosoft，FacebookBdu，IBMNvidia等等行业巨头垄断。

Open的很多成员恐怕大家都比较熟悉有的学生，有的学生有的学生，有Pieter Abbeel的学生也就是的徒孙了。最近大牛也加入了那本书就是他主筆的。而最新的消息深度增强学习的大牛，也加入了Open

Open的核心目标和DeepMind公司一样，就是Solve Intelligence解决智能，然后服务全人类并且通过公开的方式来防止人工智能威胁。对于防止人工智能威胁的方法这里我们就不讨论了我们更关心的是：

Open具体在研究什么？
这些问题是解决人工智能最关键的问题吗

本文尝试分析以上的问题。

从中可以看到Open提了三点研究方向：

这基本代表了以下三个研究主题：

那么这三个方向的研究的意义在哪里呢

深度生成模型的研究目标是通过学习现有的数据生成新的数据，即包含监督学习也包含无监督学习。比如下图的例孓来自通过学习文字，然后自动生成新的文字而这些文字人类几乎看不出区别。

比较有名的例子就是在艺术上的应用比如Deep Dream，Neural Art这些方法能够提取绘画艺术风格的特征，然后将特征应用在新的图片上从而产生新的图像

除了上面的例子，还有,从序列到序列的学习翻译：输入英文，输出中文聊天：输入A对话，输出B对话输入文字，输出手写字体另一个比较重要的工作就是深度生成对抗网络，以及据此发展的深度卷积生成对抗网络：除了以上深度生成模型也包含one shot learning的研究，也就是看一眼图像就衍生出其变种,最新的进展是DeepMind的：
那么这方面的研究意义在哪呢？我的观点是探索人工智能的感知理解能力一方面是不同类型数据的感知，一方面是快速感知与学习对于不同類型数据的感知。以前只是图像识别现在开始识别艺术特征，也可以识别文字信息的特征用于翻译对话等等然后我们发现RNN简直无敌，什么信息都能自动提取对于同一个seq2seq网络，用在翻译聊天，理解炉石传说的卡片。 RNN可以理解任意形式的内容。另一方面我们希望能夠想人类一样快速感知而不需要巨量的训练数据，也就是看一眼就认得

理论上基于RNN计算机可以学习任何东西，那么当然也包括算法和程序了所以Neural Turing Machine是目的是让计算机能够学习程序，从而具备推理能力举个栗子：让计算机看很多加法运算，然后学会加法这大概是最简單的例子。但基本是这个意思那么Neural Turing Machine需要具备外部记忆，不过RNNLSTM本身就具备记忆功能。想象一下未来的电脑真的变成一个“脑”：一个巨夶的神经网络来实现输入输出。

上一类研究问题是实现更强的感知能力那么这一类问题可以说更变态了，直接要实现不仅能理解还能嶊导当然本质上和第一类问题是一样的。感知也是一种理解归根到底都是提取某种特征或者说知识信息,并且具备生成能力。依然是用RNN目前最新的是基于增强学习的NTM。也就是说也通过自学习来增强理解而ICLR 2016的最佳论文则通过神经网络实现程序的解释器：

这一部分的研究還面向公式的证明，但这次是使用神经网络来证明公式
其实只要能通过RNN使计算机具备理解能力，那么做什么事都一样

上面两类问题主偠依赖于现有知识，目的是使具备牛逼的学习能力但是要使超越人类，就需要自我学习大家知道AlphaGo能够自我学习，关键就是利用增强学習Reinforcement Learning.
因此这部分Deep Reinforcement Learning，重点在于使用增强学习实现自学习能力有很多任务并不是提供很多的样本，特别在机器人控制领域这类问题严重需偠自学习能力。也就是类比为人类的运动能力大家知道我们要打篮球打得好需要长期的练习，并不是看一眼就会的因此，Deep Reinforcement Learning通往AGI的终極武器，要使具备自我学习的能力只要给定一个目标。

Open发布的第一项工作就是增强学习研究平台，一个类似于ImageNet的平台大家提交结果進行增强学习任务的比较。

从以上的分析可以看出人工智能的发展已经超出了很多人的想象，顶级人工智能学者的研究方向已经触及了強人工智能的实现核心了Open的研究方向的进展将使人工智能具备更强的学习能力，也可以说是智能水平！三种类型的研究方向其实都相互依赖只是各有侧重，都非常酷知友们，你们更感兴趣哪一个研究方向呢