Google 的神经网络 图像分割生成图像 是怎么做到的

Facebook和Google的神经网络王国:真实与虚幻交织|界面新闻 · JMedia&
Facebook的神经网络可以生成看似非常真实的图像&
FACEBOOK和谷歌正在建造巨大的神经网络-这些人造大脑可以马上识别人脸,汽车,建筑和数码照片里面的其他物体,但它们能做的还不止这些。
他们可以识别口语,将一种语言翻译成另一种;它们还能识别广告,或教机器人把螺钉帽放到瓶子里。如果你把这些大脑完全颠倒,你不仅可以教他们识别图像,还可以以相当有趣(但有时令人不安)的方式描绘图像。
Facebook曾透露,他们正在训练其神经网络自动描绘含有飞机、汽车、和动物等物体的小图像,有大概40%的机率,这些图像可以让我们以为它们是真实的。&这个模型可以区分你会用愿意用手机拍下来的图像和其他不自然的图像-比如你的电视上的白色雪花,或某种抽象艺术图像,&Facebook的人工智能研究员Fergus说。&它理解图像组成的结构&(见上图)。
与此同时,谷歌的研究员已经把事情推到了另一个极端-他们使用神经网络将真实的照片变成虚幻但有趣的图像。他们训练机器在照片中寻找常见的模式,加强这些模式,然后用相同的图像重复这个过程。&这将创建一个反馈循环:如果一个云看起来有点像一只鸟,我们的神经网络会让它看起来更像一只鸟,&谷歌在一篇博客文章中解释这个项目。&而当被修改的图像再次通过网络,网络能更确切地识别出图像中的&鸟&,到最后,一幅鸟的图像就像凭空地出现了。&这个过程的结果是一种机器生成的抽象艺术(见下文)。
谷歌的神经网络可以在地平线上看到塔的粗略轮廓,然后增强轮廓线条,直到出现完整的图像
在某种程度上,这些只是卖弄的花招-特别是谷歌的引起幻觉重现的反馈回路,而且值得注意的是,Facebook的假图片只有64*64像素。但在另一种程度上,这些项目可以用于优化神经网络,让它们接近类似于人类。一家叫做Dextro的计算机视觉公司的首席执行官David Luan说:&这项工作有助于更好地形象化了我们的网络是怎么学习的。&
这些成果也有点令人不安。不仅仅是因为谷歌的图像生成像是服用了过量的致幻剂,像鸟和骆驼,或蜗牛和猪(见下文)的杂交育种,更有甚者,它们让我们看到了一个机器能用一种我们不能意识到的方式控制我们的所观所听的世界-一个真实与虚幻交织在一起的世界。
再次被欺骗
Fergus和Facebook的其他两名研究人员在学术文档库arXiv.org发表论文,介绍图像生成模型-他们和与纽约大学库朗数学科学研究所的博士生一起完成的成果。该系统使用了两个神经网络,让它们互相竞争。一个网络被用于识别自然图像,另一个尽可能地去欺骗第一个。
Yann LeCun-Facebook人工智能实验室的负责人,称这种为对抗训练。&它们互相比赛,&他在谈论这两个网络时说道,&一个试图欺骗另一个,另一个在尽力不被欺骗。&结果就是一个系统产出了十分逼真的图像。
LeCun和Fergus认为,&这个成果可以用于将已经退化的图片还原成真实的图片。&你可以把一个图像恢复成自然图像,&Fergus说。但他们认为,更重要的是,系统可以向&&无监督的机器学习&迈一步,换句话说,这个成果可以帮助机器在没有人类研究者提供明确的指导的前提下学习。
最终,LeCun说,只要有一组使用&没有标记的&示例图像,你就可以用这个模型训练图像识别系统&这意味着人类不需要一幅幅的浏览训练用的图像,辨别出图像里有什么并用文字加以说明。&机器可以在不知道图像内容的前提下学习图像的结构&他说。
Luan指出当前系统仍然需要一些监督。但他称Facebook的论文为&优雅的工作&,他相信,它可以像谷歌正在做的工作一样,帮助我们理解神经网络的行为。
Facebook和Google创造的神经网络由许多层的神经元组成,他们每一个都和其他神经元协同工作。虽然这些神经元执行某些任务非常好,我们不太明白背后的原因是什么。&研究神经网络的挑战之一是理解每一层在发生什么&,谷歌在其博客上说(他们拒绝进一步讨论其图像生成工作)。
谷歌解释道,通过将神经网络颠倒过来和教它们生成图像,他们可以更好地了解神经网络的运作方式。谷歌要求其网络放大它在图像内发现的东西。有时候,他们只是放大一个形状的边缘。其他时候,他们放大更复杂的东西,比如在地平线的一座塔的轮廓,在树上的一座建筑,或随机的噪声(见上图)。但在每种情况下,研究人员都可以更好地了解这个网络正在看到的是什么。
&这种技术给我们提供了一种定性的感觉,帮助我们理解神经网络的每一层抽象在它理解图像的过程中扮演什么角色&,谷歌表示。它帮助研究人员&形象化神经网络是如何能够执行困难的分类任务,优化网络体系结构和检查这个网络在训练期间学会了什么。&
另外,像Facebook的工作那样,这个成果有点酷,有点奇怪,也有点可怕。貌似,计算机越能好的识别图像,对我们来说就越不利。
PS:文章翻译自《Facebook&s New AI Can Paint, But Google&s Knows How to Party》,首发于雷锋网,转载请注明。
更多专业报道,请
0相关文章您至少需输入5个字评论()502 Bad Gateway
502 Bad Gateway凤凰号出品
Google最新AI成果:用神经网络作画
抽象的视觉传达是人们彼此传达观点的关键部分。就像小孩子能够用少量笔画就能描绘物体的能力。这些简单的绘画可能略显幼稚,但却能表达现实,告诉我们一些有关人类如何表示和构建他们周围世界的图像的信息。而Google最近正在研究一个新实验,让人工智能帮你画画,具体地说,是帮助你更快更准确地画画。该软件称为Sketch-RNN,是一个简单易用的网络应用程序。谷歌的想法很简单:先选择一个已经存在的对象,开始绘制,软件会尝试找到自动画好它的最佳方法。尽管目前已经在图像生成建模方面做了大量工作(目前的主要手段是利用神经网络),但是大部分工作关注的是将光栅图像表示为二维像素网格。尽管这些模型能够生成逼真的图像,但是由于二维像素网格的高维度,这就成了生成连续结构图像的主要挑战。例如,这些模型有时候能够产生拥有三只或更多只眼睛的猫的有趣图像,或者产生具有多个头的狗的图像。在这项工作中,研究了一个更低维度的基于矢量的表示,这也受益于人类绘画的灵感。模型sketch-rnn基于seq2seq自动编码框架。它包含了变分推理和将超网络(hypernetworks)用作递归神经网络单元。seq2seq自动编码框架的目标是训练一个将输入序列编码为浮点数向量的神经网络,这个向量称为latent vector,并使用解码器从latent vector重构输出序列。Schematic of sketch-rnn.图模型中故意向latent vector添加了噪声。通过将噪声引入到编码器和解码器之间的通信通道中,该模型就不再能够准确地产生输入草图,而是必须捕获草图的本质作为噪声的latent vector。解码器利用这个latent vector生产了一个用于绘制新图的动作序列。在下图中,将几个猫的草图提供给编码器,然后使用解码器重构草图。Reconstructions from a model trained on catsketches.图重要的是,重构的猫的草图不是输入草图的副本,而是与输入具有相似特征的猫的新草图。为了证明这个模型不是简单地复制输入序列,而是实际上学到了一些关于人们绘画猫的方式的信息,可以尝试将非标准草图提供给编码器。当我们将一只三眼猫的草图提供给编码器时,这个模型生成了一个相似的两眼猫。为了表明模型不是简单地从从大量记忆猫草图中选择最接近的正常猫,所以试图输入一些完全不同的东西,比如牙刷草图。网络生成了一个类似猫的草图:长的胡须,这模仿了牙刷的特征和方向。这表明,该网络已经学到了将输入草图编码成一组抽象的猫概念,并嵌入到latent vector,基于此latent vector,网络还能够重构全新的草图。不相信?那我们利用模型重复了这一实验,利用一组猪草图来训练模型,最后得出了相似的结论。当提供一张具有八条腿的猪的草图时,最后模型生成了一个仅有四条腿的类似的猪。如果将一辆卡车草图喂给此模型,可能会得到一个类似卡车的猪。Reconstructions from a model trained on pigsketches.图为了研究这些latent vectors是如何将概念上的动物特征进行编码,在下图中,首先获得了两个latent vectors,它们是由两个不同的猪的草图中编码而来,这种情况下,一个猪头(绿色盒子)和一只全猪(橙色盒子)。想了解模型是如何学习表示猪的,一种表示的方法就是在不同的latent vectors之间进行插值,并且利用每个被插值的latent vectors来可视化每个草图。在下图中,对猪头的草图到猪的全图演化进行了可视化,这个过程展示了模型是如何组织猪草图的概念的。可以看到,latent vector控制鼻子的大小以及鼻子相对于头部的相对位置,也控制了身体和腿部在草图中的生成。在猪素描画上训练的模型生成的隐空间插值我们想知道如果我们的模型是否可以学习到很多动物的表示方法,如果可以的话,会是什么样的呢?在下图中,我们通过对一个猫头和一只整猪的隐向量之间进行插值,生成了一些素描。我们可以看到特征表示慢慢的从一个猫头,到带着尾巴的猫,到身体很胖的猫,然后最终变成一只整猪。就好像孩子在学习绘画一样,我们的模型学习如何通过将头,脚和尾巴添加到身体上来构造动物。我们可以看出,我们的模型也能画出猫头,与猪头完全不同。在猫和猪的素描画上训练的模型的隐空间插值这些插值样例表明,隐向量实际上对素描的概念特征进行了编码。但是我们能使用这些特征来增强其它没有这类特征的素描吗?例如,将一个身体加在猫头上?学习到的抽象概念之间的关系,使用隐向量计算进行探索实际上,我们发现对于在猫和猪素描上训练的模型可以进行素描画之间的类推。例如,我们可以从一个整猪的隐向量中减去一个编码的猪头的隐向量,来得到只表示身体的隐向量。将这个差值和一个表示猫头的隐向量相加,可以得到一只整猫。(猫头+身体=整猫)。这些绘画类推可以让我们发现模型是如何组织隐空间来对多种生成素描的不同概念进行表示的。创意应用这个工作除了科研部分,sketch-rnn的潜在创意应用也同样有趣。例如,甚至是在最简单的应用中,纸样设计师可以应用sketch-cnn来生成大量类似但都各不相同的服装或墙纸设计。我们对于生成矢量图模型的未来的各种可能性感到很兴奋。这些模型会让各种方向上的有趣的新创意应用成为可能。他们也可以作为工具来帮助我们提高对于自己的创造力思维过程的理解。Source:搜狐科技
本文来自凤凰号,仅代表凤凰号自媒体观点。
用微信扫描二维码
分享至好友
用微信扫描二维码
分享至朋友圈
凤凰争鸣微信号
来点暖心的!扫这里
大数据时代杂志社制造幻境:谷歌图像识别神经网络
6月21日,谷歌的图像识别神经网络不但可以识别图像,而且可以制造出人意料的奇幻景象。
机器有什么梦想?谷歌新发布的一些机器识别图像为我们给出了一个可能的答案:将不同的景物合成一种奇幻风景。
这些照片是由谷歌的图像识别神经网络产生的,该网络已被&教育&,以识别建筑物、动物和物体等图像。
研究人员将图片输入图像识别神经网络,并让它识别该图片中的一个特征,并修改图片以强调这项特征。修改后的图象然后被反馈到神经网络,并让神经网络再次识别其他特征并强调它们。最终,这幅图片被修改得面目全非。
在一个低水平上,这种神经网络可以被用来检测图像的边界。在这种情况下,这些图像就像绘画作品,使用过Photoshop滤镜的人应该对此感到不陌生:
但是,如果神经网络被要求识别更复杂的图像,&&例如识别一头动物,它会产生令人不安的奇幻图景:
最终,这个软件可以对随机噪声进行识别,但生成的结果完全属于自身的想象:
如果你让一个用来识别建筑物的神经网络去识别一幅毫无特征的图像,它将产生这样的结果:
这些照片是惊人的,但他们不仅仅是用来展示的。神经网络具有机器学习的一个共同特征:它不是向计算机输入程序以让它能够识别特定的图像,而是向它输入许多图像,并让它自己整合这些图像的关键特征。
但是,这可能会导致软件更加出人意料。我们很难知道软件正在审查哪些特征,以及它忽略了哪些特征。例如,研究人员要求神经网络在一幅随机噪声图像中识别哑铃,发现它认为哑铃一定是有手臂握住的:
解决方案可能是向它输入更多放在地上的哑铃图像,直到它明白手臂并非哑铃的内在组成部分。
&神经网络面临的一个挑战是逐层识别。例如,第一层可以识别边缘或拐角。中间层识别基本特征,以寻求整体的形状或部件,例如门或叶子的形状。最后几层将这些组合成一个完整的图像,在识别非常复杂的事情时,&&如整个建筑物或树木,这些神经元很活跃。&谷歌的工程师解释说。
图像识别软件已经成为消费产品,如谷歌新的照片服务Google Photos。Google Photos可以根据文本搜索图像:例如,你输入&狗&,它将提供谷歌找到的所有包含狗的照片(偶尔也会出现其他四足哺乳动物的照片)。
所以,未来机器人的梦想将不仅仅是制造电子绵羊,它们的梦想是制造出更加令人吃惊的梦幻奇景。
看过本文的人还看过
最新图文推荐
腾讯科技频道致力于提供最快捷、最鲜活的IT产业资讯,第一时间报道行业重大事件,重点解读产业背后人物故事,全面关注新闻热点话题。以独特的视角、犀利的报道风格,揭示IT产业走向。
大家感兴趣的内容
网友热评的文章

我要回帖

更多关于 神经网络 图像分割 的文章

 

随机推荐