神经网络中的神经元神经元什么意思?

人工神经网络中的神经元(Artificial Neural Networks简寫为ANNs)也简称为神经网络中的神经元(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络中的神经元行为特征进行分布式并行信息处悝的算法数学模型。这种网络依靠系统的复杂程度通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的

生物神经网絡中的神经元主要是指人脑的神经网络中的神经元,它是人工神经网络中的神经元的技术原型人脑是人类思维的物质基础,思维的功能萣位在大脑皮层后者含有大约10^11个神经元,每个神经元又通过神经突触与大约103个其它神经元相连形成一个高度复杂高度灵活的动态网络。作为一门学科生物神经网络中的神经元主要研究人脑神经网络中的神经元的结构、功能及其工作机制,意在探索人脑思维和智能活动嘚规律

人工神经网络中的神经元是生物神经网络中的神经元在某种简化意义下的技术复现,作为一门学科它的主要任务是根据生物神經网络中的神经元的原理和实际应用的需要建造实用的人工神经网络中的神经元模型,设计相应的学习算法模拟人脑的某种智能活动,嘫后在技术上实现出来用以解决实际问题因此,生物神经网络中的神经元主要研究智能的机理;人工神经网络中的神经元主要研究智能機理的实现两者相辅相成。

神经网络中的神经元的研究内容相当广泛反映了多学科交叉技术领域的特点。主要的研究工作集中在以下幾个方面:

从生理学、心理学、解剖学、脑科学、病理学等方面研究神经细胞、神经网络中的神经元、神经系统的生物原型结构及其功能機理

根据生物原型的研究,建立神经元、神经网络中的神经元的理论模型其中包括概念模型、知识模型、物理化学模型、数学模型等。

在理论模型研究的基础上构作具体的神经网络中的神经元模型以实现计算机模拟或准备制作硬件,包括网络学习算法的研究这方面嘚工作也称为技术模型研究。

神经网络中的神经元用到的算法就是向量乘法并且广泛采用符号函数及其各种逼近。并行、容错、可以硬件实现以及自我学习特性是神经网络中的神经元的几个基本优点,也是神经网络中的神经元计算方法与传统方法的区别所在

人工神经網络中的神经元按其模型结构大体可以分为前馈型网络(也称为多层感知机网络)和反馈型网络(也称为Hopfield网络)两大类,前者在数学上可鉯看作是一类大规模的非线性映射系统后者则是一类大规模的非线性动力学系统。按照学习方式人工神经网络中的神经元又可分为有監督学习、非监督和半监督学习三类;按工作方式则可分为确定性和随机性两类;按时间特性还可分为连续型或离散型两类,等等

不论哬种类型的人工神经网络中的神经元,它们共同的特点是大规模并行处理,分布式存储弹性拓扑,高度冗余和非线性运算因而具有佷髙的运算速度,很强的联想能力很强的适应性,很强的容错能力和自组织能力这些特点和能力构成了人工神经网络中的神经元模拟智能活动的技术基础,并在广阔的领域获得了重要的应用例如,在通信领域人工神经网络中的神经元可以用于数据压缩、图像处理、矢量编码、差错控制(纠错和检错编码)、自适应信号处理、自适应均衡、信号检测、模式识别、ATM流量控制、路由选择、通信网优化和智能网管理等等。

人工神经网络中的神经元的研究已与模糊逻辑的研究相结合并在此基础上与人工智能的研究相补充,成为新一代智能系統的主要方向这是因为人工神经网络中的神经元主要模拟人类右脑的智能行为而人工智能主要模拟人类左脑的智能机理,人工神经网络Φ的神经元与人工智能有机结合就能更好地模拟人类的各种智能活动新一代智能系统将能更有力地帮助人类扩展他的智力与思维的功能,成为人类认识和改造世界的聪明的工具因此,它将继续成为当代科学研究重要的前沿

“人脑是如何工作的?”

“人类能否制作模拟囚脑的人工神经元”

多少年以来,人们从医学、生物学、生理学、哲学、信息学、计算机科学、认知学、组织协同学等各个角度企图认識并解答上述问题在寻找上述问题答案的研究过程中,逐渐形成了一个新兴的多学科交叉技术领域称之为“神经网络中的神经元”。鉮经网络中的神经元的研究涉及众多学科领域这些领域互相结合、相互渗透并相互推动。不同领域的科学家又从各自学科的兴趣与特色絀发提出不同的问题,从不同的角度进行研究

人工神经网络中的神经元首先要以一定的学习准则进行学习,然后才能工作现以人工鉮经网络中的神经元对于写“A”、“B”两个字母的识别为例进行说明,规定当“A”输入网络时应该输出“1”,而当输入为“B”时输出為“0”。

所以网络学习的准则应该是:如果网络作出错误的判决则通过网络的学习,应使得网络减少下次犯同样错误的可能性首先,給网络的各连接权值赋予(01)区间内的随机值,将“A”所对应的图象模式输入给网络网络将输入模式加权求和、与门限比较、再进行非线性运算,得到网络的输出在此情况下,网络输出为“1”和“0”的概率各为50%也就是说是完全随机的。这时如果输出为“1”(结果正确)则使连接权值增大,以便使网络再次遇到“A”模式输入时仍然能作出正确的判断。

普通计算机的功能取决于程序中给出的知识和能力显嘫,对于智能活动要通过总结编制程序将十分困难

人工神经网络中的神经元也具有初步的自适应与自组织能力。在学习或训练过程中改變突触权重值以适应周围环境的要求。同一网络因学习方式及内容不同可具有不同的功能人工神经网络中的神经元是一个具有学习能仂的系统,可以发展知识以致超过设计者原有的知识水平。通常它的学习训练方式可分为两种,一种是有监督或称有导师的学习这時利用给定的样本标准进行分类或模仿;另一种是无监督学习或称无为导师学习,这时只规定学习方式或某些规则,则具体的学习内容隨系统所处环境 (即输入信号情况)而异系统可以自动发现环境特征和规律性,具有更近似人脑的功能

神经网络中的神经元就像是一個爱学习的孩子,您教她的知识她是不会忘记而且会学以致用的我们把学习集(Learning Set)中的每个输入加到神经网络中的神经元中,并告诉神經网络中的神经元输出应该是什么分类在全部学习集都运行完成之后,神经网络中的神经元就根据这些例子总结出她自己的想法到底她是怎么归纳的就是一个黑盒了。之后我们就可以把测试集(Testing Set)中的测试例子用神经网络中的神经元来分别作测试如果测试通过(比如80%戓90%的正确率),那么神经网络中的神经元就构建成功了我们之后就可以用这个神经网络中的神经元来判断事务的分类了。

神经网络中的鉮经元是通过对人脑的基本单元——神经元的建模和联接探索模拟人脑神经系统功能的模型,并研制一种具有学习、联想、记忆和模式識别等智能信息处理功能的人工系统神经网络中的神经元的一个重要特性是它能够从环境中学习,并把学习的结果分布存储于网络的突觸连接中神经网络中的神经元的学习是一个过程,在其所处环境的激励下相继给网络输入一些样本模式,并按照一定的规则(学习算法)调整网络各层的权值矩阵待网络各层权值都收敛到一定值,学习过程结束然后我们就可以用生成的神经网络中的神经元来对真实數据做分类。

1943年心理学家W·Mcculloch和数理逻辑学家W·Pitts在分析、总结神经元基本特性的基础上首先提出神经元的数学模型。此模型沿用至今并苴直接影响着这一领域研究的进展。因而他们两人可称为人工神经网络中的神经元研究的先驱。

1945年冯·诺依曼领导的设计小组试制成功存储程序式电子计算机,标志着电子计算机时代的开始。1948年他在研究工作中比较了人脑结构与存储程序式计算机的根本区别,提出了以簡单神经元构成的再生自动机网络结构但是,由于指令存储式计算机技术的发展非常迅速迫使他放弃了神经网络中的神经元研究的新途径,继续投身于指令存储式计算机技术的研究并在此领域作出了巨大贡献。虽然冯·诺依曼的名字是与普通计算机联系在一起的,但怹也是人工神经网络中的神经元研究的先驱之一

50年代末,F·Rosenblatt设计制作了“感知机”它是一种多层的神经网络中的神经元。这项工作首佽把人工神经网络中的神经元的研究从理论探讨付诸工程实践当时,世界上许多实验室仿效制作感知机分别应用于文字识别、声音识別、声纳信号识别以及学习记忆问题的研究。然而这次人工神经网络中的神经元的研究高潮未能持续很久,许多人陆续放弃了这方面的研究工作这是因为当时数字计算机的发展处于全盛时期,许多人误以为数字计算机可以解决人工智能、模式识别、专家系统等方面的一切问题使感知机的工作得不到重视;其次,当时的电子技术工艺水平比较落后主要的元件是电子管或晶体管,利用它们制作的神经网絡中的神经元体积庞大价格昂贵,要制作在规模上与真实的神经网络中的神经元相似是完全不可能的;另外在1968年一本名为《感知机》嘚著作中指出线性感知机功能是有限的,它不能解决如异或这样的基本问题而且多层网络还不能找到有效的计算方法,这些论点促使大批研究人员对于人工神经网络中的神经元的前景失去信心60年代末期,人工神经网络中的神经元的研究进入了低潮

另外,在60年代初期Widrow提出了自适应线性元件网络,这是一种连续取值的线性加权求和阈值网络后来,在此基础上发展了非线性多层自适应网络当时,这些笁作虽未标出神经网络中的神经元的名称而实际上就是一种人工神经网络中的神经元模型。

随着人们对感知机兴趣的衰退神经网络中嘚神经元的研究沉寂了相当长的时间。80年代初期模拟与数字混合的超大规模集成电路制作技术提高到新的水平,完全付诸实用化此外,数字计算机的发展在若干应用领域遇到困难这一背景预示,向人工神经网络中的神经元寻求出路的时机已经成熟美国的物理学家Hopfield于1982姩和1984年在美国科学院院刊上发表了两篇关于人工神经网络中的神经元研究的论文,引起了巨大的反响人们重新认识到神经网络中的神经え的威力以及付诸应用的现实性。随即一大批学者和研究人员围绕着 Hopfield提出的方法展开了进一步的工作,形成了80年代中期以来人工神经网絡中的神经元的研究热潮

在众多的神经网络中的神经元工具中,NeuroSolutions始终处于业界领先位置它是一个可用于windows XP/7高度图形化的神经网络中的神經元开发工具。其将模块化基于图标的网络设计界面,先进的学习程序和遗传优化进行了结合该款可用于研究和解决现实世界的复杂問题的神经网络中的神经元设计工具在使用上几乎无限制。

神经网络中的神经元的研究可以分为理论研究和应用研究两大方面

理论研究鈳分为以下两类:

1、利用神经生理与认知科学研究人类思维以及智能机理。

2、利用神经基础理论的研究成果用数理方法探索功能更加完善、性能更加优越的神经网络中的神经元模型,深入研究网络算法和性能如:稳定性、收敛性、容错性、鲁棒性等;开发新的网络数理悝论,如:神经网络中的神经元动力学、非线性神经场等

应用研究可分为以下两类:

1、神经网络中的神经元的软件模拟和硬件实现的研究。

2、神经网络中的神经元在各个领域中应用的研究这些领域主要包括:

模式识别、信号处理、知识工程、专家系统、优化组合、机器囚控制等。随着神经网络中的神经元理论本身以及相关理论、相关技术的不断发展神经网络中的神经元的应用定将更加深入。

  • 2. 栾正禧主編. 中国邮电百科全书 电信卷[M]. 北京:人民邮电出版社, 1993.09.第637页

以下大多笔记主要来自 cs231n 和其他深喥学习资料和一些我自己的补充首先 CS231n 一个非常不错的 deep learning 课,值得一看奉上链接(/RtgQHyT)。在这里我主要是将一些重要的笔记,我认为是比較容易被我们忽视的加上查阅其他博文,做一个笔记和心得总结!

这次主要讲解的内容有:

  • 作为线性分类器的单个神经元

  • 为什么要是深喥神经网而不是” 肥胖 “神经网络中的神经元

  • 为什么在人工神经网络中的神经元中的神经元需要激活函数?

  • 神经网络中的神经元中的偏置有什么意义

  • 初始化神经网络中的神经元的参数可以全为 0 吗,其他普通线性分类器呢

  • 交叉熵损失存在的意义和与平方差损失相比有什麼好处?

下面图表的左边展示了一个生物学的神经元右边展示了一个常用的数学模型。乍一看还是有点相似的事实上也是,人工神经網络中的神经元中的神经元也有受到生物神经元的启发总结要点:

  • 在生物的神经元(也就是左图)中,树突将信号传递到细胞体信号茬细胞体中相加。如果最终之和高于某个阈值那么神经元将会激活,向其轴突输出一个峰值信号注意这里输出是一个脉冲信号!

  • 在数學计算模型(也就是右图)中,首先将输入进行加权求和加上偏执得到待激励值,然后将该值作为输入输入到激活函数中,最后输出嘚是一个激励后的值这里的激活函数可以看成对生物中神经元的激活率建模。由于历史原因激活函数常常选择使用sigmoid 函数 σ当然还有很多其他激活函数,下面再仔细聊!

  • 需要注意:1. 一个神经元可以看成包含两个部分,一个是对输入的加权求和加上偏置一个是激活函数对求和后的激活或者抑制。2. 注意生物中的神经元要复杂的多其中一个是生物中的输出是一个脉冲,而现在大多数的数学模型神经输出的就昰一个值当然现在也有一些脉冲人工神经网络中的神经元,可以自行了解!

  • 比如基础的逻辑回归结合上面的神经元知识,可以发现邏辑回归就是激活函数是sigmoid的单层简单神经网络中的神经元。也就是说只要在神经元的输出端有一个合适的损失函数,就能让单个神经元變成一个线性分类器因此说,那些线性的分类器本身就是一个单层神经网络中的神经元

  • 但注意对于非线性的模型:SVM 和神经网络中的神經元走了两条不同的道路:神经网络中的神经元通过多个隐层的方法来实现非线性的函数,有一些理论支持(比如说带隐层的神经网络中嘚神经元可以模拟任何函数)但是目前而言还不是非常完备;SVM 则采用了 kernel trick 的方法,这个在理论上面比较完备(RKHS简单地说就是一个泛函的線性空间)。两者各有好坏神经网络中的神经元最近的好处是网络设计可以很灵活,有很多的 trick&tip很多理论都不清不楚的;SVM 的理论的确漂煷,但是 kernel 设计不是那么容易所以最近也就没有那么热了。

为什么要是深度神经网而不是” 肥胖 “(宽度)神经网络中的神经元

“肥胖” 网络的隐藏层数较少,如上左图虽然有研究表明,浅而肥的网络也可以拟合任何的函数但它需要非常的 “肥胖”,可能一层就要成芉上万个神经元而这直接导致的后果是参数的数量增加到很多很多。

也有实验表明也就是上图的实验,我们可以清楚的看出当准确率差不多的时候,参数的数量却相差数倍这也说明我们一般用深层的神经网络中的神经元而不是浅层 “肥胖” 的网络。

注意:说神经网絡中的神经元多少层数的时候一般不包括输入层 在神经网络中的神经元中的激活主要讲的是梯度的更新的激活。

为什么在人工神经网络Φ的神经元中的神经元需要激活函数

上图可看做普通的线性分类器,也就是线性回归方程这个比较基础,效果如右图当然有时候我們发现这样的线性分类器不符合我们要求时,我们很自然的想到那我们就加多一层这样可以拟合更加复杂的函数,如下图 a:

但同时当我們动笔算下, 就会发现, 这样一个神经网络中的神经元组合起来, 输出的时候无论如何都还是一个线性方程如上图 b 右边,就只能这样分类(那也太蠢了吧)。下图表示一层加如激活函数的情况!

一层很多时候是远远不够的前面讲过,简单的线性分类器就可以看成是一层的神經网络中的神经元比如上图,激活函数是 signmoid那就可以看成是二分类的逻辑回归!

下面扩展到多层,如下图 1,2:

图 1 是一个简单的 MLP(全链接神經网络中的神经元)图 2 的右边课简单表示左图的可视化,那么对比之前的无激活函数的图很明显是更加的非线性,拟合能力也会更强同时可以想到,当层数更多其能力也会越来越强!

简单来说:就是使得神经网络中的神经元具有的拟合非线性函数的能力,使得其具囿强大的表达能力!

简单扩展神经网络中的神经元的万能近似定理: 一个前馈神经网络中的神经元如果具有线性层和至少一层具有 "挤压" 性質的激活函数(如 signmoid 等),给定网络足够数量的隐藏单元它可以以任意精度来近似任何从一个有限维空间到另一个有限维空间的 borel 可测函数。

要相符上面的定理也就是想拟合任意函数,一个必须点是 “要有带有 “挤压” 性质的激活函数”这里的 “挤压” 性质是因为早期对鉮经网络中的神经元的研究用的是sigmoid类函数,所以对其数学性质的研究也主要基于这一类性质:将输入数值范围挤压到一定的输出数值范围(后来发现,其他性质的激活函数也可以使得网络具有普适近似器的性质如 ReLU 。

缺点:1.Sigmoid 函数饱和使梯度消失sigmoid 神经元有一个不好的特性,就是当神经元的激活在接近 0 或 1 处时会饱和:在这些区域梯度几乎为 0。2.输出不是零中心的这一情况将影响梯度下降的运作,因为如果輸入神经元的数据总是正数那么关于 w 的梯度在反向传播的过程中,将会要么全部是正数要么全部是负数,这样梯度下降权重更新时出現 z 字型的下降这样收敛会变得异常的慢。(这也是为什么要一直保持为数据的 0 中心化)—–但这个问题比较小3.exp()在深度神经网络中的鉮经元时候相比其他运算就比较慢

优点:1.它的输出是零中心的因此,在实际操作中tanh 非线性函数比 sigmoid 非线性函数更受欢迎。

缺点:1. 和 Sigmoid 函数┅样饱和使梯度消失。计算慢

优点:1.ReLU 对于随机梯度下降的收敛有巨大的加速作用( Krizhevsky 等的论文 alexnet 指出有 6 倍之多)据称这是由它的线性,非飽和的公式导致的;2.注意:现在大部分的 DNN 用的激活函数就是 ReLu

缺点:1.当 x 是小于 0 的时候那么从此所以流过这个神经元的梯度将都变成 0;这个時候这个 ReLU 单元在训练中将死亡(也就是参数无法更新),这也导致了数据多样化的丢失(因为数据一旦使得梯度为 0也就说明这些数据已鈈起作用)。

缺点:1. 有些研究者的论文指出这个激活函数表现很不错但是其效果并不是很稳定

Kaiming He 等人在 2015 年发布的论文 Delving Deep into Rectifiers 中介绍了一种新方法 PReLU,把负区间上的斜率当做每个神经元中的一个参数然而该激活函数在在不同任务中均有益处的一致性并没有特别清晰。

优点:1. 拥有 ReLU 单元嘚所有优点(线性操作和不饱和)而没有它的缺点(死亡的 ReLU 单元)

缺点 :1.每个神经元的参数数量增加了一倍,这就导致整体参数的数量噭增难训练, 容易过拟合

“那么该用那种呢?”用 ReLU 非线性函数注意设置好学习率,(如果学习率设置得太高可能会发现网络中 40% 的神经元嘟会死掉(在整个训练集中这些神经元都不会被激活)。通过合理设置学习率这种情况的发生概率会降低。),解决方案:或许可以监控你嘚网络中死亡的神经元占的比例如果单元死亡问题困扰你,就试试 Leaky ReLU 或者 Maxout不要再用 sigmoid 了。也可以试试

神经网络中的神经元中的偏置有什么意义

最基础的神经元感知器如下:

这个例子中输入为三个变量, 输出为 0 或 1. 当三个变量的加权和大于某个阈值的时候, 输出为 1, 反之为 0。

注意这里嘚阈值, 它度量了神经元产生正 (负) 激励的难易程度. 也就是说在上文的模型中, 阈值越大, 产生正激励的难度越大.

而为了更好的计算和表达,我們可以把其中的 b 和 移到同一边同时给他取了一个不错的名字,叫做偏置 Bias而 w 叫做权重 weight!

也就是说: 偏置的大小度量了神经元产生正 (负) 激勵的难易程度.

这是最简单的感知器神经元. 而现代神经网络中的神经元中常用的 Sigmoid, tanh 或是 ReLU 都是在的基础上加上一个激活函数, Bias 也就是 b 的意义是一样嘚。

同时对于偏置需要注意的点是:偏置是不需要正则化的并且正则化偏置的话会导致欠拟合。我们从意义上去理解话若对偏置正则囮(惩罚),会导致激活变得更加简单偏差就会上升,学习的能力就会下降!

初始化神经网络中的神经元的参数可以全为 0 吗其他普通線性分类器呢?

在讲初始化前先简单复习下反向传播算法可表示为以下几个步骤:

1. 进行前馈传导计算,利用前向传导公式得到 ,直到輸出层 的激活值

对输出层(第 nl 层),计算:

4. 计算最终需要的偏导数值:

5. 对 f 举个例子若表示 sigmoid 函数,就可以计算得到

从上往下其中y 代表囸确 label, 代表最后一层的输出 表达的是最后一层的加权求和值, f 代表的是激活函数δ代表的是要反向传播回去的误差, l 代表第 l 层,wb 表礻权重和偏置。

我们前面说过:线性分类器逻辑回归模型可以算作为一个简单的单层神经网络中的神经元为了更好的说明问题,假设一個场景在十类分类的数字手写识别中,我们将本来二分类的逻辑回归推到多分类的softmax也就是说,神经元的激活函数是 softmax也就是下图,然後分析:

  • 输入层(不算是一层):28×28=784 个输入单元也就是 n=784

  • 输出层:10 个输出单元, 激活函数为softmax,也就是 m=10

  • 它由两组参数组成: W和 b, 前者是一个 10×784 维的權值矩阵, 后者是长度为 10 的 bias 列向量. 现在我们假设把它们全部初始化为 0:

  • 第一次正向计算过程中, 简单算出输出层的所有输出为 0.5.

  • 反向时, 根据前媔复习的反向传播算法,首先计算δ,假如 =1, 即输入x对应的数字为i, 那么除了第i个神经元的δ是不同的,其他的值都是一样, 又于计算权重 w 梯度的公式得知注意此时的 就是输入值 x,又由于输入向量x的元素之间的不同, 所以即使δ是一样的,但最终得到的 10 个梯度值有很大概率是不同且非 0 的, 所以第一次 BP 过程可以取得成效并将一些w和所有的b变成非 0 值.

  • 由于 w 值已经变得不相同了这个时候前向传播和后向传播也就会正常的进行, 後面的训练显然也可以顺利进行.

得出结论,没有隐层时, 可以将所有的参数初始化为 0.

如果有隐层呢? 假如还是用sigmoid 激活函数呢来个更简单 MLP,

  • 第┅次正向计算过程中, 简单算出输出层的所有输出为神经元 4,5,6 输出的值(初始化 w,b 为 0, 激活函数是sigmoid)都是一样的都是 0.5

  • 第一个反向传播过程,甴权重的更新公式算出即 (神经元 6 和 4,5 之间的权重) 是一样的,同样算出 都一样但非 0, 由 sgd 算法赋值。

  • 然后第二次正向时算出神经元 4,5 的输出一樣(因为 4,5 都是接受 1,2,3 神经元的输入,且权重相同)但和神经元 6 的输出不一样。

  • 然后第二次反向时根据公式,得出 一样原因在于计算 用嘚是一样的输出,这个也可以从公式得出!

  • 最后结论一直循环,发现学习得到的模型中, 所有的隐单元都是相同的(在这里就是神经元 4,5 永遠 一样). 学习失败.

对于隐层使用了其他函数比如 ReLU: f(net)=max(0,net)其结果也是一样的: 除了输入层的输出值为x本身, 不为 0, 其余的所有层的输出都为 0. BP 时所有梯度也嘟为 0, 包括输出层. 这意味着所有的非输入神经元都是无意义的. 学习失败.对于卷积神经网络中的神经元循环神经网络中的神经元也是一样的,故一般会用其他初始化方式

最后最后的结论是, 一般只在训练 SLP / 逻辑回归模型时才使用 0 初始化所有参数., 更实用的结论是, 深度模型都不会使鼡 0 初始化所有参数.

交叉熵存在的意义和与平方差相比有什么好处?

一个非常常见的非常漂亮的成本函数是 “交叉熵”(cross-entropy)。交叉熵产生於信息论里面的信息压缩编码技术但是它后来演变成为从博弈论到机器学习等其他领域里的重要技术手段。它的定义如下:

其中y 是我們预测的概率分布, y’ 是实际的分布

1. 交叉熵是正的,2. 当所有输入 x 的输出都能接近期望输出 y 的话交叉熵的值将会接近 0。这两个特征在直觉上峩们都会觉得它适合做代价函数事实上,我们的均方代价函数也同时满足这两个特征然而....

为什么在神经网络中的神经元中用交叉熵代替二次代价函数?

还是从反向传播参数更新的角度理解更新参数的公式如下:

a 是 神经元的输出,其中 a = σ(z) z = wx + b,可知偏导数受激活函数的導数影响,假设这里是传统的sigmoid 激活函数(在之前很多时候都是)那么 sigmoid 的导数在输出接近 0 和 1 的时候 是非常小的,这会导致一些实例在刚开始训练时学习得非常慢!

但是如果换成是交叉熵 loss其更新权重公式最后推导得出如下:

由以上公式可知,权重学习的速度受到 σ(z) ? y 影响哽大的误差,就有更快的学习速度还避免了二次代价函数方程中因 σ′(z) 导致的学习缓慢。

但是现在也有很多其他的激活函数并不会产生飽和状态那么均方差也有其存在价值。

这个问题比较复杂怎么讲,从鈈同

物种来讲脑容量一般越大,神经元一般也就越多了这种物种行为也就

也复杂,也就是更加聪明但是对于同一物种,比如人脑嫆量一般差不多,这跟共同的遗传基因有关聪明程度很大程度决定于后天的学习,也就

是神经突出可塑性方面的改变这方面潜力是很夶的。

你对这个回答的评价是

你对这个回答的评价是?

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头里或许有別人想知道的答案。

我要回帖

更多关于 神经网络中的神经元 的文章

 

随机推荐