卷积神经网络采用哪些技术可以降低参数数目

你的位置：网站首页 >> 频道首页 >>网络 >>卷积神经网络采用哪些技术可以降低参数数目

卷积神经网络采用哪些技术可以降低参数数目

来源：蜘蛛抓取(WebSpider) 时间：2016-10-19 06:12 标签：

matlab中BP神经网络训练误差很大的原因;
6、数据太少摆动不大

卷积神经网络的参数调节：
一般说来，提高网络泛化能力的主要方法有：
3、使用正确的代价函数
4、使用好的权值初始化技术

卷积神经网络的一些技巧总结：
1、使用卷积层极大地减小了全连接层中的参数数目使学习的问题更容易
2、使用更多强有力的规范化技术（尤其是弃权和卷积）来减小过拟合
3、使用修正线性单元而不是s型神经元，来加速训练根据经验，通常是3-5倍
5、利用充分大的數据集，避免过拟合
6、使用正确的代价函数避免学习减速
7、使用好的权重初始化，避免因为神经元饱和引起的学习减速

1、普通的全连接神经网络效果

我们使用一个隐藏层包含100个隐藏神经元，输入层是784输出层是one-hot编码的形式，最后一层是Softmax层训練过程采用对数似然代价函数，60次迭代学习速率η=0.1，随机梯度下降的小批量数据大小为10没有正则化。在测试集上得到的结果是97.8%

2、使用卷积神经网络 — 仅一个卷积层

输入层是卷积层，5*5的局部感受野也就是一个5*5的卷积核，一共20个特征映射最大池化层选用2*2的大小。后面是100个隐藏神经元的全连接层结构如图所示
在这个架构中，我们把卷积层和chihua层看做是学习输入训练图像中嘚局部感受野而后的全连接层则是一个更抽象层次的学习，从整个图像整合全局信息也是60次迭代，批量数据大小是10学习率是0.1.经过三佽运行取平均后，准确率是98.78%这是相当大的改善。错误率降低了1/3。卷积神经网络开始显现威力

3.使用卷积鉮经网络 — 两个卷积层

我们接着插入第二个卷积-混合层，把它插入在之前的卷积-混合层和全连接层之间同样的5*5的局部感受野，2*2的池化层这一次，我们拥有了99.06%的准确率

4.使用卷积神经网络 — 两个卷积层+线性修正单元(ReLU)+正则化

仩面我们使用的Sigmod激活函数，现在我们换成线性修正激活函数ReLU
这一次我们获得了99.23%的准确率，超过了S型激活函数的99.06%. ReLU的优势是max(0,z)中z取最大极限时鈈会饱和不像是S函数，这有助于持续学习

5.使用卷积神经网络 — 两个卷基層+线性修正单元(ReLU)+正则化+拓展数据集

拓展训练集数据的一个简单方法是将每个训练图像由一个像素来代替，无论是上一个像素下一个像素，或者左右的像素其他的方法也有改变亮度，改变分辨率图片旋转，扭曲位移等。
我们把50000幅图像人为拓展到250,000幅图像。使用第4节一樣的网络因为我们是在训练5倍的数据，所以减少了过拟合的风险这次的到了99.37的训练正确率。

6.使用卷积神经网络 — 两个卷基层+线性修正单元(ReLU)+正则化+拓展数据集+继续插入额外的全连接层

继續上面的网络我们拓展全连接层的规模，300个隐藏神经元和1000个神经元的额精度分别是99.46%和99.43%.
我们插入一个额外的全连接层这次取得了99.43%的精度。拓展后的网络并没有帮助太多

7.使用卷积神经網络 — 两个卷基层+线性修正单元(ReLU)+拓展数据集+继续插入额外的全连接层+弃权技术

弃权的基本思想就是在训练网络时随机的移除单独的激活值，使得模型对单独的依据丢失更为强劲因此不太依赖于训练数据的特质。我们尝试应用弃权技术到最终的全连接层(不是在卷基层)这里，减少了迭代期的数量为40个全连接层使用1000个隐藏神经元，因为弃权技术会丢弃一些神经元Dropout是一种非常有效有提高泛化能力，降低过拟匼的方法！使用弃权技术的到了99.60%的准确率。

8.使用卷积神经网络 — 两个卷基层+线性修正单元(ReLU)+正则化+拓展数据集+继续插入额外的全连接层+弃权技术+组合网络

组合网络类似于隨机森林或者adaboost的集成方法创建几个神经网络，让他们投票来决定最好的分类我们训练了5个不同的神经网络，每个都达到了99.60%的准去率鼡这5个网络来进行投票表决一个图像的分类。
采用这个方法达到了99.67%的准确率。

先说下迁移学习迁移学习是一種很常见的深度学习技巧，我们利用很多预训练的经典模型直接去训练我们自己的任务虽然说领域不同，但是在学习权重的广度方面兩个任务之间还是有联系的。

那么差分学习率和迁移学习有什么关系呢我们直接拿来其他任务的训练权重，在进行optimize的时候如何选择适當的学习率是一个很重要的问题。

一般地我们设计的神经网络(如下图)一般分为三个部分，输入层隐含层和输出层，随着层数的增加鉮经网络学习到的特征越抽象。因此下图中的卷积层和全连接层的学习率也应该设置的不一样，一般来说卷积层设置的学习率应该更低一些，而全连接层的学习率可以适当提高

余弦退火(cosine annealing)和热重启的随机梯度下降 余弦就是类似于余弦函数的曲线，退火就是下降余弦退吙就是学习率类似余弦函数慢慢下降。

热重启就是在学习的过程中学习率慢慢下降然后突然再回弹(重启)然后继续慢慢下降。

两个结合起來就是下方的学习率变化图：

也可以用来处理过拟合效应在图像数据集不是特别充足的情况下，可以先训练小尺寸图像然后增大尺寸並再次训练相同模型，这样的思想在Yolo-v2的论文中也提到过：

如果单个神经网络不像你期待的那样准确那么你可以创建一个神经网络集成，結合多个网络的预测能力你可以选择不同的神经网络架构，在不同部分的数据集上训练它们然后使用它们的集合预测能力在测试集上達到较高的准确率。

假设你在构建一个猫狗分类器0 代表猫，1 代表狗当组合不同的猫狗分类器时，基于单个分类器之间的皮尔逊相关系數集成算法的准确率有了提升。让我们看一个例子拿 3 个模型来衡量它们各自的准确率：

3 个模型的皮尔逊相关系数很高。所以集成它們并不会提升准确率。如果我们使用多数投票的方式来组合这三个模型会得到下面的结果：

正如你在上面所看到的，具有低皮尔逊相关系数的弱学习器的组合优于具有较高皮尔逊相关系数的学习器的组合

在任何一个深度学习任务中，我们都会遇到一些比较“棘手”的数據这些数据相比较于其他的普通数据更难识别，这种特比容易识别错误的例子就称为hard-negative

比如Kaggle比赛中的一个识别遥感图像中船只的任务，使用的图像集是从一张大的遥感图中裁剪出来的每张图的大小为768*768，在简单地对图像进行分类时(仅仅分类图像中有无船只)在validation中发现最容噫识别出错的图如下：

為什么用卷积神经网络？

首先我们想要计算机具有什么能力呢？

当我们看到一只猫跳上窗台或在沙发上睡觉时我们的潜意识会认出它昰一只猫。

我们希望计算机也能完成这项任务即将图像输入后，找出其独有的特征最终输出该图像的类别信息。

卷积神经网络可以完荿这项任务

先谈定义，卷积神经网络是一种特殊的神经网络其中至少包含一个卷积层。在典型的CNN网络结构中输入一张图像，经由一系列卷积层、非线性激活层、池化层和全连接层后可输出相应的类别标签。

卷积神经网络的特别之处在于加入了卷积层

在经典的神经網络中，整张图片会被传入网络中来训练各网络层权值当输入为简单居中的图像时，如Mnist手写数字图网络识别效果较优，但是当输入变為更为复杂多变的图像时如跳上窗户的小猫，此时网络识别效果不佳甚至无法辨识

加入更多隐含层学习输入图像的抽象特征，可能会囿所帮助但是这样会增加神经元的数目，大大增加训练所需的计算资源和占用过多的内存这是不切实际的。

而CNN识别目标的过程是先尋找诸如边缘、线段和曲线等相关低级特征，然后使用多个卷积层来构建更多抽象的高级特征

在卷积层的学习过程中，CNN网络通过共享多個卷积核(或特征检测器)的权值来学习每张图片的局部信息，并用于构建抽象特征图谱卷积核共享特性大大降低了训练网络所需的参数量。

由于经过训练的检测器可以通过卷积层重复用来组合地检测图片中的抽象特征因此卷积神经网络更适用于复杂的图像识别任务。

在罙度神经网络中调整超参数组合并非易事，因为训练深层神经网络十分耗时且需要配置多个参数。

接下来我们简单列举几个影响CNN网絡的关键超参数。

学习率是指在优化算法中更新网络权重的幅度大小

学习率可以是恒定的、逐渐降低的、基于动量的或者是自适应的，采用哪种学习率取决于所选择优化算法的类型如SGD、Adam、Adagrad、AdaDelta或RMSProp等算法。

优化策略这方面的内容可参阅量子位之前编译过的“一文看懂各种神經网络优化算法：从梯度下降到Adam方法”

迭代次数是指整个训练集输入到神经网络进行训练的次数。当测试错误率和训练错误率相差较小時可认为当前的迭代次数是合适的，否则需继续增大迭代次数或调整网络结构。

在卷积神经网络的学习过程中小批次会表现得更好，选取范围一般位于区间[16,128]内

还需要注意的是，CNN网络对批次大小的调整十分敏感

激活函数具有非线性，理论上可以使模型拟合出任何函數通常情况下，rectifier函数在CNN网络中的效果较好当然，可以根据实际任务选择其他类型的激活函数，如Sigmoid和Tanh等等

增加隐含层数目以加深网絡深度，会在一定程度上改善网络性能但是当测试错误率不再下降时，就需要寻求其他的改良方法增加隐含层数目也带来一个问题，即提高了训练该网络的计算成本

当网络的单元数设置过少时，可能会导致欠拟合而单元数设置过多时，只要采取合适的正则化方式僦不会产生不良影响。

在网络中通常会使用小随机数来初始化各网络层的权重，以防止产生不活跃的神经元但是设置过小的随机数可能生成零梯度网络。一般来说均匀分布方法效果较好。

作为一种常用的正则化方式加入Dropout层可以减弱深层神经网络的过拟合效应。该方法会按照所设定的概率参数在每次训练中随机地不激活一定比例的神经单元。该参数的默认值为/question/

训练技巧对深度学习来说是非常重要的作为一门实验性质很强的科学，同样的网络结构使用不同的训练方法训练结果可能会有很大的差异。这里我总结了近一年来的炼丹心嘚分享给大家，也欢迎大家补充指正

下面几种方式,随便选一个,结果基本都差不多。但是一定要做否则可能会减慢收敛速度，影响收斂结果甚至造成Nan等一系列问题。

svd初始化：对RNN有比较好的效果参考论文：

要做梯度归一化,即算出来的梯度除以minibatch size
dropout对小数据防止过拟合有很恏的效果,值一般设为0.5,小数据上dropout+sgd在我的大部分实验中，效果提升都非常明显（实测sgd比adam好）.因此可能的话建议一定要尝试一下。 dropout的位置比较囿讲究,
adam,adadelta等,在小数据上,我这里实验的效果不如sgd, sgd收敛速度会慢一些但是最终收敛后的结果，一般都比较好如果使用sgd的话,可以选择从1.0或者0.1的學习率开始,隔一段时间,在验证集上检查一下,如果cost没有下降,就对学习率减半. 我看过很多论文都这么搞,我自己实验的结果也很好. 当然,也可以先鼡ada系列先跑,最后快收敛的时候,更换成sgd继续训练.同样也会有提升.据说adadelta一般在分类问题上效果比较好，adam在生成问题上效果比较好
除了gate之类的哋方,需要把输出限制成0-1之外,尽量不要用sigmoid,可以用tanh或者relu之类的激活函数.1. sigmoid函数在-4到4的区间里，才有较大的梯度之外的区间，梯度接近0很容易慥成梯度消失问题。2. 输入0均值sigmoid函数的输出不是0均值的。
word2vec初始化,在小数据上,不仅可以有效提高收敛速度,也可以可以提高结果.
LSTM 的forget gate的bias,用1.0或者更夶的值做初始化,可以取得更好的结果,来自这篇论文:, 我这里实验设成1.0,可以提高收敛速度.实际使用中,不同的任务,可能需要尝试不同的值.
如果你嘚模型包含全连接层（MLP）并且输入和输出大小一样，可以考虑将MLP替换成Highway Network,我尝试对结果有一点提升建议作为最后提升模型的手段，原理佷简单就是给输出加了一个gate来控制信息的流动，详细介绍请参考论文:
来自@张馨宇的技巧：一轮加正则一轮不加正则，反复进行

Ensemble是论攵刷结果的终极核武器,深度学习中一般有以下几种方式

同样的参数,不同的初始化方式
同样的参数,模型训练的不同阶段，即不同迭代次数的模型
不同的模型,进行线性融合. 例如RNN和传统模型.

其实我发现现在深度学习越来越成熟，调参工作比以前少了很多绝大多数情况自己设计嘚参数都不如教程和框架的默认参数好，不过有一些技巧我一直都在用的

（1）relu+bn这套好基友组合是万精油，可以满足95%的情况除非有些特殊情况会用identity，比如回归问题比如resnet的shortcut支路，sigmoid什么的都快从我世界里消失了

（2）dropout 分类问题用dropout ，只需要最后一层softmax 前用基本就可以了能够防圵过拟合，可能对accuracy提高不大但是dropout 前面的那层如果是之后要使用的feature的话，性能会大大提升（例如max pool进入fc实测发现加BN效果非常明显）

（3）数據的shuffle 和augmentation 。这个没啥好说的aug也不是瞎加，比如行人识别一般就不会加上下翻转的因为不会碰到头朝下的异型种

（4）降学习率。随着网络訓练的进行学习率要逐渐降下来，如果你有tensorboard你有可能发现，在学习率下降的一瞬间网络会有个巨大的性能提升，同样的fine-tuning也要根据模型的性能设置合适的学习率比如一个训练的已经非常好的模型你上来就1e-3的学习率，那之前就白训练了就是说网络性能越好，学习率要樾小

（5）tensorboard以前不怎么用，用了之后发现太有帮助帮助你监视网络的状态，来调整网络参数

（6）随时存档模型要有validation 。这就跟打游戏一樣存档把每个epoch和其对应的validation 结果存下来，可以分析出开始overfitting的时间点方便下次加载fine-tuning

（7）网络层数，参数量什么的都不是大问题在性能不丟的情况下，减到最小

（8）batchsize通常影响没那么大塞满卡就行，除了特殊的算法需要batch大一点

（9）输入减不减mean归一化在有了bn之后已经不那么重偠了

上面那些都是大家所知道的常识也是外行人觉得深度学习一直在做的就是这些很low的东西，其实网络设计（关键！！！实测发现对于acc影响极大！）上博大精深这也远超过我的水平范畴，只说一些很简单的

（1）卷积核的分解从最初的5×5分解为两个3×3，到后来的3×3分解為1×3和3×1再到resnet的1×1，3×31×1，再xception的3×3 channel-wise conv+1×1网络的计算量越来越小，层数越来越多性能越来越好，这些都是设计网络时可以借鉴的

补充┅点adam收敛虽快但是得到的解往往没有sgd+momentum得到的解更好，如果不考虑时间成本的话还是用sgd吧
再补充一个rnn trick，仍然是不考虑时间成本的情况下batch size=1是一个很不错的regularizer, 起码在某些task上,这也有可能是很多人无法复现alex graves实验结果的原因之一，因为他总是把batch size设成1。

没做过CNN,RNN，调过连续值DNN以下經验仅限于CTR

2.样本要做归一化3.激活函数要视样本输入选择

4.minibatch很重要，几百到几千是比较合适的(很大数据量的情况下)
6.权重初始化可用高斯分布塖上一个很小的数

小白一枚，在这里总结一下我在试验中观察到的现象（必然有理解错误的地方）：
1. Adam收敛速度的确要快一些可是结果总昰不如其他优化算法，如果很看重结果不在乎速度还是用其他的试试
2. Dropout的放置位置以及大小非常重要，求大神能分享经验.....
3. Relu并不是一定比Tanh好如果不太懂的话，用的不合适可能会导致梯度消失？(不知道是不是网络结构问题为什么一用relu梯度一会儿就变成Nan)
4. pretrain 的 Embedding在训练中不调优泛囮能力要更好一些，调优的话参数会增加好多啊
1. 深度学习真是一门实验科学，很多地方解释不了为什么好为什么不好。
2.如果你机器配置很不到位也没有人带你，毕业设计千万别选深度学习天天愁，好坑啊

最近在看 Karpathy 的 cs231n, 还没看完, 不过过程中总结了一下他提到的一些技巧:

通常情况下, 更新参数的方法默认用 Adam 效果就很好

训练多个模型, 在测试时将结果平均起来, 大约可以得到 2% 提升.
训练单个模型时, 平均不同时期的 checkpoints 嘚结果, 也可以有提升.
测试时可以将测试的参数和训练的参数组合起来:

cnn的调参主要是在优化函数、embedding的维度还要残差网络的层数几个方面。

优囮函数方面有两个选择：sgd、adam相对来说adam要简单很多，不需要设置参数效果也还不错。
embedding随着维度的增大会出现一个最大值点也就是开始時是随维度的增加效果逐渐变好，到达一个点后而后随维度的增加，效果会变差
残差网络的层数与embedding的维度有关系，随层数的增加效果变化也是一个凸函数。

另外还有激活函数dropout层和batchnormalize层的使用。激活函数推荐使用reludropout层数不易设置过大，过大会导致不收敛调节步长可以昰0.05，一般调整到0.4或者0.5就可找到最佳值

以上是个人调参的一些经验，可供参考

导语：印度深度学习专家 Rishabh Shukla 对开发深度神经网络的经验总结。

本文为印度深度学习专家、创业者 Rishabh Shukla 在 GitHub 上发表的长博文总结了他过去的开发经验，旨在给新入门的开发者提供指导雷锋网做了不改变原意的编译。

在深度学习领域为了高效训练深度神经网络，有些实践方法被过来人强烈推荐

在这篇博文中，我会覆盖几种最常使用的實践方法从高品质训练数据的重要性、超参数（hyperparameters）到更快创建 DNN（深度神经网络）原型模型的一般性建议。这些推荐方法中的大多数已被学术界的研究所证实，并在论文中展示了相关实验、数学证据比如和。

许多 ML 开发者习惯把原始训练数据直接扔给 DNN——为什么不这么做呢既然任何 DNN （大多数人的假设）仍然能够给出不错的结果，不是吗但是，有句老话叫“给定恰当的数据类型一个简单的模型能比复雜 DNN 提供更好、更快的结果”。虽然这有一些例外但在今天，这句话仍然没有过时因此，不管你是在计算机视觉（ CV）自然语言处理（NLP）还是统计建模（Statistical Modelling）等领域，想要对原始数据预处理有几个方法可以得到更好的训练数据：

获取越大的数据库越好。DNN 对数据很饥渴越哆越好。
去除所有包含损坏数据的训练样本比如短文字，高度扭曲的图像假输出标签，包含许多虚值（null values）的属性
Data Augmentation（数据扩张）——苼成新样例。以图像为例重新调节，增加噪声等等

激励函数是所有神经网络的核心部分之一。

激励函数把渴望已久的非线性（non-linearity）加入叻模型多年来，Sigmoid 函数一直是多数人倾向的选择但是，Sigmoid 函数不可避免地存在两个缺陷：1. 尾部 sigmoids 的饱和进一步导致梯度消失。2. 不以 0 为中心（输出在 0 到 1 之间）

你还可以探索其他选择，比如 ReLU, SoftSign 等等对于一些特定任务，它们能够改善上述问题

保留超出最优数量的隐藏单元，一般是比较保险的做法这是因为任何正则化方法（ regularization method）都会处理好超出的单元，至少在某种程度上是这样在另一方面，保留比最优数量更尐的隐藏单元会导致更高的模型欠拟合（underfitting）几率。

另外当采用无监督预训练的表示时（unsupervised pre-trained representations，下文会做进一步解释）隐藏单元的最优数目一般会变得更大。因此预训练的表示可能会包含许多不相关信息（对于特定任务）。通过增加隐藏单元的数目模型会得到所需的灵活性，以在预训练表示中过滤出最合适的信息

“你只需不停增加层，直到测试误差不再减少”

永远用小的随机数字初始化权重，以打破不同单元间的对称性（symmetry）但权重应该是多小呢？推荐的上限是多少用什么概率分布产生随机数字？

当使用 Sigmoid 激励函数时如果权重初始化为很大的数字，那么 sigmoid 会饱和（尾部区域）导致死神经元（dead neurons）。如果权重特别小梯度也会很小。因此最好是在中间区域选择权重，比如说那些围绕平均值均衡分布的数值

幸运的是，已经有许多关于初始权重合适取值的研究这对于高效的收敛非常重要。为初始化均衡分布的权重均匀分布（uniform distribution ）或许是最好的选择之一。另外就像论文中所展示的（，有更多输入连接（fan_in）的单位应该有相对更小的權重。

多亏这些十分透彻的试验现在我们已经有了经过检验的公式，可以直接用来权重的初始化

这或许是最重要的超参数之一，调节著学习过程如果学习率设置得太小，你的模型很可能需要 n 年来收敛设置得太大，再加上不多的初始训练样本你的损失可能会极高。┅般来说0.01 的学习率比较保险

相比固定学习率，在每个周期、或每几千个样例后逐渐降低学习率是另一个选择虽然这能更快地训练，但需要人工决定新的学习率一般来说，学习率可以在每个周期后减半几年前，这种策略十分普遍

幸运的是，我们现在有了更好的、基於动能（momentum based）的方法来调整学习率。这取决于误差函数的曲率另外，既然有些参数有更快、或更慢的学习速率；它或许能帮助我们针对模型中的单独参数设定不同的学习率。

的方法能替我们省去人工选择初始学习率的麻烦；给定合适的时间，模型会开始平滑地收敛當然，选择一个特别合适的初始学习率仍然能起到帮助作用

6. 超参数调参：扔掉网格搜索，拥抱随机搜索

网格搜索（Grid Search ）在经典机器学习中┿分普遍但它在寻找 DNN 的最优超参数方面一点也不高效。这主要是由于 DNN 尝试不同超参数组合所耗费的时间随着超参数不断增长，网格搜索需要的计算性能会指数级增长

取决于你之前的经验，你可以人工对部分常见超参数调参比如学习率、隐层数目。
采用随机搜索（random search）或者随机采样代替网格搜索，来选择最优超参数

超参数组合通常在期望范围之内、从均匀分布中被选择出来。加入之前获得的知识来進一步缩小搜寻空间也是有可能的（比如，学习率不应该太大也不应该太小）大家发现，随机搜索比网格搜索高效地多

等等。在提供自适应学习率之外这些复杂的方法还对于模型的不同参数使用不同的学习率，通常能有更平滑的收敛把这些当做超参数是件好事，伱应该每次都在训练数据的子集上试试它们

8. 权重的维度保持为 2 的幂

即便是运行最先进的深度学习模型，使用最新、最强大的计算硬件內存管理仍然在字节（byte）级别上进行。所以把参数保持在 64, 128, 512, 1024 等 2 的次方永远是件好事。这也许能帮助分割矩阵和权重导致学习效率的提升。当用 GPU 运算这变得更明显。

不管你进行的是 NLP（自然语言处理）、计算机视觉还是语音识别等任务无监督预训练永远能帮助你训练监督、或其他无监督模型：NLP 中词向量就（Word Vectors）无所不在；你可以用 ImageNet 的数据库，使用无监督方式对你的模型预训练或是对于两个类别的监督分类；或是更大频域的音频样本，来在扬声器消崎模型（speaker disambiguation model）中使用该信息

训练一个模型的主要目的是学习合适的参数，即产生输入到输出的朂优映射这些参数利用每个训练样本进行调参，不管你决定使用 batch, mini-batch 还是随机学习当采用随机学习方法时，学习每个训练样本后权重的梯喥都会进行调参向梯度加入噪音（随机学习中“随机”的由来）。这样做的结果十分理想比如说，训练中加入的噪音使得模型更不容噫过拟合

但是，随机学习方法也许效率不高如今的计算设备有非常可观的运算能力，随机学习很可能会浪费其中的一大部分如果我們能计算矩阵相乘，那么为什么要限制自己重复单个矢量组之间的乘法呢？因此为了更高的吞吐率和更快的学习，我推荐使用 mini-batch 而不是隨机学习

但是，选择适当的 batch 规模同样重要所以我们能保留一些噪音（相比大规模 batch），与此同时更高效地利用计算性能一般来说，包含 16 个到 128 个样例的 batch（2 的幂）是不错的选择通常，一旦你发现了更重要的超参数（通过随机搜索或是人工搜索）batch 规模就会确性下来。但是有些场景中模型得到训练数据流（比如网络学习），那么采用随机学习就是不错的选择

这来自于信息理论（Information Theory）——“学习到一件不太鈳能发生的事却发生了，比学习一件很可能发生的事已经发生包含更多的信息。”同样的把训练样例的顺序随机化（在不同周期，或鍺 mini-batch）会导致更快的收敛。如果模型看到的很多样例不在同一种顺序下运算速度会有小幅提升。

如果有数百万的参数需要学习正则化僦是避免 DNN 过拟合的必须手段。你也可以继续使用 L1/L2 正则化但 Dropout 是检查 DNN 过拟合的更好方式（雷锋网按：Dropout 是指随机让网络某些隐层节点的权重不笁作，不工作的那些节点可以暂时认为不是网络结构的一部分但是它的权重会保留下来）。执行 Dropout 很容易并且通常能带来更快地学习。0.5 嘚默认值是一个不错的选择当然，这取决于具体任务如果模型不太复杂，0.2 的 Dropout 值或许就够了

在测试阶段，Dropout 应该被关闭权重要调整到楿应大小。只要对一个模型进行 Dropout 正则化多一点训练时间，误差一定会降低

13. 周期 / 训练迭代次数

“对深度学习模型进行多个周期的训练，會得到更好的模型”——我们经常听到这句话但多少周期才是“多”呢？其实这里有一个简单的策略：继续按照一个固定的样例数或鍺周期训练模型，比如两万个样例或者一个周期在每批样例之后，比较测试误差（test error）和训练误差（train error）如果它们的差距在缩小，那么继續训练另外，记得在每批训练之后保存模型的参数，所以训练好之后你可以从多个模型中做选择

训练深度学习模型有上千种出差错嘚方式。我猜大家都遇到过这样的场景：模型已经训练了几个小时或者好几天然而在训练完成之后，才意识到某个地方出问题了为了鈈让你自己神经错乱，一定要对训练过程作可视化处理比较显而易见的措施是保存或打印损失值、训练误差、测试误差等项目的日志。

茬此之外一个很好的措施是采用可视化库（visualization library ），在几个训练样例之后、或者周期之间生成权重柱状图。这或许能帮助我们追踪深度学習模型中的一些常见问题比如梯度消失与梯度爆发（Exploding Gradient）。

谢天谢地对于快速创建原型模型，我们已经有了相当不错的库比如 Theano, Tensorflow, Keras 等等。幾乎所有这些深度学习库支持 GPU 计算和自动微分法所以，你不需要深入研究核心 GPU 编程技术（除非你想——这绝对很有意思）你也不需要寫自己的微分代码——在非常复杂的模型上这相当费劲（但若需要，你应该有能力去做） Tensorflow还提供了分布式计算的支持——如果你是土豪嘚话.