9. 相关面试题 - 《深度学习教程整理》

1.CNN的特点以及优势

改变全连接为局部连接，这是由于图片的特殊性造成的（图像的一部分的统计特性与其他部分是一样的），通过局部连接和参数共享大范围的减少参数值。可以通过使用多个filter来提取图片的不同特征（多卷积核）。

CNN使用范围是具有局部空间相关性的数据，比如图像，自然语言，语音

2.deconv的作用


2.CNN可视化：将conv中得到的feature map还原到像素空间，来观察特定的feature map对哪些pattern的图片敏感
3.Upsampling：上采样。

3.dropout作用以及实现机制 (参考:)

1.dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。注意是暂时，
  对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。
2.dropout是一种CNN训练过程中防止过拟合提高效果的方法
3.dropout带来的缺点是可能减慢收敛速度：由于每次迭代只有一部分参数更新，可能导致梯度下降变慢
4.测试时，需要每个权值乘以P

4.深度学习中有什么加快收敛/降低训练难度的方法：

5.什么造成过拟合，如何防止过拟合

1.data agumentation
2.early stop
4.用更简单模型
5.dropout
6.加噪声

6.LSTM防止梯度弥散和爆炸

LSTM用加和的方式取代了乘积，使得很难出现梯度弥散。但是相应的更大的几率会出现梯度爆炸，但是可以通过给梯度加门限解决这一问题

7.为什么很多做人脸的Paper会最后加入一个Local Connected Conv?

8.不同的权值初始化方式以及其造成的后果?为什么会造成这样的结果?

9.Convolution、 pooling、 Normalization是卷积神经网络中十分重要的三个步骤，分别简述Convolution、 pooling和Normalization在卷积神经网络中的作用。

10.dilated conv优缺点以及应用场景

11.判别模型和生成模型解释

监督学习方法又分生成方法（Generative approach）和判别方法（Discriminative approach），所学到的模型分别称为生成模型（Generative Model）和判别模型（Discriminative Model）。

从概率分布的角度考虑，对于一堆样本数据，每个均有特征Xi对应分类标记yi。
生成模型：学习得到联合概率分布P(x,y)，即特征x和标记y共同出现的概率，然后求条件概率分布。能够学习到数据生成的机制。
判别模型：学习得到条件概率分布P(y|x)，即在特征x出现的情况下标记y出现的概率。
数据要求：生成模型需要的数据量比较大，能够较好地估计概率密度；而判别模型对数据样本量的要求没有那么多。

由生成模型可以得到判别模型，但由判别模型得不到生成模型。

12.如何判断是否收敛

13.正则化方法以及特点

正则化方法包括： L1 regularization 、 L2 regularization 、数据集扩增、 dropout 等，其特点分别为：

14.常用的激活函数 (参考:)

15.1x1卷积的作用

1. 实现跨通道的信息交互和整合。1x1卷积核只有一个参数，当它作用在多通道的feature map上时，相当于不同通道上的一个线性组合，
   实际上就是加起来再乘以一个系数，但是这样输出的feature map就是多个通道的整合信息了，能够使网络提取的特征更加丰富。
2. feature map通道数上的降维。降维这个作用在GoogLeNet和ResNet能够很好的体现。举个例子：假设输入的特征维度为100x100x128，
   卷积核大小为5x5（stride=1，padding=2），通道数为256，则经过卷积后输出的特征维度为100x100x256，卷积参数量为
   128x5x5x256=819200。此时在5x5卷积前使用一个64通道的1x1卷积，最终的输出特征维度依然是100x100x256，但是此时的卷积参数
   量为128x1x1x64 + 64x5x5x256=417792，大约减少一半的参数量。
3. 增加非线性映射次数。1x1卷积后通常加一个非线性激活函数，使网络提取更加具有判别信息的特征，同时网络也能做的越来越深。

实践部分

两者的区别是xrange返回的是一个可迭代的对象；range返回的则是一个列表，同时效率更高，更快。

2.python中带类和main函数的程序执行顺序

3.神经网络的参数量计算

参考文献

[1]