「深度学习」深度学习面试必备的 25 个问题

「深度学习」深度学习面试必备的 25 个问题
本文插图
作者 | Tomer Amit
译者 | 弯月 , 责编 | 屠敏
出品 | CSDN(ID:CSDNnews)
以下为译文:
在本文中 , 我将分享有关深度学习的25个问题 , 希望能够帮助你为面试做好准备 。
1.为什么必须在神经网络中引入非线性?
答:否则 , 我们将获得一个由多个线性函数组成的线性函数 , 那么就成了线性模型 。 线性模型的参数数量非常少 , 因此建模的复杂性也会非常有限 。
2.说明解决神经网络中梯度消失问题的两种方法 。
答:

  • 【「深度学习」深度学习面试必备的 25 个问题】使用ReLU激活函数代替S激活函数 。
  • 使用Xavier初始化 。
3.在图像分类任务中 , 相较于使用密集神经网络(Dense Neural Network , DNN) , 使用卷积神经网络(Convolutional Neural Network , CNN)有哪些优势?
答:虽然两种模型都可以捕获彼此靠近的像素之间的关系 , 但CNN具有以下属性:
  • 它是平移不变的:对于过滤器而言 , 像素的确切位置是无关的 。
  • 更不容易发生过度拟合:一般而言CNN中的参数比DNN要少很多 。
  • 方便我们更好地理解模型:我们可以查看过滤器的权重 , 并可视化神经网络的学习成果 。
  • 分层性质:通过使用较简单的模式描述复杂的模式来学习模式 。
4. 说明在图像分类任务中可视化CNN特征的两种方法 。
答:
  • 输入遮挡:遮挡输入图像的一部分 , 看看哪部分对分类的影响最大 。例如 , 针对某个训练好的图像分类模型 , 将下列图像作为输入 。 如果我们看到第三幅图像被分类为狗狗的概率为98% , 而第二幅图像的准确率仅为65% , 则说明眼睛对于对分类的影响更大 。
  • 激活最大化:创建一个人造的输入图像 , 以最大化目标响应(梯度上升) 。
5. 在优化学习速率时 , 分别尝试学习速率:0.1、0.2 , … , 0.5是好办法吗 ?
答:这种方法并不好 , 建议使用对数比例来优化学习速率 。
6. 假设一个神经网络拥有3层的结构和ReLU激活函数 。 如果我们用同一个值初始化所有权重 , 结果会怎样?如果我们只有1层(即线性/逻辑回归)会怎样?
答:如果所有权重的初始值都相同 , 则无法破坏对称性 。 也就是说 , 所有梯度都会更新成同一个值 , 而且神经网络将无法学习 。 但是 , 如果神经网络只有1层的话 , 成本函数是凸形的(线性/ S型) , 因此权重始终会收敛到最佳点 , 无论初始值是什么(收敛可能会较慢) 。
7.解释Adam优化器的概念 。
答:Adam结合了两个想法来改善收敛性:每个参数更新可加快收敛速度;动量可避免卡在鞍点上 。
8.比较批处理 , 小批处理和随机梯度下降 。
答:批处理是指在估计数据时获取整个数据;小批处理是通过对几个数据点进行采样来进行小批量处理;而随机梯度下降是指在每个时期更新一个数据点的梯度 。 我们需要权衡梯度计算的准确度与保存在内存中的批量大小 。 此外 , 通过在每个epoch添加随机噪声 , 我们可以通过小批处理(而非整个批处理)实现正规化效果 。
9.什么是数据扩充?举个例子 。
答:数据扩充是一种技术 , 通过操作原始数据来增加输入数据 。 例如 , 对于图像 , 我们可以执行以下操作:旋转图像、翻转图像、添加高斯模糊等 。
10. 解释GAN的概念 。
答:GAN(Generative Adversarial Network)即生成对抗网络 , 通常由两个神经网络D和G组成 , 其中D指的是判别器(Discriminator) , 而G指生成网络(Generative Network) 。 这种模型的目标是创建数据 , 例如创建与真实图像并无二样的图像 。 假设我们想要创建一只猫的对抗示例 。 神经网络G负责生成图像 , 而神经网络D则负责判断图像是否是猫 。 G的目标是“愚弄”D——将G的输出始终分类为猫 。


推荐阅读