中年|谷歌、微软、亚马逊、阿里、字节深度学习面试问答整理 |阿里|亚马逊|

这里，问题会针对你的项目或你之前在面试中讨论的内容。
另外，根据领域的不同，使用计算机视觉或自然语言处理，这些问题可能会改变。尽管详细了解每个模型的体系结构并不重要，但你需要了解它们背??后的直觉以及为什么首先需要这些模型。
同样，就像中高级水平一样，重要的是始终将自己研究或实现的实例引入讨论中。
1、与人工神经网络相比， RNN的反向传播有何不同？
在递归神经网络中，每个节点处都有一个附加循环：

本文插图

该循环本质上也包括进入网络的时间部分。这有助于从数据中捕获顺序信息，这在通用的人工神经网络中是不可能的。
这就是为什么RNN中的反向传播称为“按时间反向传播”的原因，就像每个时间步的反向传播一样。
需要RNN详细分析的可以搜：深度学习基础-递归神经网络简介。
2、LSTM如何解决消失的梯度挑战？
LSTM模型被认为是RNNs的一个特例。在使用普通RNN模型时，我们前面看到的消失梯度和爆炸梯度的问题是一个缺点。
【中年|谷歌、微软、亚马逊、阿里、字节深度学习面试问答整理】
在LSTM中，我们添加了一个“遗忘门” ，它基本上是一个存储单元，用于保留跨时间步长保留的信息，并丢弃其他不需要的信息。这也需要输入和输出门也包括忘记门的结果。

本文插图

3、为什么GRU比LSTM快？
如你所见， LSTM模型可能变得非常复杂。为了仍然保留跨时间保留信息的功能，并且又不建立过于复杂的模型，我们需要GRU 。
基本上，在GRU中，我们没有输入额外的“忘记门” ，而是将输入和“忘记”门组合到一个更新门中：

本文插图

正是由于门数量的减少，使得GRU的复杂性和速度都低于LSTM 。
4、变压器架构比RNN更好吗？
深度学习的进步使得解决自然语言处理中的许多任务成为可能。 RNN ， LSTM等网络/序列模型专门用于此目的-以便从给定的句子或段落中捕获所有可能的信息。但是，顺序处理带有以下警告：

需要高处理能力
由于其顺序性质，很难并行执行

这产生了Transformer体系结构。变形金刚使用所谓的注意力机制。这基本上意味着在句子的所有部分之间映射依赖关系。
5、描述你从事的项目以及你使用的工具/框架？

现在，即使你在深度学习访谈中没有问到上述任何一个问题，也肯定会问这个问题。我将它包含在进阶部分中，因为你可能会不满意所编写代码的每个部分。
面试之前，请确保：