一文读懂 Transformer 神经网络模型( 三 ) _神经网络

打个比方，在机器翻译模型中，注意力机制使得 Transformer 能够根据所有相关单词的上下文，将英语中的"it"正确翻译为法语或西班牙语中的性别对应的词汇。Transformers 能够利用注意力机制来确定如何翻译当前单词，同时考虑其周围单词的影响。
然而，需要注意的是，Transformer 神经网络取代了早期的循环神经网络(RNN)、长短期记忆(LSTM)和门控循环单元(GRU)等模型，成为了更为先进和有效的选择。

文章插图
通常而言， Transformer 神经网络接受输入句子并将其编码为两个不同的序列：
1.词向量嵌入序列词向量嵌入是文本的数字表示形式。在这种情况下，神经网络只能处理转换为嵌入表示的单词。字典中的单词在嵌入表示中表示为向量。
2.位置编码器序列位置编码器将原始文本中单词的位置表示为向量。Transformer 将词向量嵌入和位置编码结合起来。然后，它将组合结果发送到各个编码器，然后是解码器。
与 RNN 和 LSTM 按顺序提供输入不同，Transformer 同时提供输入。每个编码器将其输入转换为另一个向量序列，称为编码。
解码器以相反的顺序工作。它将编码转换回概率，并根据概率生成输出单词。通过使用 softmax 函数，Transformer 可以根据输出概率生成句子。
每个解码器和编码器中都有一个称为注意力机制的组件。它允许一个输入单词使用其他单词的相关信息进行处理，同时屏蔽不包含相关信息的单词。
为了充分利用 GPU 提供的并行计算能力， Transformer 使用多头注意力机制进行并行实现。多头注意力机制允许同时处理多个注意力机制，从而提高计算效率。
相比于 LSTM 和 RNN，Transformer 深度学习模型的优势之一是能够同时处理多个单词。这得益于 Transformer 的并行计算能力，使得它能够更高效地处理序列数据。
五、常见的 Transformer 模型截止目前，Transformer 是构建世界上大多数最先进模型的主要架构之一。它在各个领域取得了巨大成功，包括但不限于以下任务：语音识别到文本转换、机器翻译、文本生成、释义、问答和情感分析。这些任务中涌现出了一些最优秀和最著名的模型。

文章插图
基于 Transformer 的模型体系图
1.BERT(双向编码器表示的 Transformer )作为一种由 google 设计的技术，针对自然语言处理而开发，基于预训练的 Transformer 模型，当前被广泛应用于各种 NLP 任务中。
在此项技术中，双向编码器表示转化为了自然语言处理的重要里程碑。通过预训练的 Transformer 模型，双向编码器表示(BERT)在自然语言理解任务中取得了显著的突破。BERT 的意义如此重大，以至于在 2020 年，几乎每个英语查询在 Google 搜索引擎中都采用了 BERT 技术。
BERT 的核心思想是通过在大规模无标签的文本数据上进行预训练，使模型学习到丰富的语言表示。BERT 模型具备双向性，能够同时考虑一个词在上下文中的左侧和右侧信息，从而更好地捕捉词语的语义和语境。

文章插图
BERT 的成功标志着 Transformer 架构在 NLP 领域的重要地位，并在实际应用中取得了巨大的影响。它为自然语言处理领域带来了重大的进步，并为搜索引擎等应用提供了更准确、更智能的语义理解。
2.GPT-2 / GPT-3(生成预训练语言模型)生成式预训练 Transformer 2和3分别代表了最先进的自然语言处理模型。其中，GPT(Generative Pre-trained Transformer)是一种开源的 AI 模型，专注于处理自然语言处理(NLP)相关任务，如机器翻译、问答、文本摘要等。
上述两个模型的最显著区别在于“规模”和“功能” 。具体而言， GPT-3 是最新的模型，相比于 GPT-2 ，其引入了许多新的功能和改进。除此之外，GPT-3 的模型容量达到了惊人的 1750 亿个机器学习参数，而 GPT-2 只有 15 亿个参数。
具备如此巨大的参数容量，GPT-3 在自然语言处理任务中展现出了令人惊叹的性能。它具备更强大的语言理解和生成能力，能够更准确地理解和生成自然语言文本。此外，GPT-3 在生成文本方面尤为出色，能够生成连贯、富有逻辑的文章、对话和故事。
GPT-3 的性能提升得益于其庞大的参数规模和更先进的架构设计。它通过在大规模文本数据上进行预训练，使得模型能够学习到更深入、更全面的语言知识，从而使得 GPT-3 能够成为目前最强大、最先进的生成式预训练 Transformer 模型之一。