Seq2Seq 模型解释：深入研究注意力和变压器

Avilas

2025-08-17

序列到序列（Seq2Seq）模型从根本上重塑了自然语言处理的格局，为从机器翻译到文本摘要的一切提供动力。但是我们是如何从早期的循环网络发展到今天强大的 Transformer 模型的呢？本深入指南探讨了“Vec 到 Vec”范式的完整演变。我们将分解原始的基于 RNN 的编码器-解码器架构，诊断限制其潜力的关键“信息瓶颈”，并揭示革命性的注意力机制如何为 Transformer 铺平道路。加入我们，与我们一起从瓶颈走向突破，并了解 BERT 和 GPT 等模型背后的核心原理。

从瓶颈到突破：Seq2Seq 模型的演变 | GigXP.com

GigXP.com

人工智能研究
 工程
 博客
 关于

深入探讨

探索 Seq2Seq 模型的演变，从早期基于 RNN 的架构到为当今大型语言模型提供支持的革命性 Transformer。

序列转导问题

从本质上讲，序列到序列（Seq2Seq）学习解决了“Vec 到 Vec”问题：将序列从一个域（如英语句子）转换为另一个域（法语中的同一个句子）。核心挑战？输入和输出序列通常具有不同的、未对齐的长度，这是传统神经网络的障碍。

彻底改变自然语言处理 (NLP) 的解决方案是编码器-解码器架构。这个优雅的框架将机器翻译、文本摘要甚至语音识别等多种任务统一在一个端到端的可训练模型下。

这个框架的真正力量在于它的抽象。在其发明之前，翻译和摘要等任务是由完全不同的、通常复杂且专门的系统处理的。编码器-解码器范式提供了一种单一的、有凝聚力的方法：编码器的工作是理解输入，解码器的工作是根据这种理解生成输出。这种统一极大地加速了整个 NLP 领域的进步。

经典框架：循环方法

第一个成功的 Seq2Seq 模型使用循环神经网络 (RNN)，特别是 LSTM 或 GRU，来解决梯度消失问题并捕获长程依赖性。编码器一次“读取”输入序列一个标记，将其整个含义压缩为一个固定长度的向量，称为上下文向量或“思想向量”。然后，解码器使用该向量作为起点来“写入”输出序列，一次一个标记。

信息图：信息瓶颈

经典Seq2Seq

这
快的
棕色的
狐狸…

信息瓶颈

[0.1，-0.5，…]

单个向量很难包含所有含义。信息丢失。

带注意力的 Seq2Seq

这
快的
棕色的
狐狸…

动态上下文

所有输入的加权和

解码器可以在每一步“回顾”整个输入序列。

这种对单一载体的依赖造成了严重的信息瓶颈。对于长句子，模型会从一开始就忘记信息，导致性能急剧下降。这一限制是该领域取得进展的主要障碍。

“思想向量”是一个直观但最终有缺陷的隐喻。这意味着模型可以将句子的完整语义丰富性提炼成空间中的单个点。这种方法在长序列上的失败揭示了一个基本事实：意义并不是单一的，迫使所有信息通过如此狭窄的通道是一项不可能的压缩任务。

模型性能与序列长度

概念可视化显示经典 Seq2Seq 模型性能如何在较长序列上下降，而基于注意力的模型仍然更加稳健。

训练与推理：两种模式的故事

训练这些模型涉及巧妙的技巧，这些技巧在学习和执行之间产生了至关重要的差异。

培训：教师强迫

在训练期间，为了加快学习速度并防止错误复合，模型被输入正确的数据集中的前一个单词，而不是它自己的预测。就像学生每一步都受到老师的指导。

副作用：曝光偏差

该模型永远不会遇到自己的错误，因此它不会在推理过程中学习如何从错误中恢复。

推理：束搜索

在推理过程中，模型是独立的。不是只选择最有可能的下一个单词（贪婪解码），波束搜索在每一步中跟踪几个最可能的句子片段（“光束”），从而产生更流畅和准确的最终输出。

范式转变：注意力机制

打破瓶颈的突破口是注意机制。注意力机制不是单一的静态上下文向量，而是允许解码器动态地“回顾”编码器的每个输入标记的输出。它创建了一个直接的快捷方式，使模型在生成每个输出标记时能够有选择地关注源序列中最相关的部分。

该机制可以被视为一种形式软的、可微的记忆检索。编码器的输出充当“存储器库”。在每个步骤中，解码器的状态充当“查询”以检索这些存储器的加权组合。这个观点直接预示了将成为 Transformer 架构核心的 Query-Key-Value 术语。

注意力机制的一个令人着迷且有益的副作用是新发现的可解释性。通过将注意力权重可视化为热图，研究人员可以“看到”模型关注的内容。例如，在法语到英语的翻译中，模型将正确学习将单词与不同的顺序对齐，例如将英语“blue car”映射到法语“voiture bleue”。这种窥视黑匣子的能力对于诊断模型故障和建立对其语言能力的信心来说是一个重大福音。

注意变体：Bahdanau 与 Luong

特征	Bahdanau 注意力（“添加剂”）	Luong Attention（“乘法”）
评分函数	前馈网络（更复杂）	基于点积（更简单、更快）
复杂	计算成本更高	计算速度更快
使用的解码器状态	使用之前的隐藏状态 (ht-1)	使用当前隐藏状态 (ht)
主要优势	可以学习更复杂的对齐函数	简单、快速、高效

变形金刚：你所需要的就是注意力

虽然注意力解决了瓶颈，但模型仍然依赖于缓慢的顺序 RNN。 2017 年的论文《Attention Is All You Need》介绍了变压器，一种完全消除重复的架构。它完全依赖于一种更强大的注意力形式，称为自我关注，实现大规模并行化和新的性能水平。

这代表了从顺序计算到并行关系映射的深刻转变。 RNN 的计算是一条链；最后一个单词的计算取决于它前面的单词，依此类推。相比之下，Transformer 同时计算每对标记之间的关系。该设计针对现代 GPU 进行了高度优化，释放了在更大的数据集上训练更深层次模型的能力，并为大型语言模型 (LLM) 时代铺平了道路。

信息图：视线的速度

Transformer 相对于 RNN 的主要优势在于它能够同时处理所有令牌，从而实现大规模并行化。

RNN 处理（顺序）

时间

小时

……

每一步都必须等待前一步完成。对于长序列来说速度较慢。

变压器处理（并行）

所有令牌都会同时处理，从而使模型能够利用现代 GPU 来大幅加速。

信息图：自我注意力（Q、K、V）

自注意力的工作原理类似于序列中每个标记的数据库检索系统。

🤔

查询（问）

“我要从其他代币中寻找什么信息？”

🔑

键 (K)

“我持有什么样的信息？将我与查询相匹配。”

📦

值（V）

“如果你来找我，这就是我将提供的信息。”

Transformer的核心是它缩放点积注意力机制。它通过匹配查询和键来计算分数，然后使用这些分数创建值的加权和。这允许每个令牌直接与序列中的每个其他令牌交互，捕获丰富的全局上下文。

# The famous attention formula
Attention(Q, K, V) = softmax( (Q @ K.T) / sqrt(d_k) ) @ V

其他关键创新包括多头注意力（并行运行注意力以捕获不同的关系），位置编码（给模型一种词序感），以及具有残差连接的深层堆栈。

现代景观：建筑的三重奏

Transformer 的成功导致其被分解为三个主要模型系列，每个模型专门用于不同的任务。使用下面的过滤器来探索它们。

仅编码器 (NLU)

仅解码器 (NLG)

编码器-解码器（转换）

仅编码器（例如 BERT）

这些模型可以立即查看整个输入序列（双向上下文），使它们成为自然语言理解（NLU）的大师。

最适合：文本分类、情感分析、命名实体识别。
主要特点：揭露自我关注。

仅解码器（例如 GPT）

这些模型自动生成文本，这意味着它们只能看到当前标记之前的标记。它们对于自然语言生成 (NLG) 非常强大。

最适合：开放式文本生成、聊天机器人、故事写作、代码生成。
主要特点：掩盖自我注意（因果注意）。

编码器-解码器（例如，T5、BART）

这些模型使用完整的架构将输入序列转换为新的输出序列。它们是序列转导任务的理想选择。

最适合：机器翻译、文本摘要、问答。
主要特点：将双向编码与自回归解码相结合。

模糊界限：通用解码器的兴起

虽然这种专业化提供了一个清晰的框架，但最近的趋势表明这些界限变得模糊。凭借足够的规模和基于指令的微调，强大的纯解码器模型即使在传统的 NLU 任务上也表现出了强大的性能。这是通过将任务重新定义为生成问题来实现的；例如，对于情感分析，模型会生成字面词“积极”或“消极”，而不是输出类别标签。

ChatGPT 等模型加速了这一趋势，表明足够强大的生成模型可以包含许多基于理解的任务，从而导致研究社区向通用 LLM 的仅解码器架构进行整合。

流程图：我应该使用哪种架构？

您的首要任务是什么？

理解/分类（NLU）

例如，情感分析、NER

使用仅编码器
（例如，BERT）

开放式一代 (NLG)

例如，聊天机器人、故事写作

使用仅解码器
（例如，GPT）

将输入转换为输出

例如，翻译、摘要

使用编码器-解码器
（例如，T5）

未来的方向和挑战

虽然 Transformer 具有革命性，但它也有其自身的局限性。最重大的挑战是其计算复杂性。由于 self-attention 会将每个 token 与其他 token 进行比较，因此它的内存和计算需求与序列长度 (O(n²)) 呈二次方缩放。

这使得处理很长的文档、高分辨率图像或长视频流的成本变得异常昂贵。正在进行的研究的一个充满活力的领域是开发更多有效的注意力机制。稀疏注意力、线性注意力和各种基于内核的方法等创新旨在以线性或近线性复杂度近似完全自注意力的力量，突破这些强大模型所能实现的界限。

结论：持续的革命

从 RNN 到 Transformer 的旅程是一个识别基本限制和设计出色解决方案的故事。 “Vec 到 Vec”问题催生了一种架构，通过注意力和并行化等创新，该架构不仅主导了 NLP，还主导了计算机视觉、音频处理等领域。随着研究解决 Transformer 的剩余挑战（例如其二次复杂性），这场人工智能革命还远未结束。