Seq2Seq 模型解釋：深入研究注意力和變壓器

Avilas

2025-08-17

序列到序列（Seq2Seq）模型從根本上重塑了自然語言處理的格局，為從機器翻譯到文本摘要的一切提供動力。但是我們是如何從早期的循環網絡發展到今天強大的 Transformer 模型的呢？本深入指南探討了“Vec 到 Vec”範式的完整演變。我們將分解原始的基於 RNN 的編碼器-解碼器架構，診斷限制其潛力的關鍵“信息瓶頸”，並揭示革命性的注意力機制如何為 Transformer 鋪平道路。加入我們，與我們一起從瓶頸走向突破，並了解 BERT 和 GPT 等模型背後的核心原理。

從瓶頸到突破：Seq2Seq 模型的演變 | GigXP.com

GigXP.com

人工智能研究
 工程
 部落格
 關於

深入探討

探索 Seq2Seq 模型的演變，從早期基於 RNN 的架構到為當今大型語言模型提供支持的革命性 Transformer。

序列轉導問題

從本質上講，序列到序列（Seq2Seq）學習解決了“Vec 到 Vec”問題：將序列從一個域（如英語句子）轉換為另一個域（法語中的同一個句子）。核心挑戰？輸入和輸出序列通常具有不同的、未對齊的長度，這是傳統神經網絡的障礙。

徹底改變自然語言處理 (NLP) 的解決方案是編碼器-解碼器架構。這個優雅的框架將機器翻譯、文本摘要甚至語音識別等多種任務統一在一個端到端的可訓練模型下。

這個框架的真正力量在於它的抽象。在其發明之前，翻譯和摘要等任務是由完全不同的、通常複雜且專門的系統處理的。編碼器-解碼器範式提供了一種單一的、有凝聚力的方法：編碼器的工作是理解輸入，解碼器的工作是根據這種理解生成輸出。這種統一極大地加速了整個 NLP 領域的進步。

經典框架：循環方法

第一個成功的 Seq2Seq 模型使用循環神經網絡 (RNN)，特別是 LSTM 或 GRU，來解決梯度消失問題並捕獲長程依賴性。編碼器一次“讀取”輸入序列一個標記，將其整個含義壓縮為一個固定長度的向量，稱為上下文向量或“思想向量”。然後，解碼器使用該向量作為起點來“寫入”輸出序列，一次一個標記。

信息圖：信息瓶頸

經典Seq2Seq

這
快的
棕色的
狐狸…

信息瓶頸

[0.1，-0.5，…]

單個向量很難包含所有含義。信息丟失。

帶注意力的 Seq2Seq

這
快的
棕色的
狐狸…

動態上下文

所有輸入的加權和

解碼器可以在每一步“回顧”整個輸入序列。

這種對單一載體的依賴造成了嚴重的信息瓶頸。對於長句子，模型會從一開始就忘記信息，導致性能急劇下降。這一限制是該領域取得進展的主要障礙。

“思想向量”是一個直觀但最終有缺陷的隱喻。這意味著模型可以將句子的完整語義豐富性提煉成空間中的單個點。這種方法在長序列上的失敗揭示了一個基本事實：意義並不是單一的，迫使所有信息通過如此狹窄的通道是一項不可能的壓縮任務。

模型性能與序列長度

概念可視化顯示經典 Seq2Seq 模型性能如何在較長序列上下降，而基於注意力的模型仍然更加穩健。

訓練與推理：兩種模式的故事

訓練這些模型涉及巧妙的技巧，這些技巧在學習和執行之間產生了至關重要的差異。

培訓：教師強迫

在訓練期間，為了加快學習速度並防止錯誤複合，模型被輸入正確的數據集中的前一個單詞，而不是它自己的預測。就像學生每一步都受到老師的指導。

副作用：曝光偏差

該模型永遠不會遇到自己的錯誤，因此它不會在推理過程中學習如何從錯誤中恢復。

推理：束搜索

在推理過程中，模型是獨立的。不是只選擇最有可能的下一個單詞（貪婪解碼），波束搜索在每一步中跟踪幾個最可能的句子片段（“光束”），從而產生更流暢和準確的最終輸出。

範式轉變：注意力機制

打破瓶頸的突破口是注意機制。注意力機制不是單一的靜態上下文向量，而是允許解碼器動態地“回顧”編碼器的每個輸入標記的輸出。它創建了一個直接的快捷方式，使模型在生成每個輸出標記時能夠有選擇地關注源序列中最相關的部分。

該機制可以被視為一種形式軟的、可微的記憶檢索。編碼器的輸出充當“存儲器庫”。在每個步驟中，解碼器的狀態充當“查詢”以檢索這些存儲器的加權組合。這個觀點直接預示了將成為 Transformer 架構核心的 Query-Key-Value 術語。

注意力機制的一個令人著迷且有益的副作用是新發現的可解釋性。通過將注意力權重可視化為熱圖，研究人員可以“看到”模型關注的內容。例如，在法語到英語的翻譯中，模型將正確學習將單詞與不同的順序對齊，例如將英語“blue car”映射到法語“voiture bleue”。這種窺視黑匣子的能力對於診斷模型故障和建立對其語言能力的信心來說是一個重大福音。

注意變體：Bahdanau 與 Luong

特徵	Bahdanau 注意力（“添加劑”）	Luong Attention（“乘法”）
評分函數	前饋網絡（更複雜）	基於點積（更簡單、更快）
複雜	計算成本更高	計算速度更快
使用的解碼器狀態	使用之前的隱藏狀態 (ht-1)	使用當前隱藏狀態 (ht)
主要優勢	可以學習更複雜的對齊函數	簡單、快速、高效

變形金剛：你所需要的就是注意力

雖然注意力解決了瓶頸，但模型仍然依賴於緩慢的順序 RNN。 2017 年的論文《Attention Is All You Need》介紹了變壓器，一種完全消除重複的架構。它完全依賴於一種更強大的注意力形式，稱為自我關注，實現大規模並行化和新的性能水平。

這代表了從順序計算到並行關係映射的深刻轉變。 RNN 的計算是一條鏈；最後一個單詞的計算取決於它前面的單詞，依此類推。相比之下，Transformer 同時計算每對標記之間的關係。該設計針對現代 GPU 進行了高度優化，釋放了在更大的數據集上訓練更深層次模型的能力，並為大型語言模型 (LLM) 時代鋪平了道路。

信息圖：視線的速度

Transformer 相對於 RNN 的主要優勢在於它能夠同時處理所有令牌，從而實現大規模並行化。

RNN 處理（順序）

時間

小時

……

每一步都必須等待前一步完成。對於長序列來說速度較慢。

變壓器處理（並行）

所有令牌都會同時處理，從而使模型能夠利用現代 GPU 來大幅加速。

信息圖：自我注意力（Q、K、V）

自註意力的工作原理類似於序列中每個標記的數據庫檢索系統。

🤔

查詢（問）

“我要從其他代幣中尋找什麼信息？”

🔑

鍵 (K)

“我持有什麼樣的信息？將我與查詢相匹配。”

📦

值（V）

“如果你來找我，這就是我將提供的信息。”

Transformer的核心是它縮放點積注意力機制。它通過匹配查詢和鍵來計算分數，然後使用這些分數創建值的加權和。這允許每個令牌直接與序列中的每個其他令牌交互，捕獲豐富的全局上下文。

# The famous attention formula
Attention(Q, K, V) = softmax( (Q @ K.T) / sqrt(d_k) ) @ V

其他關鍵創新包括多頭注意力（並行運行注意力以捕獲不同的關係），位置編碼（給模型一種詞序感），以及具有殘差連接的深層堆棧。

現代景觀：建築的三重奏

Transformer 的成功導致其被分解為三個主要模型系列，每個模型專門用於不同的任務。使用下面的過濾器來探索它們。

僅編碼器 (NLU)

僅解碼器 (NLG)

編碼器-解碼器（轉換）

僅編碼器（例如 BERT）

這些模型可以立即查看整個輸入序列（雙向上下文），使它們成為自然語言理解（NLU）的大師。

最適合：文本分類、情感分析、命名實體識別。
主要特點：揭露自我關注。

僅解碼器（例如 GPT）

這些模型自動生成文本，這意味著它們只能看到當前標記之前的標記。它們對於自然語言生成 (NLG) 非常強大。

最適合：開放式文本生成、聊天機器人、故事寫作、代碼生成。
主要特點：掩蓋自我注意（因果注意）。

編碼器-解碼器（例如，T5、BART）

這些模型使用完整的架構將輸入序列轉換為新的輸出序列。它們是序列轉導任務的理想選擇。

最適合：機器翻譯、文本摘要、問答。
主要特點：將雙向編碼與自回歸解碼相結合。

模糊界限：通用解碼器的興起

雖然這種專業化提供了一個清晰的框架，但最近的趨勢表明這些界限變得模糊。憑藉足夠的規模和基於指令的微調，強大的純解碼器模型即使在傳統的 NLU 任務上也表現出了強大的性能。這是通過將任務重新定義為生成問題來實現的；例如，對於情感分析，模型會生成字面詞“積極”或“消極”，而不是輸出類別標籤。

ChatGPT 等模型加速了這一趨勢，表明足夠強大的生成模型可以包含許多基於理解的任務，從而導致研究社區向通用 LLM 的僅解碼器架構進行整合。

流程圖：我應該使用哪種架構？

您的首要任務是什麼？

理解/分類（NLU）

例如，情感分析、NER

使用僅編碼器
（例如，BERT）

開放式一代 (NLG)

例如，聊天機器人、故事寫作

使用僅解碼器
（例如，GPT）

將輸入轉換為輸出

例如，翻譯、摘要

使用編碼器-解碼器
（例如，T5）

未來的方向和挑戰

雖然 Transformer 具有革命性，但它也有其自身的局限性。最重大的挑戰是其計算複雜性。由於 self-attention 會將每個 token 與其他 token 進行比較，因此它的內存和計算需求與序列長度 (O(n²)) 呈二次方縮放。

這使得處理很長的文檔、高分辨率圖像或長視頻流的成本變得異常昂貴。正在進行的研究的一個充滿活力的領域是開發更多有效的注意力機制。稀疏注意力、線性注意力和各種基於內核的方法等創新旨在以線性或近線性複雜度近似完全自註意力的力量，突破這些強大模型所能實現的界限。

結論：持續的革命

從 RNN 到 Transformer 的旅程是一個識別基本限制和設計出色解決方案的故事。 “Vec 到 Vec”問題催生了一種架構，通過注意力和並行化等創新，該架構不僅主導了 NLP，還主導了計算機視覺、音頻處理等領域。隨著研究解決 Transformer 的剩餘挑戰（例如其二次復雜性），這場人工智能革命還遠未結束。