第 1 章

Transformer 是什么？为什么它统治了 AI？

2017年，一篇名为"Attention is All You Need"的论文改变了AI领域。Transformer架构不仅解决了RNN/LSTM的序列处理问题，更成为了现代AI的基础，从GPT到BERT，从文本到图像，Transformer无处不在。

Transformer 的诞生

2017年6月，Google Brain团队发表了"Attention is All You Need"论文，提出了Transformer架构。这篇论文只有6位作者，却改变了整个AI领域的发展轨迹。

论文核心信息

论文标题：Attention is All You Need

发表时间：2017年6月（NIPS 2017）

作者团队：Google Brain（Vaswani等）

核心贡献：完全基于Attention机制，无需循环或卷积

历史背景

在Transformer之前，序列建模主要依赖RNN和LSTM：

• RNN的困境：梯度消失问题，难以处理长序列
• LSTM的改进：通过门控机制缓解梯度消失，但计算仍然串行
• CNN的尝试：用于序列建模，但感受野受限
• Transformer的突破：完全并行，全局注意力，彻底改变了序列建模

为什么 Transformer 成为主流？

Transformer并非第一个使用Attention的架构，但它通过完全摒弃循环和卷积，实现了真正的并行计算和全局依赖，这是它成功的关键。

vs RNN

• 并行性：RNN必须串行处理，Transformer可以并行
• 长距离依赖：RNN梯度消失，Transformer全局注意力
• 训练速度：Transformer训练快10-100倍
• 内存效率：Transformer内存使用更稳定

vs LSTM

• 复杂度：LSTM有复杂的门控机制，Transformer结构更简单
• 可扩展性：LSTM难以扩展到超大规模，Transformer可以
• 表达能力：Transformer的注意力机制更灵活
• 硬件友好：Transformer更适合GPU并行计算

vs CNN

• 感受野：CNN需要多层才能扩大感受野，Transformer一步到位
• 位置信息：CNN通过卷积核位置编码，Transformer用位置编码
• 长序列：CNN处理长序列需要大量层，Transformer更高效
• 通用性：Transformer统一架构，CNN需要针对不同任务设计

关键突破点

完全并行：所有位置同时计算，充分利用GPU并行能力

全局注意力：任意两个位置可以直接交互，无需多层传播

可扩展性：从1亿参数到1万亿参数，遵循Scaling Law

统一架构：文本、图像、音频都可以用Transformer处理

核心组件：Encoder-Decoder 结构

Transformer的核心是Encoder-Decoder架构，但实际应用中出现了多种变体。

标准 Transformer 架构

原始论文中的完整架构包含Encoder和Decoder两部分：

Encoder：理解输入序列，将输入编码为中间表示

Decoder：基于Encoder的输出和已生成的部分，生成目标序列

应用场景：机器翻译、文本摘要等序列到序列任务

架构变体

GPT（Decoder Only）

只有Decoder，自回归生成，适合文本生成任务

BERT（Encoder Only）

只有Encoder，双向理解，适合理解任务（分类、问答）

关键创新点

• Self-Attention：让模型关注输入序列的不同部分
• Multi-Head Attention：从多个角度理解信息
• Positional Encoding：注入位置信息，弥补Attention的序列顺序缺失
• Feed-Forward Network：非线性变换，增强表达能力
• Residual Connection：解决深度网络的梯度消失问题
• Layer Normalization：稳定训练过程

历史意义：AI 领域的范式转变

Transformer不仅是一个架构，更是AI领域的范式转变，它开启了大规模预训练模型的时代。

影响范围

自然语言处理

• GPT系列：GPT-1/2/3/4，ChatGPT，改变了文本生成
• BERT系列：BERT、RoBERTa、ALBERT，改变了文本理解
• T5、BART：统一了文本任务框架

计算机视觉

• Vision Transformer (ViT)：将Transformer应用到图像
• DETR：目标检测的Transformer方法
• CLIP：多模态Transformer模型

语音处理

• Whisper：OpenAI的语音识别模型
• AudioLM：音频生成的Transformer模型

多模态

• GPT-4V：视觉理解能力
• Gemini：原生多模态架构
• 统一架构处理文本、图像、音频

范式转变

从任务特定到通用模型：Transformer开启了大规模预训练+微调的时代

从人工特征到端到端学习：Transformer实现了真正的端到端学习

从单一模态到多模态统一：Transformer统一了不同模态的处理方式

从模型设计到数据规模：Transformer证明了数据规模的重要性（Scaling Law）

学习成果

完成本章后，你将：

1理解Transformer诞生的历史背景和2017年论文的核心贡献
2掌握Transformer相比RNN/LSTM/CNN的核心优势（并行性、全局注意力、可扩展性）
3了解Encoder-Decoder结构的基本原理和关键创新点
4理解Transformer对AI领域的范式转变意义和影响范围

上一章：架构篇概述下一章：Transformer 的核心机制