第 1 章
Transformer 是什么?为什么它统治了 AI?
2017年,一篇名为"Attention is All You Need"的论文改变了AI领域。Transformer架构不仅解决了RNN/LSTM的序列处理问题,更成为了现代AI的基础,从GPT到BERT,从文本到图像,Transformer无处不在。
Transformer 的诞生
2017年6月,Google Brain团队发表了"Attention is All You Need"论文,提出了Transformer架构。这篇论文只有6位作者,却改变了整个AI领域的发展轨迹。
论文核心信息
1
论文标题:Attention is All You Need
2
发表时间:2017年6月(NIPS 2017)
3
作者团队:Google Brain(Vaswani等)
4
核心贡献:完全基于Attention机制,无需循环或卷积
历史背景
在Transformer之前,序列建模主要依赖RNN和LSTM:
- • RNN的困境:梯度消失问题,难以处理长序列
- • LSTM的改进:通过门控机制缓解梯度消失,但计算仍然串行
- • CNN的尝试:用于序列建模,但感受野受限
- • Transformer的突破:完全并行,全局注意力,彻底改变了序列建模
为什么 Transformer 成为主流?
Transformer并非第一个使用Attention的架构,但它通过完全摒弃循环和卷积,实现了真正的并行计算和全局依赖,这是它成功的关键。
vs RNN
- • 并行性:RNN必须串行处理,Transformer可以并行
- • 长距离依赖:RNN梯度消失,Transformer全局注意力
- • 训练速度:Transformer训练快10-100倍
- • 内存效率:Transformer内存使用更稳定
vs LSTM
- • 复杂度:LSTM有复杂的门控机制,Transformer结构更简单
- • 可扩展性:LSTM难以扩展到超大规模,Transformer可以
- • 表达能力:Transformer的注意力机制更灵活
- • 硬件友好:Transformer更适合GPU并行计算
vs CNN
- • 感受野:CNN需要多层才能扩大感受野,Transformer一步到位
- • 位置信息:CNN通过卷积核位置编码,Transformer用位置编码
- • 长序列:CNN处理长序列需要大量层,Transformer更高效
- • 通用性:Transformer统一架构,CNN需要针对不同任务设计
关键突破点
1
完全并行:所有位置同时计算,充分利用GPU并行能力
2
全局注意力:任意两个位置可以直接交互,无需多层传播
3
可扩展性:从1亿参数到1万亿参数,遵循Scaling Law
4
统一架构:文本、图像、音频都可以用Transformer处理
核心组件:Encoder-Decoder 结构
Transformer的核心是Encoder-Decoder架构,但实际应用中出现了多种变体。
标准 Transformer 架构
原始论文中的完整架构包含Encoder和Decoder两部分:
Encoder:理解输入序列,将输入编码为中间表示
Decoder:基于Encoder的输出和已生成的部分,生成目标序列
应用场景:机器翻译、文本摘要等序列到序列任务
架构变体
GPT(Decoder Only)
只有Decoder,自回归生成,适合文本生成任务
BERT(Encoder Only)
只有Encoder,双向理解,适合理解任务(分类、问答)
关键创新点
- • Self-Attention:让模型关注输入序列的不同部分
- • Multi-Head Attention:从多个角度理解信息
- • Positional Encoding:注入位置信息,弥补Attention的序列顺序缺失
- • Feed-Forward Network:非线性变换,增强表达能力
- • Residual Connection:解决深度网络的梯度消失问题
- • Layer Normalization:稳定训练过程
历史意义:AI 领域的范式转变
Transformer不仅是一个架构,更是AI领域的范式转变,它开启了大规模预训练模型的时代。
影响范围
自然语言处理
- • GPT系列:GPT-1/2/3/4,ChatGPT,改变了文本生成
- • BERT系列:BERT、RoBERTa、ALBERT,改变了文本理解
- • T5、BART:统一了文本任务框架
计算机视觉
- • Vision Transformer (ViT):将Transformer应用到图像
- • DETR:目标检测的Transformer方法
- • CLIP:多模态Transformer模型
语音处理
- • Whisper:OpenAI的语音识别模型
- • AudioLM:音频生成的Transformer模型
多模态
- • GPT-4V:视觉理解能力
- • Gemini:原生多模态架构
- • 统一架构处理文本、图像、音频
范式转变
1
从任务特定到通用模型:Transformer开启了大规模预训练+微调的时代
2
从人工特征到端到端学习:Transformer实现了真正的端到端学习
3
从单一模态到多模态统一:Transformer统一了不同模态的处理方式
4
从模型设计到数据规模:Transformer证明了数据规模的重要性(Scaling Law)
学习成果
完成本章后,你将:
- 1理解Transformer诞生的历史背景和2017年论文的核心贡献
- 2掌握Transformer相比RNN/LSTM/CNN的核心优势(并行性、全局注意力、可扩展性)
- 3了解Encoder-Decoder结构的基本原理和关键创新点
- 4理解Transformer对AI领域的范式转变意义和影响范围