第 1 章

Transformer 是什么?为什么它统治了 AI?

2017年,一篇名为"Attention is All You Need"的论文改变了AI领域。Transformer架构不仅解决了RNN/LSTM的序列处理问题,更成为了现代AI的基础,从GPT到BERT,从文本到图像,Transformer无处不在。

Transformer 的诞生

2017年6月,Google Brain团队发表了"Attention is All You Need"论文,提出了Transformer架构。这篇论文只有6位作者,却改变了整个AI领域的发展轨迹。

论文核心信息

1
论文标题:Attention is All You Need
2
发表时间:2017年6月(NIPS 2017)
3
作者团队:Google Brain(Vaswani等)
4
核心贡献:完全基于Attention机制,无需循环或卷积

历史背景

在Transformer之前,序列建模主要依赖RNN和LSTM:

  • RNN的困境:梯度消失问题,难以处理长序列
  • LSTM的改进:通过门控机制缓解梯度消失,但计算仍然串行
  • CNN的尝试:用于序列建模,但感受野受限
  • Transformer的突破:完全并行,全局注意力,彻底改变了序列建模

为什么 Transformer 成为主流?

Transformer并非第一个使用Attention的架构,但它通过完全摒弃循环和卷积,实现了真正的并行计算和全局依赖,这是它成功的关键。

vs RNN

  • 并行性:RNN必须串行处理,Transformer可以并行
  • 长距离依赖:RNN梯度消失,Transformer全局注意力
  • 训练速度:Transformer训练快10-100倍
  • 内存效率:Transformer内存使用更稳定

vs LSTM

  • 复杂度:LSTM有复杂的门控机制,Transformer结构更简单
  • 可扩展性:LSTM难以扩展到超大规模,Transformer可以
  • 表达能力:Transformer的注意力机制更灵活
  • 硬件友好:Transformer更适合GPU并行计算

vs CNN

  • 感受野:CNN需要多层才能扩大感受野,Transformer一步到位
  • 位置信息:CNN通过卷积核位置编码,Transformer用位置编码
  • 长序列:CNN处理长序列需要大量层,Transformer更高效
  • 通用性:Transformer统一架构,CNN需要针对不同任务设计

关键突破点

1
完全并行:所有位置同时计算,充分利用GPU并行能力
2
全局注意力:任意两个位置可以直接交互,无需多层传播
3
可扩展性:从1亿参数到1万亿参数,遵循Scaling Law
4
统一架构:文本、图像、音频都可以用Transformer处理

核心组件:Encoder-Decoder 结构

Transformer的核心是Encoder-Decoder架构,但实际应用中出现了多种变体。

标准 Transformer 架构

原始论文中的完整架构包含Encoder和Decoder两部分:

Encoder:理解输入序列,将输入编码为中间表示
Decoder:基于Encoder的输出和已生成的部分,生成目标序列
应用场景:机器翻译、文本摘要等序列到序列任务

架构变体

GPT(Decoder Only)

只有Decoder,自回归生成,适合文本生成任务

BERT(Encoder Only)

只有Encoder,双向理解,适合理解任务(分类、问答)

关键创新点

  • Self-Attention:让模型关注输入序列的不同部分
  • Multi-Head Attention:从多个角度理解信息
  • Positional Encoding:注入位置信息,弥补Attention的序列顺序缺失
  • Feed-Forward Network:非线性变换,增强表达能力
  • Residual Connection:解决深度网络的梯度消失问题
  • Layer Normalization:稳定训练过程

历史意义:AI 领域的范式转变

Transformer不仅是一个架构,更是AI领域的范式转变,它开启了大规模预训练模型的时代。

影响范围

自然语言处理

  • • GPT系列:GPT-1/2/3/4,ChatGPT,改变了文本生成
  • • BERT系列:BERT、RoBERTa、ALBERT,改变了文本理解
  • • T5、BART:统一了文本任务框架

计算机视觉

  • • Vision Transformer (ViT):将Transformer应用到图像
  • • DETR:目标检测的Transformer方法
  • • CLIP:多模态Transformer模型

语音处理

  • • Whisper:OpenAI的语音识别模型
  • • AudioLM:音频生成的Transformer模型

多模态

  • • GPT-4V:视觉理解能力
  • • Gemini:原生多模态架构
  • • 统一架构处理文本、图像、音频

范式转变

1
从任务特定到通用模型:Transformer开启了大规模预训练+微调的时代
2
从人工特征到端到端学习:Transformer实现了真正的端到端学习
3
从单一模态到多模态统一:Transformer统一了不同模态的处理方式
4
从模型设计到数据规模:Transformer证明了数据规模的重要性(Scaling Law)

学习成果

完成本章后,你将:

  • 1理解Transformer诞生的历史背景和2017年论文的核心贡献
  • 2掌握Transformer相比RNN/LSTM/CNN的核心优势(并行性、全局注意力、可扩展性)
  • 3了解Encoder-Decoder结构的基本原理和关键创新点
  • 4理解Transformer对AI领域的范式转变意义和影响范围