是什么
Transformer 是 2017 年提出的深度学习架构,几乎定义了现代大模型的发展方向。
原始论文:
- Attention Is All You Need(2017)
它解决了什么问题
相对于 RNN / LSTM,Transformer 主要解决:
- 长程依赖弱
- 无法高效并行训练
核心机制
自注意力(Self-Attention)
处理每个 token 时,可以参考整个序列。
Q / K / V
- Query
- Key
- Value
多头注意力(Multi-Head Attention)
让模型从多个角度同时关注不同关系。
位置编码(Positional Encoding)
补足顺序信息。
发明团队
- Ashish Vaswani(第一作者)
- Noam Shazeer
- Niki Parmar
- Jakob Uszkoreit
- Llion Jones
- Aidan Gomez
- Łukasz Kaiser
- Illia Polosukhin
影响
几乎所有现代大语言模型都是 Transformer 的变体或继承者,如 GPT、Claude、Gemini、LLaMA、DeepSeek。
Scaling Law
是什么
Scaling Law(尺度定律)指的是:
当模型参数、训练数据、计算量持续扩大时,模型性能往往会呈现出相对稳定、可预测的提升规律。
它是现代大模型时代非常关键的经验规律之一。
为什么重要
Scaling Law 让研究者逐渐意识到:
- 只要架构足够稳定
- 训练流程足够成熟
- 数据和算力持续增加
模型能力就可能继续提升,而不一定每次都需要全新的架构革命。
这也是为什么 Transformer 在提出后,能够一路扩展成今天的大模型体系。
直观理解
可以粗略理解成:
- 模型更大
- 数据更多
- 训练更久 / 计算更多
通常就更容易得到更强的结果。
当然,这不是无限成立的“线性增长”,而是说整体上存在一类可观测、可拟合的提升趋势。
和大模型的关系
现代 LLM 的很多发展路径,本质上都在利用 Scaling Law:
- 扩大参数规模
- 扩大训练语料
- 增加训练算力
- 优化参数量、数据量、算力之间的配比
因此,Transformer 不只是一个“好用的架构”,它还是一个**很适合被持续放大(scale up)**的架构。
一句话理解
Scaling Law 说明:在很多情况下,把模型、数据和算力做大,性能就会按某种规律持续变好。
相关链接
Tip
与 Scaling Law 相对,大模型工程里另一条重要思路是 Distillation(知识蒸馏):不是继续放大模型,而是把大模型能力压缩给更小模型。可结合 08 LLM(大模型) 一起理解。