Note
这是一篇面向“大模型落地与工程实践”的小导航,聚焦几个高频且彼此相关的概念:Scaling Law、RLHF、Distillation、MoE、RAG。
一、为什么把它们归到一类
如果说 06 Transformer 解释了现代大模型“底层主流架构”,那么下面这几个概念更偏向回答:
- 模型为什么会越做越强
- 模型怎样更符合人类偏好与指令
- 模型为什么还能再压缩
- 模型怎么在能力和成本之间折中
- 模型怎么接入外部知识、变得更实用
它们共同构成了“大模型工程化”的核心视角。
二、概念导航
1. Scaling Law
关键词:做大、扩展、能力提升规律
一句话理解:
当模型、数据和算力一起扩展时,模型性能往往会按某种规律持续提升。
它解释了为什么大模型时代会持续追求更大参数、更大数据和更大算力。
2. RLHF(基于人类反馈的强化学习)
关键词:对齐、人类偏好、可用助手
一句话理解:
用人类反馈继续优化模型,让模型更符合指令和人类预期。
它解释的是:模型不只是要“会生成”,还要“更会按人喜欢的方式生成”。
3. Distillation(知识蒸馏)
关键词:压缩、迁移、小模型继承能力
一句话理解:
让小模型向大模型学习,以更低成本继承部分能力。
它对应的是另一条现实路线:模型做强之后,不一定总是直接上线,而是常常会蒸馏出更轻量的版本。
4. 05 MoE(混合专家模型)
关键词:稀疏激活、参数很多、每次只用一部分
一句话理解:
让模型拥有更多参数,但每次推理只激活少数专家,从而兼顾能力和成本。
MoE 是大模型工程里非常典型的“性能 / 成本折中方案”。
5. 09 RAG(检索增强生成)
关键词:外部知识、检索增强、降低幻觉
一句话理解:
让模型回答前先检索资料,再结合检索结果生成答案。
RAG 不是改模型参数本身,而是通过系统设计增强大模型的可用性、可更新性和可追溯性。
三、把它们放在一起看
可以粗略理解成这样:
Transformer
↓
Scaling Law:解释为什么可以越做越大
↓
LLM:形成通用大模型能力
├── RLHF:让模型更符合人类偏好与指令
├── Distillation:把能力压缩给更小模型
├── MoE:用稀疏激活提升参数利用效率
└── RAG:用外部检索增强真实应用能力四、工程视角下的四个问题
Scaling Law 回答:
- 为什么模型越大往往越强?
RLHF 回答:
- 为什么模型需要更符合人类偏好和指令?
Distillation 回答:
- 为什么模型做强后还要再做小?
MoE 回答:
- 怎么在“参数规模大”和“推理成本可控”之间折中?
RAG 回答:
- 怎么让模型接入最新知识、私有知识,并减少幻觉?
五、建议阅读顺序
如果是第一次系统理解这组概念,建议顺序:
- 06 Transformer
- 08 LLM(大模型)
- Scaling Law
- RLHF(基于人类反馈的强化学习)
- Distillation(知识蒸馏)
- 05 MoE(混合专家模型)
- 09 RAG(检索增强生成)