Note

这是一篇面向“大模型落地与工程实践”的小导航,聚焦几个高频且彼此相关的概念:Scaling Law、RLHF、Distillation、MoE、RAG。

一、为什么把它们归到一类

如果说 06 Transformer 解释了现代大模型“底层主流架构”,那么下面这几个概念更偏向回答:

  • 模型为什么会越做越强
  • 模型怎样更符合人类偏好与指令
  • 模型为什么还能再压缩
  • 模型怎么在能力和成本之间折中
  • 模型怎么接入外部知识、变得更实用

它们共同构成了“大模型工程化”的核心视角。

二、概念导航

1. Scaling Law

关键词:做大、扩展、能力提升规律

一句话理解:

当模型、数据和算力一起扩展时,模型性能往往会按某种规律持续提升。

它解释了为什么大模型时代会持续追求更大参数、更大数据和更大算力。

2. RLHF(基于人类反馈的强化学习)

关键词:对齐、人类偏好、可用助手

一句话理解:

用人类反馈继续优化模型,让模型更符合指令和人类预期。

它解释的是:模型不只是要“会生成”,还要“更会按人喜欢的方式生成”。

3. Distillation(知识蒸馏)

关键词:压缩、迁移、小模型继承能力

一句话理解:

让小模型向大模型学习,以更低成本继承部分能力。

它对应的是另一条现实路线:模型做强之后,不一定总是直接上线,而是常常会蒸馏出更轻量的版本。

4. 05 MoE(混合专家模型)

关键词:稀疏激活、参数很多、每次只用一部分

一句话理解:

让模型拥有更多参数,但每次推理只激活少数专家,从而兼顾能力和成本。

MoE 是大模型工程里非常典型的“性能 / 成本折中方案”。

5. 09 RAG(检索增强生成)

关键词:外部知识、检索增强、降低幻觉

一句话理解:

让模型回答前先检索资料,再结合检索结果生成答案。

RAG 不是改模型参数本身,而是通过系统设计增强大模型的可用性、可更新性和可追溯性。

三、把它们放在一起看

可以粗略理解成这样:

Transformer

Scaling Law:解释为什么可以越做越大

LLM:形成通用大模型能力
  ├── RLHF:让模型更符合人类偏好与指令
  ├── Distillation:把能力压缩给更小模型
  ├── MoE:用稀疏激活提升参数利用效率
  └── RAG:用外部检索增强真实应用能力

四、工程视角下的四个问题

Scaling Law 回答:

  • 为什么模型越大往往越强?

RLHF 回答:

  • 为什么模型需要更符合人类偏好和指令?

Distillation 回答:

  • 为什么模型做强后还要再做小?

MoE 回答:

  • 怎么在“参数规模大”和“推理成本可控”之间折中?

RAG 回答:

  • 怎么让模型接入最新知识、私有知识,并减少幻觉?

五、建议阅读顺序

如果是第一次系统理解这组概念,建议顺序:

  1. 06 Transformer
  2. 08 LLM(大模型)
  3. Scaling Law
  4. RLHF(基于人类反馈的强化学习)
  5. Distillation(知识蒸馏)
  6. 05 MoE(混合专家模型)
  7. 09 RAG(检索增强生成)

相关链接