大模型工程化关键概念

Note

这是一篇面向“大模型落地与工程实践”的小导航，聚焦几个高频且彼此相关的概念：Scaling Law、RLHF、Distillation、MoE、RAG。

一、为什么把它们归到一类

如果说 06 Transformer 解释了现代大模型“底层主流架构”，那么下面这几个概念更偏向回答：

模型为什么会越做越强
模型怎样更符合人类偏好与指令
模型为什么还能再压缩
模型怎么在能力和成本之间折中
模型怎么接入外部知识、变得更实用

它们共同构成了“大模型工程化”的核心视角。

二、概念导航

1. Scaling Law

关键词：做大、扩展、能力提升规律

一句话理解：

当模型、数据和算力一起扩展时，模型性能往往会按某种规律持续提升。

它解释了为什么大模型时代会持续追求更大参数、更大数据和更大算力。

2. RLHF（基于人类反馈的强化学习）

关键词：对齐、人类偏好、可用助手

一句话理解：

用人类反馈继续优化模型，让模型更符合指令和人类预期。

它解释的是：模型不只是要“会生成”，还要“更会按人喜欢的方式生成”。

3. Distillation（知识蒸馏）

关键词：压缩、迁移、小模型继承能力

一句话理解：

让小模型向大模型学习，以更低成本继承部分能力。

它对应的是另一条现实路线：模型做强之后，不一定总是直接上线，而是常常会蒸馏出更轻量的版本。

4. 05 MoE（混合专家模型）

关键词：稀疏激活、参数很多、每次只用一部分

一句话理解：

让模型拥有更多参数，但每次推理只激活少数专家，从而兼顾能力和成本。

MoE 是大模型工程里非常典型的“性能 / 成本折中方案”。

5. 09 RAG（检索增强生成）

关键词：外部知识、检索增强、降低幻觉

一句话理解：

让模型回答前先检索资料，再结合检索结果生成答案。

RAG 不是改模型参数本身，而是通过系统设计增强大模型的可用性、可更新性和可追溯性。

三、把它们放在一起看

可以粗略理解成这样：

Transformer
  ↓
Scaling Law：解释为什么可以越做越大
  ↓
LLM：形成通用大模型能力
  ├── RLHF：让模型更符合人类偏好与指令
  ├── Distillation：把能力压缩给更小模型
  ├── MoE：用稀疏激活提升参数利用效率
  └── RAG：用外部检索增强真实应用能力

四、工程视角下的四个问题

Scaling Law 回答：

为什么模型越大往往越强？

RLHF 回答：

为什么模型需要更符合人类偏好和指令？

Distillation 回答：

为什么模型做强后还要再做小？

MoE 回答：

怎么在“参数规模大”和“推理成本可控”之间折中？

RAG 回答：

怎么让模型接入最新知识、私有知识，并减少幻觉？

五、建议阅读顺序

如果是第一次系统理解这组概念，建议顺序：

NeoXmind 数字花园

探索

大模型工程化关键概念

一、为什么把它们归到一类

二、概念导航

1. Scaling Law

2. RLHF（基于人类反馈的强化学习）

3. Distillation（知识蒸馏）

4. 05 MoE（混合专家模型）

5. 09 RAG（检索增强生成）

三、把它们放在一起看

四、工程视角下的四个问题

Scaling Law 回答：

RLHF 回答：

Distillation 回答：

MoE 回答：

RAG 回答：

五、建议阅读顺序

相关链接

关系图谱

目录

反向链接