LLM（大模型）

是什么

大模型（Large Language Model, LLM）通常指基于海量数据训练、拥有大规模参数的语言模型。

它的核心能力是：

理解自然语言
生成自然语言
在上下文中完成问答、总结、改写、翻译、推理、代码生成等任务

如果用一句话概括：

大模型是建立在深度学习之上的通用语言能力系统。

为什么叫“大”模型

“大”通常体现在几个方面：

参数规模大：从数亿、数十亿到上千亿参数
训练数据大：使用海量文本、代码、多模态数据训练
计算规模大：训练和推理都需要大量算力
能力覆盖广：不是只做单一分类任务，而是能处理很多语言任务

这背后的一个重要背景，就是 Scaling Law：当模型、数据和算力一起扩展时，性能往往会持续提升，因此“大”本身就变成了能力来源的一部分。

和传统模型的区别

相对传统 NLP 模型，大模型有几个明显特征：

不再只针对单任务设计
更强调通用能力
可以通过 prompt 直接完成多种任务
能进行零样本、少样本任务迁移

也就是说，以前常常是：

一个任务训练一个模型

而现在更多是：

一个大模型，通过不同提示完成很多任务

底层基础

大模型并不是凭空出现的，它建立在一系列深度学习技术之上：

01 神经网络：基础框架
02 反向传播：训练方法
06 Transformer：现代大模型核心架构
05 MoE（混合专家模型）：部分大模型使用的扩展架构
09 RAG（检索增强生成）：常见的大模型外部知识增强方式

典型能力

1. 文本生成

如：

写作
改写
总结
翻译

2. 对话与问答

可以围绕上下文持续进行多轮交流。

3. 推理与分析

包括：

分类
归纳
比较
结构化提取
一定程度的逻辑推理

4. 代码能力

许多大模型也能：

写代码
解释代码
修改代码
辅助调试

5. 工具调用与 Agent 化

现代大模型常常不只“生成文字”，还会进一步：

调用搜索
调用数据库
调用外部 API
驱动工具与自动化流程

RLHF（基于人类反馈的强化学习）

是什么

RLHF（Reinforcement Learning from Human Feedback）指的是：

先让人类对模型输出进行偏好标注，再利用这些偏好信号去进一步优化模型，让模型更符合人类预期。

它通常不是大模型最初“学会语言”的阶段，而是发生在预训练之后，用来做对齐（alignment）和行为优化。

为什么重要

一个模型即使已经很会“预测下一个词”，也不一定天然：

更有帮助
更安全
更符合指令
更符合人类偏好

RLHF 的价值就在于把“人喜欢什么样的回答”纳入训练目标。

直观流程

可以粗略理解成三步：

预训练模型：先获得基础语言能力
人类反馈 / 偏好数据：让人比较多个回答，选出更好的那个
基于偏好继续优化模型：让模型逐渐更倾向于产生人类偏好的输出

它改善了什么

RLHF 常用来提升：

指令跟随能力
对话体验
回答的有帮助程度
回答的安全性与可控性
拒答和边界行为

和大模型的关系

如果说预训练决定了模型“知道多少”，那么 RLHF 更像是在调整模型：

应该怎样说、怎样答、怎样更像一个可用的助手。

所以它是“大模型从会补全文本，走向可用助手”的关键步骤之一。

一句话理解

RLHF 就是用人类偏好来继续训练模型，让模型更像一个更懂人类意图的助手。

Distillation（知识蒸馏）

是什么

Distillation（知识蒸馏）指的是：

让一个更小的模型去学习一个更大模型（教师模型）的输出行为，从而把部分能力“压缩”到小模型里。

通常会有两类角色：

Teacher Model：更大、更强的教师模型
Student Model：更小、更便宜的学生模型

为什么重要

大模型能力强，但训练和推理成本高；而很多真实场景又希望：

更低延迟
更低成本
更小显存占用
更容易部署到本地、边缘或高并发场景

知识蒸馏的价值就在这里：

不直接使用最大的模型
而是让小模型学习大模型的行为模式
用更低成本保留一部分关键能力

直观理解

可以把它理解成：

大模型先“学会很多东西”
小模型再通过模仿大模型答案、分布或中间表示，学到一个压缩版能力

它不是把大模型完整复制一遍，而是尽量把“最有价值的能力”迁移到更小模型上。

常见用途

做轻量版模型
降低线上推理成本
提升小模型效果
让本地部署更现实
为特定任务做更高性价比的模型压缩

和大模型的关系

如果说 Scaling Law 解释了为什么模型会越做越大，那么 Distillation 则对应另一条现实路线：

先把模型做大、做强，再想办法把能力压回更小的模型。

所以它可以看成“大模型时代的压缩与迁移方法”。

一句话理解

Distillation 就是让小模型向大模型“拜师学艺”，用更低成本继承部分能力。

常见局限

大模型很强，但也有明显边界：

幻觉：可能一本正经地编错内容
知识截止：不知道训练后发生的新信息
上下文窗口有限：一次能处理的信息量并非无限
推理不总是可靠：尤其在复杂长链条任务上
成本较高：训练和推理都贵

这也是为什么很多实际系统会结合：

09 RAG（检索增强生成）
工具调用
工作流编排
模型路由与网关

常见代表

常见大模型家族包括：

GPT 系列
Claude 系列
Gemini 系列
LLaMA 系列
DeepSeek 系列
Mistral 系列

一句话理解

可以先粗略记成这样：

深度学习：方法论与技术基础
Transformer：现代主流架构
Scaling Law：解释为什么把模型、数据和算力做大之后，能力常常会继续提升
RLHF：解释为什么模型不只要会生成，还要更符合人类偏好与指令
Distillation：解释为什么大模型做强之后，还可以再把能力压缩给更小模型
大模型（LLM）：建立在这些基础上的通用语言模型
RAG / Agent / 工具调用：让大模型更能落地的系统能力

NeoXmind 数字花园

探索

LLM（大模型）

是什么

为什么叫“大”模型

和传统模型的区别

底层基础

典型能力

1. 文本生成

2. 对话与问答

3. 推理与分析

4. 代码能力

5. 工具调用与 Agent 化

RLHF（基于人类反馈的强化学习）

是什么

为什么重要

直观流程

它改善了什么

和大模型的关系

一句话理解

Distillation（知识蒸馏）

是什么

为什么重要

直观理解

常见用途

和大模型的关系

一句话理解

常见局限

常见代表

一句话理解

相关链接

关系图谱

目录

反向链接