是什么
大模型(Large Language Model, LLM)通常指基于海量数据训练、拥有大规模参数的语言模型。
它的核心能力是:
- 理解自然语言
- 生成自然语言
- 在上下文中完成问答、总结、改写、翻译、推理、代码生成等任务
如果用一句话概括:
大模型是建立在深度学习之上的通用语言能力系统。
为什么叫“大”模型
“大”通常体现在几个方面:
- 参数规模大:从数亿、数十亿到上千亿参数
- 训练数据大:使用海量文本、代码、多模态数据训练
- 计算规模大:训练和推理都需要大量算力
- 能力覆盖广:不是只做单一分类任务,而是能处理很多语言任务
这背后的一个重要背景,就是 Scaling Law:当模型、数据和算力一起扩展时,性能往往会持续提升,因此“大”本身就变成了能力来源的一部分。
和传统模型的区别
相对传统 NLP 模型,大模型有几个明显特征:
- 不再只针对单任务设计
- 更强调通用能力
- 可以通过 prompt 直接完成多种任务
- 能进行零样本、少样本任务迁移
也就是说,以前常常是:
- 一个任务训练一个模型
而现在更多是:
- 一个大模型,通过不同提示完成很多任务
底层基础
大模型并不是凭空出现的,它建立在一系列深度学习技术之上:
- 01 神经网络:基础框架
- 02 反向传播:训练方法
- 06 Transformer:现代大模型核心架构
- 05 MoE(混合专家模型):部分大模型使用的扩展架构
- 09 RAG(检索增强生成):常见的大模型外部知识增强方式
典型能力
1. 文本生成
如:
- 写作
- 改写
- 总结
- 翻译
2. 对话与问答
可以围绕上下文持续进行多轮交流。
3. 推理与分析
包括:
- 分类
- 归纳
- 比较
- 结构化提取
- 一定程度的逻辑推理
4. 代码能力
许多大模型也能:
- 写代码
- 解释代码
- 修改代码
- 辅助调试
5. 工具调用与 Agent 化
现代大模型常常不只“生成文字”,还会进一步:
- 调用搜索
- 调用数据库
- 调用外部 API
- 驱动工具与自动化流程
RLHF(基于人类反馈的强化学习)
是什么
RLHF(Reinforcement Learning from Human Feedback)指的是:
先让人类对模型输出进行偏好标注,再利用这些偏好信号去进一步优化模型,让模型更符合人类预期。
它通常不是大模型最初“学会语言”的阶段,而是发生在预训练之后,用来做对齐(alignment)和行为优化。
为什么重要
一个模型即使已经很会“预测下一个词”,也不一定天然:
- 更有帮助
- 更安全
- 更符合指令
- 更符合人类偏好
RLHF 的价值就在于把“人喜欢什么样的回答”纳入训练目标。
直观流程
可以粗略理解成三步:
- 预训练模型:先获得基础语言能力
- 人类反馈 / 偏好数据:让人比较多个回答,选出更好的那个
- 基于偏好继续优化模型:让模型逐渐更倾向于产生人类偏好的输出
它改善了什么
RLHF 常用来提升:
- 指令跟随能力
- 对话体验
- 回答的有帮助程度
- 回答的安全性与可控性
- 拒答和边界行为
和大模型的关系
如果说预训练决定了模型“知道多少”,那么 RLHF 更像是在调整模型:
应该怎样说、怎样答、怎样更像一个可用的助手。
所以它是“大模型从会补全文本,走向可用助手”的关键步骤之一。
一句话理解
RLHF 就是用人类偏好来继续训练模型,让模型更像一个更懂人类意图的助手。
Distillation(知识蒸馏)
是什么
Distillation(知识蒸馏)指的是:
让一个更小的模型去学习一个更大模型(教师模型)的输出行为,从而把部分能力“压缩”到小模型里。
通常会有两类角色:
- Teacher Model:更大、更强的教师模型
- Student Model:更小、更便宜的学生模型
为什么重要
大模型能力强,但训练和推理成本高;而很多真实场景又希望:
- 更低延迟
- 更低成本
- 更小显存占用
- 更容易部署到本地、边缘或高并发场景
知识蒸馏的价值就在这里:
- 不直接使用最大的模型
- 而是让小模型学习大模型的行为模式
- 用更低成本保留一部分关键能力
直观理解
可以把它理解成:
- 大模型先“学会很多东西”
- 小模型再通过模仿大模型答案、分布或中间表示,学到一个压缩版能力
它不是把大模型完整复制一遍,而是尽量把“最有价值的能力”迁移到更小模型上。
常见用途
- 做轻量版模型
- 降低线上推理成本
- 提升小模型效果
- 让本地部署更现实
- 为特定任务做更高性价比的模型压缩
和大模型的关系
如果说 Scaling Law 解释了为什么模型会越做越大,那么 Distillation 则对应另一条现实路线:
先把模型做大、做强,再想办法把能力压回更小的模型。
所以它可以看成“大模型时代的压缩与迁移方法”。
一句话理解
Distillation 就是让小模型向大模型“拜师学艺”,用更低成本继承部分能力。
常见局限
大模型很强,但也有明显边界:
- 幻觉:可能一本正经地编错内容
- 知识截止:不知道训练后发生的新信息
- 上下文窗口有限:一次能处理的信息量并非无限
- 推理不总是可靠:尤其在复杂长链条任务上
- 成本较高:训练和推理都贵
这也是为什么很多实际系统会结合:
- 09 RAG(检索增强生成)
- 工具调用
- 工作流编排
- 模型路由与网关
常见代表
常见大模型家族包括:
- GPT 系列
- Claude 系列
- Gemini 系列
- LLaMA 系列
- DeepSeek 系列
- Mistral 系列
一句话理解
可以先粗略记成这样:
- 深度学习:方法论与技术基础
- Transformer:现代主流架构
- Scaling Law:解释为什么把模型、数据和算力做大之后,能力常常会继续提升
- RLHF:解释为什么模型不只要会生成,还要更符合人类偏好与指令
- Distillation:解释为什么大模型做强之后,还可以再把能力压缩给更小模型
- 大模型(LLM):建立在这些基础上的通用语言模型
- RAG / Agent / 工具调用:让大模型更能落地的系统能力