是什么

大模型(Large Language Model, LLM)通常指基于海量数据训练、拥有大规模参数的语言模型。

它的核心能力是:

  • 理解自然语言
  • 生成自然语言
  • 在上下文中完成问答、总结、改写、翻译、推理、代码生成等任务

如果用一句话概括:

大模型是建立在深度学习之上的通用语言能力系统。

为什么叫“大”模型

“大”通常体现在几个方面:

  • 参数规模大:从数亿、数十亿到上千亿参数
  • 训练数据大:使用海量文本、代码、多模态数据训练
  • 计算规模大:训练和推理都需要大量算力
  • 能力覆盖广:不是只做单一分类任务,而是能处理很多语言任务

这背后的一个重要背景,就是 Scaling Law:当模型、数据和算力一起扩展时,性能往往会持续提升,因此“大”本身就变成了能力来源的一部分。

和传统模型的区别

相对传统 NLP 模型,大模型有几个明显特征:

  • 不再只针对单任务设计
  • 更强调通用能力
  • 可以通过 prompt 直接完成多种任务
  • 能进行零样本、少样本任务迁移

也就是说,以前常常是:

  • 一个任务训练一个模型

而现在更多是:

  • 一个大模型,通过不同提示完成很多任务

底层基础

大模型并不是凭空出现的,它建立在一系列深度学习技术之上:

典型能力

1. 文本生成

如:

  • 写作
  • 改写
  • 总结
  • 翻译

2. 对话与问答

可以围绕上下文持续进行多轮交流。

3. 推理与分析

包括:

  • 分类
  • 归纳
  • 比较
  • 结构化提取
  • 一定程度的逻辑推理

4. 代码能力

许多大模型也能:

  • 写代码
  • 解释代码
  • 修改代码
  • 辅助调试

5. 工具调用与 Agent 化

现代大模型常常不只“生成文字”,还会进一步:

  • 调用搜索
  • 调用数据库
  • 调用外部 API
  • 驱动工具与自动化流程

RLHF(基于人类反馈的强化学习)

是什么

RLHF(Reinforcement Learning from Human Feedback)指的是:

先让人类对模型输出进行偏好标注,再利用这些偏好信号去进一步优化模型,让模型更符合人类预期。

它通常不是大模型最初“学会语言”的阶段,而是发生在预训练之后,用来做对齐(alignment)和行为优化。

为什么重要

一个模型即使已经很会“预测下一个词”,也不一定天然:

  • 更有帮助
  • 更安全
  • 更符合指令
  • 更符合人类偏好

RLHF 的价值就在于把“人喜欢什么样的回答”纳入训练目标。

直观流程

可以粗略理解成三步:

  1. 预训练模型:先获得基础语言能力
  2. 人类反馈 / 偏好数据:让人比较多个回答,选出更好的那个
  3. 基于偏好继续优化模型:让模型逐渐更倾向于产生人类偏好的输出

它改善了什么

RLHF 常用来提升:

  • 指令跟随能力
  • 对话体验
  • 回答的有帮助程度
  • 回答的安全性与可控性
  • 拒答和边界行为

和大模型的关系

如果说预训练决定了模型“知道多少”,那么 RLHF 更像是在调整模型:

应该怎样说、怎样答、怎样更像一个可用的助手。

所以它是“大模型从会补全文本,走向可用助手”的关键步骤之一。

一句话理解

RLHF 就是用人类偏好来继续训练模型,让模型更像一个更懂人类意图的助手。

Distillation(知识蒸馏)

是什么

Distillation(知识蒸馏)指的是:

让一个更小的模型去学习一个更大模型(教师模型)的输出行为,从而把部分能力“压缩”到小模型里。

通常会有两类角色:

  • Teacher Model:更大、更强的教师模型
  • Student Model:更小、更便宜的学生模型

为什么重要

大模型能力强,但训练和推理成本高;而很多真实场景又希望:

  • 更低延迟
  • 更低成本
  • 更小显存占用
  • 更容易部署到本地、边缘或高并发场景

知识蒸馏的价值就在这里:

  • 不直接使用最大的模型
  • 而是让小模型学习大模型的行为模式
  • 用更低成本保留一部分关键能力

直观理解

可以把它理解成:

  • 大模型先“学会很多东西”
  • 小模型再通过模仿大模型答案、分布或中间表示,学到一个压缩版能力

它不是把大模型完整复制一遍,而是尽量把“最有价值的能力”迁移到更小模型上。

常见用途

  • 做轻量版模型
  • 降低线上推理成本
  • 提升小模型效果
  • 让本地部署更现实
  • 为特定任务做更高性价比的模型压缩

和大模型的关系

如果说 Scaling Law 解释了为什么模型会越做越大,那么 Distillation 则对应另一条现实路线:

先把模型做大、做强,再想办法把能力压回更小的模型。

所以它可以看成“大模型时代的压缩与迁移方法”。

一句话理解

Distillation 就是让小模型向大模型“拜师学艺”,用更低成本继承部分能力。

常见局限

大模型很强,但也有明显边界:

  • 幻觉:可能一本正经地编错内容
  • 知识截止:不知道训练后发生的新信息
  • 上下文窗口有限:一次能处理的信息量并非无限
  • 推理不总是可靠:尤其在复杂长链条任务上
  • 成本较高:训练和推理都贵

这也是为什么很多实际系统会结合:

常见代表

常见大模型家族包括:

  • GPT 系列
  • Claude 系列
  • Gemini 系列
  • LLaMA 系列
  • DeepSeek 系列
  • Mistral 系列

一句话理解

可以先粗略记成这样:

  • 深度学习:方法论与技术基础
  • Transformer:现代主流架构
  • Scaling Law:解释为什么把模型、数据和算力做大之后,能力常常会继续提升
  • RLHF:解释为什么模型不只要会生成,还要更符合人类偏好与指令
  • Distillation:解释为什么大模型做强之后,还可以再把能力压缩给更小模型
  • 大模型(LLM):建立在这些基础上的通用语言模型
  • RAG / Agent / 工具调用:让大模型更能落地的系统能力

相关链接