LLM 微调流程图示例

以下微调流水线示例展示了同样的数据集-训练-评估-部署骨架如何随训练方法变化——参数高效的 LoRA、全量 SFT、偏好微调，以及持续重训循环。

真实案例

使用场景: 在单张 GPU 上微调的开发者

基座模型冻结；只训练小的适配器权重

数据集：几千条任务特定样本

训练可在一张消费级或云 GPU 上完成

输出：小的 LoRA 适配器，而非完整模型副本

部署：服务时加载基座模型 + 适配器

这样组织的原因: LoRA 是最易上手的微调方法——图表展示基座模型冻结、只训练适配器，这正是它能在普通硬件上运行、并产出小而可替换的适配器（而非完整模型）的原因。

使用场景: 有预算更新全部模型权重的团队

训练期间更新所有模型参数

需要多 GPU 和更大的精选数据集

按间隔把检查点保存到仓库

更重的评估：对基座能力做回归测试

输出：完整的微调模型工件

这样组织的原因: 全量 SFT 更新每个权重——图表增加检查点和回归评估，因为改变所有参数有损害基座模型通用能力的风险，必须在部署前衡量。

使用场景: 把模型对齐到人类偏好的团队

阶段 1：在示范数据上做 SFT

阶段 2：收集偏好对（被选 vs 被拒）

阶段 3：DPO 或 RLHF 针对偏好优化

奖励模型（RLHF）或直接优化（DPO）

评估：相对 SFT 基线的胜率

这样组织的原因: 偏好微调在 SFT 之后增加第二个训练阶段——图表展示偏好数据和奖励信号，因为对齐到人类偏好与模仿示范是不同的目标。

使用场景: 随新数据到来而重训的团队

生产反馈回流进数据集

在不断增长的数据集上定时重训

每次运行都对线上模型评估

冠军-挑战者：新模型必须胜过当前

评估回退时自动回滚

这样组织的原因: 持续微调闭合了从生产回到训练的循环——图表增加反馈路径和冠军-挑战者关卡，于是新模型只有在可衡量地胜出时才替换线上模型。

回到模板页，直接替换成你的课程主题、章节和复习重点，就可以继续使用这套结构。