大模型Fine-tuning微调入门：何时微调、怎么微调、成本分析

什么是Fine-tuning？

Fine-tuning（微调）是在预训练大模型基础上，用特定领域数据继续训练，使模型掌握专业知识或特定风格的技术。相比从零训练，微调成本低、效果好。

微调 vs Prompt Engineering vs RAG：

以下场景适合微调：

以下场景不需要微调：

1. 全量微调（Full Fine-tuning）

更新模型所有参数，效果最好，但显存需求极高（7B模型需要约80GB显存），成本最高。适合有大量高质量数据和充足算力的场景。

2. LoRA（Low-Rank Adaptation）

只训练少量附加参数（原模型参数量的0.1%-1%），效果接近全量微调，显存需求大幅降低。7B模型用LoRA只需约16GB显存。是目前最主流的微调方法。

3. QLoRA（Quantized LoRA）

在LoRA基础上对模型进行4-bit量化，7B模型只需约6GB显存即可微调，消费级显卡（RTX 3090/4090）可用。效果略低于LoRA，但成本最低。

高质量数据是微调成功的关键：

数据格式示例（Alpaca格式）：

{
  "instruction": "将以下客户投诉转化为正式回复",
  "input": "你们的快递太慢了，等了一周还没到！",
  "output": "尊敬的客户，感谢您的反馈。我们对您的等待深感抱歉，已为您紧急跟进此订单..."
}

云API微调（最简单）：

自建微调（开源模型）：

Fine-tuning适合需要固定风格、格式或垂直领域知识的场景，不适合频繁更新知识的场景（用RAG更合适）。方法选择：入门用OpenAI API微调，进阶用QLoRA本地/云端微调开源模型。数据质量远比数量重要，500条精心标注的数据往往优于5000条粗糙数据。