作者
Xavier
精通javase,javeWeb,SpringBoot,RabbitMQ,SpringCloud,mybatis,docker,redis,SpringMVC等技术,精通python,js等语言。正在学习Agent的路上。相信技术为本。
预训练模型如何变成专用助手?从全参数微调到参数高效微调(PEFT),再到基于人类反馈的强化学习(RLHF),一文厘清主流微调技术的原理与适用场景。
GPT-4、Claude、Llama 等基础模型经过海量文本预训练后,具备了强大的语言理解与生成能力。但它们是"通才"——对特定领域的专业性不足,对特定任务格式的遵从度不够。
微调(Fine-tuning) 就是用特定领域数据对预训练模型进行二次训练,使其在目标任务上表现更好。
LoRA(Low-Rank Adaptation) 是目前最流行的 PEFT 方法。核心思想:预训练模型的权重更新量是低秩的。
不直接更新原始权重矩阵 W,而是引入两个小矩阵 A(d×r)和 B(r×k)的乘积来近似更新量:
W' = W + ΔW = W + BA
其中秩 r ≪ min(d, k)只有 A 和 B 需要训练,原始权重 W 冻结不变。当 r=8、d=4096 时,参数量从 1670 万压缩到约 65536,减少约 256 倍。
QLoRA 在 LoRA 基础上加入量化:将模型权重从 16-bit 压缩到 4-bit 存储(NF4 格式)。这使得在单张 RTX 3090(24GB 显存)上微调 65B 模型成为可能。
三个关键技术:
RLHF(Reinforcement Learning from Human Feedback) 是 ChatGPT、Claude 等对话模型能够"听话"的核心技术,分三个阶段:
RLHF 的本质是将"人类认为好的回答"这一模糊概念,通过奖励模型转化为可优化的数值信号,再通过强化学习让 LLM 朝这个方向进化。