大语言模型微调

模型类别

我们目前支持Qwen2.5系列的多个纯文本对话类的模型微调，后续会支持更多模型。

数据集准备

数据集类型

对于纯文本类数据集，我们目前支持 OpenAI 的 messages 对话格式的类型，后续将支持更多类型。一轮对话典型的数据集格式如下所示：

{
    "messages": [
        {
            "role": "system",
            "content": "系统提示词（选填）"
        },
        {
            "role": "user",
            "content": "用户的问题内容"
        },
        {
            "role": "assistant",
            "content": "语言模型的回答内容"
        }
    ]
 }

一轮对话的数据由一条 messages的 json数据组成，包含三种角色：system 、user 、assistant，而 content包含该角色的会话内容。
system表示“系统提示词”，一轮对话只能有一条且必须是第一个，它是一个指令权重很高的内容，用于初步规范模型的通用行为。
user和 assistant分别表示“用户提示词”和“模型回复”。模型在训练中要根据会话记录学习 assistant的内容，因此数据集中要至少包含一对 user 和 assistant 的问答对。
会话不限长度，user和 assistant的会话内容可以不止一条。

数据集保存类型

我们目前仅支持 jsonl的保存格式，文件内容由多行 message 的对话数据组成，内容示例如下：

{"messages": [{"role": "system", "content": "you are a helpful assistant. "}, {"role": "user", "content": "什么是大语言模型？"}, {"role": "assistant", "content": "大语言模型（Large Language Model，简称LLM）是指使用大量文本数据训练的深度学习模型，能够生成自然语言文本或理解语言文本的含义，是自然语言处理领域的重要工具，可以处理多种自然语言任务"}]}
{"messages": [{"role": "system", "content": "you are a helpful assistant. "}, {"role": "user", "content": "请你证明费马大定理"}, {"role": "assistant", "content": "由于费马大定理的证明非常复杂且涉及高级的数学概念，我无法在这里给出一个完整的证明过程。"}]}
{"messages": [{"role": "system", "content": "you are a helpful assistant. "}, {"role": "user", "content": "热胀冷缩是什么导致的？"}, {"role": "assistant", "content": "热胀冷缩现象是物质的一种基本性质，其主要原因与物质内部的微观结构以及粒子间的相互作用有关。"}, {"role": "user", "content": "感谢你的回答！"}, {"role": "assistant", "content": "不用谢，很高兴可以帮到你，还有什么其他问题吗？"}]}

同时，您可以通过此处下载该文件用于参考。

模型微调

微调种类简介

SFT (监督微调)

监督微调（SFT）通过一个包含明确问题和答案的规范数据集继续训练一个已有的模型，使得最终训练好的模型生成的内容尽可能与数据集中相似。应用SFT微调的可能场景有：

提升模型在特定领域或场景的能力：原预训练模型的问答效果在特定场景或任务中较差，通过拿这些领域或场景的数据内容训练，模型可以学习这些场景下的回复内容、格式、语气等，以提升相应的能力。
有限数据的训练：SFT微调不要求预训练那样巨量的数据，仅需很少且质量很高的数据，就可以以更低成本的让模型实现回复预期内容。
知识蒸馏：往往在行业中，仅需使用模型某项很强的能力，但该模型又因为尺寸很大导致使用成本过高。通过使用该模型生成的数据继续训练一个成本更低的且可以达到预期效果的模型部署，可以显著降低在指定项目的使用成本。