“如何获得首批SFT精调数据?”的版本间的差异

来自通约智库
跳转至: 导航搜索
(创建页面,内容为“{{4}} '''如何获得首批SFT精调数据?'''<br> '''高质量训练数据要求:'''<br> √场景一致:训练样本分布要与真实业务场景相吻…”)
 
 
第12行: 第12行:
 
  □剔除无意义的特殊字符<br>
 
  □剔除无意义的特殊字符<br>
 
√价值观对齐:确保客观事实准确、数据脱敏、安全无害<br>
 
√价值观对齐:确保客观事实准确、数据脱敏、安全无害<br>
 +
----
 
'''训练数据构建常见难点:'''<br>
 
'''训练数据构建常见难点:'''<br>
 
√没数据:没有历史业务积累,难以找到符合业务场景的数据<br>
 
√没数据:没有历史业务积累,难以找到符合业务场景的数据<br>
 
√格式乱:数据格式混杂,不符合[[SFT]]精调数据格式<br>
 
√格式乱:数据格式混杂,不符合[[SFT]]精调数据格式<br>
 
√质量低:数据中语法错误,问答不匹配,需要依赖人工改写
 
√质量低:数据中语法错误,问答不匹配,需要依赖人工改写
 +
----
 +
'''模型蒸馏(过程)'''<br>
 +
通过'''「[[Prompt]]:海量、真实的用户问题」'''<br>
 +
<br>
 +
去请求一个能力非常强的'''旗舰级模型(老师)'''进行训练<br>
 +
<br>
 +
来得到'''「[[Response]]:高质量的模型回答」'''<br>
 +
<br>
 +
进而得到'''格式标准、丰富且高质量的训练数据集'''<br>
 +
<br>
 +
这样得到一个'''轻量大模型(学生)'''

2024年12月9日 (一) 05:30的最新版本

如何获得首批SFT精调数据?
高质量训练数据要求:
√场景一致:训练样本分布要与真实业务场景相吻合,并覆盖边界场景
  □单轮/多轮分布、业务场景分布(用户Query意图/标签/...)
√语义清晰:Prompt意图清晰、语义独立,描述简洁易懂
√指令遵循:Response严格遵循Prompt,指令均被满足
  □字数、主题、人设、关键词.…
  □若含Markdown/JSON格式,需严格遵循相应语法
√语法规范:符合中文用语规范、标点符号规整
  □正确使用句号、分号、列表、换行等标点
  □剔除无意义的特殊字符
√价值观对齐:确保客观事实准确、数据脱敏、安全无害


训练数据构建常见难点:
√没数据:没有历史业务积累,难以找到符合业务场景的数据
√格式乱:数据格式混杂,不符合SFT精调数据格式
√质量低:数据中语法错误,问答不匹配,需要依赖人工改写


模型蒸馏(过程)
通过Prompt:海量、真实的用户问题」

去请求一个能力非常强的旗舰级模型(老师)进行训练

来得到Response:高质量的模型回答」

进而得到格式标准、丰富且高质量的训练数据集

这样得到一个轻量大模型(学生)