如何获得首批SFT精调数据？

如何获得首批SFT精调数据？
高质量训练数据要求：
√场景一致：训练样本分布要与真实业务场景相吻合，并覆盖边界场景
　　□单轮/多轮分布、业务场景分布(用户Query意图/标签/...)
√语义清晰：Prompt意图清晰、语义独立，描述简洁易懂
√指令遵循：Response严格遵循Prompt，指令均被满足
　　□字数、主题、人设、关键词.…
　　□若含Markdown/JSON格式，需严格遵循相应语法
√语法规范：符合中文用语规范、标点符号规整
　　□正确使用句号、分号、列表、换行等标点
　　□剔除无意义的特殊字符
√价值观对齐:确保客观事实准确、数据脱敏、安全无害

训练数据构建常见难点：
√没数据：没有历史业务积累，难以找到符合业务场景的数据
√格式乱：数据格式混杂，不符合SFT精调数据格式
√质量低：数据中语法错误，问答不匹配，需要依赖人工改写

模型蒸馏（过程）
通过「Prompt:海量、真实的用户问题」

去请求一个能力非常强的旗舰级模型(老师)进行训练

来得到「Response:高质量的模型回答」

进而得到格式标准、丰富且高质量的训练数据集

这样得到一个轻量大模型(学生)