查看“如何获得首批SFT精调数据?”的源代码
←
如何获得首批SFT精调数据?
跳转至:
导航
、
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
{{4}} '''如何获得首批[[SFT]]精调数据?'''<br> '''高质量训练数据要求:'''<br> √场景一致:训练样本分布要与真实业务场景相吻合,并覆盖边界场景<br> □单轮/多轮分布、业务场景分布(用户[[Query]]意图/标签/...)<br> √语义清晰:[[Prompt]]意图清晰、语义独立,描述简洁易懂<br> √指令遵循:[[Response]]严格遵循Prompt,指令均被满足<br> □字数、主题、人设、关键词.…<br> □若含[[Markdown/JSON]]格式,需严格遵循相应语法<br> √语法规范:符合中文用语规范、标点符号规整<br> □正确使用句号、分号、列表、换行等标点<br> □剔除无意义的特殊字符<br> √价值观对齐:确保客观事实准确、数据脱敏、安全无害<br> ---- '''训练数据构建常见难点:'''<br> √没数据:没有历史业务积累,难以找到符合业务场景的数据<br> √格式乱:数据格式混杂,不符合[[SFT]]精调数据格式<br> √质量低:数据中语法错误,问答不匹配,需要依赖人工改写 ---- '''模型蒸馏(过程)'''<br> 通过'''「[[Prompt]]:海量、真实的用户问题」'''<br> <br> 去请求一个能力非常强的'''旗舰级模型(老师)'''进行训练<br> <br> 来得到'''「[[Response]]:高质量的模型回答」'''<br> <br> 进而得到'''格式标准、丰富且高质量的训练数据集'''<br> <br> 这样得到一个'''轻量大模型(学生)'''
该页面使用的模板:
模板:4
(
查看源代码
)
返回至
如何获得首批SFT精调数据?
。
导航菜单
个人工具
登录
名字空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
社区主页
新闻动态
最近更改
随机页面
帮助
华师附中老三届
站群链接
社友网(sn)
产品百科(cpwiki)
产品与服务(sn)
社区支持农业(sn)
工具
链入页面
相关更改
特殊页面
页面信息