RAG篇「数据集构建」保姆级教程来了!

Datawhale干货 作者:吴锦凤,Datawhale优秀学习者冬灵,Datawhale成员首篇:零基础入门:DeepSeek微调教程来了!前篇:微调篇「数据集构建」保姆级教程来了!这次是「数据集构建」保姆级教程第二篇,会持续更新。一、

RAG篇「数据集构建」保姆级教程来了!

Datawhale干货

作者:吴锦凤,Datawhale优秀学习者

冬灵,Datawhale成员

首篇:零基础入门:DeepSeek微调教程来了!

前篇:微调篇「数据集构建」保姆级教程来了!

这次是「数据集构建」保姆级教程第二篇,会持续更新。

一、构建属于自己的知识库

检索增强生成(Retrieval Augmented Generation),简称 RAG。在构建RAG(Retrieval-Augmented Generation)的向量知识库时,数据的处理方式直接影响系统的性能和可靠性。不能随意塞入未经处理的数据,否则可能导致检索效果差、生成结果不准确甚至安全隐患。

二、构建向量知识库数据集强调事项

构建向量知识库数据集的基本步骤与微调数据集(见前篇)基本一致,但有以下注意强调事项。

数据质量直接影响结果(向量知识库数据集严禁噪声与微调不一样!!!)

  • 问题:噪声、重复、低质数据会污染知识库,导致检索到无关内容。
  • 解决方案
    • 清洗数据:去除HTML标签、特殊符号、乱码等噪声。
    • 去重:合并相似内容,避免冗余数据干扰检索。
    • 标准化:统一文本格式(如日期、单位)、大小写、标点符号。
    • 质量筛选:优先保留权威来源、高可信度的内容。

数据与场景的匹配性

  • 问题:知识库与应用场景偏离会导致检索失效。
  • 解决方案
    • 场景过滤:仅保留与目标任务相关的数据(例如医疗场景需剔除无关行业内容)。
    • 动态更新:定期增量更新数据,避免时效性内容过期。
    • 冷启动优化:初期可引入人工标注的高质量种子数据。

安全与合规风险

  • 问题:随意导入数据可能泄露敏感信息或引入偏见。
  • 解决方案
    • 敏感信息过滤:使用NER识别并脱敏(如身份证号、电话号码)。
    • 偏见检测:通过公平性评估工具(如Fairness Indicators)筛查歧视性内容。
    • 权限控制:对知识库分级访问,限制敏感数据检索权限。

发布者:admin,转转请注明出处:http://www.yc00.com/web/1748060718a4725572.html

相关推荐

  • RAG篇「数据集构建」保姆级教程来了!

    Datawhale干货 作者:吴锦凤,Datawhale优秀学习者冬灵,Datawhale成员首篇:零基础入门:DeepSeek微调教程来了!前篇:微调篇「数据集构建」保姆级教程来了!这次是「数据集构建」保姆级教程第二篇,会持续更新。一、

    7小时前
    10

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信