深度解锁AI私有知识库:用 DeepSeek 和 RAGFlow 打造企业级智能平台
近日见闻
时间过的真快呀,又是一周结束了,最近AI和机器人的热度越来越高,能看到相关话题的文章越来越多。我在想,作为一个普通打工仔,我们能做什么,除了不断问AI生成答案,然后问完解决完就扔在脑后?想必不是长久之计,所以将知识沉淀,搭建一个私人知识库,来辅助自己建立脑中的知识库才是最重要的,今天就来给大家介绍如何利用开源项目打造一款私有AI
知识库!
前言
为何选择本地部署?
这个分个人还是企业,如果个人用,其实各种免费在线知识库也够用了,但对于企业来说可不能图方便,需考虑以下方面
数据隐私:使用本地部署方式,所有数据都保存在自己控制的服务器中,避免了外部服务带来的数据隐私泄露风险。
高度可定制:根据自身需求进行配置与扩展,能够灵活地适配各种业务场景。
智能问答:结合RAG和DeepSeek的能力,可以让知识库具备智能问答功能,提升工作效率。
可扩展性:支持大规模数据的处理与管理,能够持续扩展和更新知识库内容。
RAG技术原理
RAG(Retrieval-Augmented Generation)技术结合了信息检索和文本生成。当我们提出问题时,不仅可以根据问题内容从知识库中检索相关的信息,还能够根据检索到的信息生成准确且高质量的回答。这种方式比传统的生成模型更为准确,更适用于知识库的问答场景。
工具介绍
RAG | 介绍 | 功能 |
---|---|---|
Dify | 开源的 LLM 应用开发平台 | AI 工作流、RAG 管道、Agent、模型管理、可观测性功能 |
ima | 腾讯智能工作台 | 适合论文、作文、文案 |
FastGPT | 开箱即用的知识库问答 | 移动端知识库/客服应用 |
RAGFlow | 深度文档理解构建的开源 RAG | 复杂格式数据提供可靠的问答 |
Dify
Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。
社区版地址:
腾讯ima
腾讯发布的一款AI智能工作台产品,不但接入了自家的混元大模型,还有的满血DeepSeek,可以搜索微信公众号的内容,把公众号文章变成你的知识库,所以如果不喜欢自己折腾,就用这款产品吧。
官方地址:
/
FastGPT
FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景!
社区地址:
RAGFlow
RAGFlow 是一款基于深度文档理解构建的开源 RAG(Retrieval-Augmented Generation)引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程,结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。
社区地址:
/
以上这些工具大家可以根据喜好选择使用,希里安这里主要选择RAGFlow进行介绍,因为开源且支持商业化,可玩性和配置都较为灵活。
特点: 纯CPU运行、无需GPU
搭建步骤
步骤1:环境准备
首先,确保服务器或本地机器符合以下要求:
- • 操作系统:Linux或Windows
- • 内存:至少16GB,建议32GB以上
- • 存储空间:至少500GB的空闲磁盘空间,用于存储数据和模型
- • Docker:RAGFlow和DeepSeek都支持Docker部署,Docker >= 24.0.0 & Docker Compose >= v2.26.1
若尚未安装Docker(Windows、Mac,或者 Linux),可以参考官方文档进行安装
步骤2:安装Ollama
上篇文章周末用笔记本搞点大事:手把手教学部署 1.5、7B 版本 DeepSeek 智能助手,我用的是四五年前的windows系统的笔记本电脑,运行7B没什么压力,今天就给大家介绍在Linux中运行部署8B版本的步骤,且没有GPU的情况下
代码语言:javascript代码运行次数:0运行复制# 下载安装脚本
curl -fsSL .sh -o ollama_install.sh
# 替换官方下载地址,为了下载更快
sed -i 's|/|.5.7/|' ollama_install.sh
步骤3: 运行DeepSeek 8b模型
代码语言:javascript代码运行次数:0运行复制ollama pull deepseek-r1:8b
ollama run deepseek-r1:8b
负载情况: 分别为8C16G、32C32G
纯CPU运行,虽然输出稍慢,但也能接受,大家可以尝试以下
步骤4: 运行RAGFlow
RAGFlow可以Docker运行,部署非常简单。以下是安装步骤:
1.确保 vm.max_map_count 不小于 262144
如需确认 vm.max_map_count 的大小: sysctl vm.max_map_count如果 vm.max_map_count 的值小于 262144,可以进行重置:# 这里我们设为 262144: sudo sysctl -w vm.max_map_count=262144你的改动会在下次系统重启时被重置。如果希望做永久改动,还需要在 /etc/sysctl.conf 文件里把 vm.max_map_count 的值再相应更新一遍:vm.max_map_count=262144
2.克隆仓库:
打开终端,输入以下命令拉取RAGFlow代码:
代码语言:javascript代码运行次数:0运行复制git clone .git
- 3. 创建并启动容器:进入 docker 文件夹,利用提前编译好的 Docker 镜像启动服务器:运行以下命令会自动下载 RAGFlow slim Docker 镜像 v0.16.0-slim。请参考下表查看不同 Docker 发行版的描述。如需下载不同于 v0.16.0-slim 的 Docker 镜像,请在运行 docker compose 启动服务之前先更新 docker/.env 文件内的 RAGFLOW_IMAGE 变量。比如,你可以通过设置 RAGFLOW_IMAGE=infiniflow/ragflow:v0.16.0 来下载 RAGFlow 镜像的 v0.16.0 完整发行版。
$ cd ragflow/docker
$ docker compose -f docker-compose.yml up -d
- 4. 服务器启动成功后再次确认服务器状态:
$ docker logs -f ragflow-server
出现以下界面提示说明服务器启动成功:
代码语言:javascript代码运行次数:0运行复制 ____ ___ ______ ______ __
/ __ \ / | / ____// ____// /____ _ __
/ /_/ // /| | / / __ / /_ / // __ \| | /| / /
/ _, _// ___ |/ /_/ // __/ / // /_/ /| |/ |/ /
/_/ |_|/_/ |_|\____//_/ /_/ \____/ |__/|__/
* Running on all addresses (0.0.0.0)
* Running on http://127.0.0.1:9380
* Running on http://x.x.x.x:9380
INFO:werkzeug:Press CTRL+C to quit
系统配置注意事项
系统配置涉及以下三份文件:
.env:存放一些基本的系统环境变量,比如
SVR_HTTP_PORT、MYSQL_PASSWORD、MINIO_PASSWORD
等。 service_conf.yaml.template:配置各类后台服务。 docker-compose.yml: 系统依赖该文件完成启动。请务必确保
.env
文件中的变量设置与service_conf.yaml.template
文件中的配置保持一致!如果不能访问镜像站点hub.docker
或者模型站点huggingface.co
,请按照.env
注释修改RAGFLOW_IMAGE 和 HF_ENDPOINT
。
步骤5:登录并配置RAGFlow
- 1. 登录:
- 2. 检查Ollama状态:
步骤6:整合RAGFlow与DeepSeek
- 1. 连接RAGFlow与DeepSeek:在RAGFlow的配置界面中,找到“模型提供商”设置项,将DeepSeek的API地址填入RAGFlow中。这样,RAGFlow就可以在检索到相关信息后,调用DeepSeek进行问答生成。
- 2. 调整配置参数:根据实际需要,您可以调整RAGFlow和DeepSeek的配置参数。例如,设置检索的优先级,调整模型的推理速度与质量等。
步骤7:私有知识库创建配置
- 1. 创建知识库:通过RAGFlow的Web界面,可以输入问题并测试系统的回答是否准确。确保系统能够根据上传的文档和DeepSeek的推理能力给出正确的答案。
- 2. 配置知识库模型:
- • 调整RAGFlow中的检索引擎,选择更合适的检索算法。
- • 针对DeepSeek进行性能优化,设置合理的硬件资源。
步骤8:测试优化
- 1. 上传文件:向RAGFlow中添加新的文档,扩展知识库的内容。RAGFlow会自动更新向量索引,以确保信息检索的准确性。
- 2. 测试知识库文档:随着数据的积累,可以定期对DeepSeek进行再训练,以提高问答系统的准确性和智能性。可以看到回答会引用我们上传的文件里面的内容。
步骤9: 创建agent
这里创建一个SQL助手agent,它类似于一个智能调度员,能够连接外部知识库、API接口,甚至执行自定义任务,让检索增强生成(RAG)系统更加高效和智能。
四、总结
通过以上步骤,已经成功搭建了一个基于RAGFlow和DeepSeek的私有知识库。该系统能够保障数据隐私,提升工作效率,并且具备强大的智能问答功能。随着时间的推移,可以继续扩展你的知识库、更新模型,打造一个持续进化的智能平台。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-02-21,如有侵权请联系 cloudcommunity@tencent 删除数据系统DeepSeek模型配置发布者:admin,转转请注明出处:http://www.yc00.com/web/1748065061a4726288.html
评论列表(0条)