RAG 真的已死?为什么大上下文窗口还不够(至少目前如此)

OpenAI 最近发布的 GPT-4.1 震动了 AI 社区:惊人的 100 万 token 上下文窗口、精准度大幅提升,而 Gemini 2.5 在研究模式下甚至宣称支持高达 1000 万 token。作为一家 RAG 即服务创业公司的创

RAG 真的已死?为什么大上下文窗口还不够(至少目前如此)

OpenAI 最近发布的 GPT-4.1 震动了 AI 社区:惊人的 100 万 token 上下文窗口、精准度大幅提升,而 Gemini 2.5 在研究模式下甚至宣称支持高达 1000 万 token。作为一家 RAG 即服务创业公司的创始人,我的收件箱立刻被各种宣称 RAG 已死的消息塞满,建议我们在为时已晚之前赶紧转型。

但 RAG 真的已经死亡了吗?以下是为什么我们仍然坚定看好 RAG,尽管新型大上下文模型令人印象深刻。

无限上下文的幻觉

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可处理 100 万个上下文 token,而之前的 GPT-4o 模型最多可处理 12.8 万个。100 万个 token 相当于 8 个完整的 React 代码库,因此长上下文非常适合处理大型代码库或大量长文档。

GPT-4.1 能够可靠地处理 100 万 token 上下文长度的信息,并在注意相关文本和忽略长短上下文干扰项方面比 GPT-4o 更加可靠。长上下文理解是法律、编程、客户支持以及许多其他领域应用的关键能力。

大上下文模型看起来像是灵丹妙药。它们的宣传效果很诱人:

  • 毫不费力地处理海量数据
  • 简化的 API —— 不再需要复杂的索引和分块
  • 零遗漏结果(所有内容都在上下文中!)

但任何在实际场景中使用过超大上下文的人都知道,现实并非如此美好。

成本和速度:现实检验

考虑这个情况:一个典型的 RAG 查询大约是 1000 个 token,成本约 0.002 美元。将此扩展到完整的 100 万 token 上下文会使成本增加 1000 倍,达到每次查询约 2 美元。不仅仅是成本,速度也会受到严重影响。OpenAI 自己的演示显示,一个 45.6 万 token 的请求需要痛苦的 76 秒 —— 想象一下用户每次互动都要等待那么长时间。在规模化应用中,这些延迟是不可接受的。

代理工作流程会成倍增加痛苦

现代 AI 工作流程越来越多地利用代理方法 —— 多个链式 LLM 调用以达到最终结果。每一步都会增加成本和延迟。突然间,那个每次查询 2 美元的场景膨胀成了在财务和运营上对严肃应用来说不可行的方案。

引用:信任很重要

目前的大上下文模型无法有效处理引用。与 RAG 能够轻松引用源文本块不同,大上下文方法失去了关键的透明度。对于任何需要可验证性的应用 —— 法律、医疗、技术领域 —— RAG 仍然是不可替代的。

上下文仍有限制

当然,100 万 token 相当于约 20 本书,看起来很惊人。然而,这对于许多现实世界的企业来说还远远不够。我们与管理着数十亿 —— 是的,数十亿 —— token 的公司合作。即使是 1000 万 token 的上下文也远远不够。对于如此海量的数据,实用且可扩展的 token 经济学仍未解决。

结论

虽然未来可能会带来支持仅使用上下文窗口模型的突破,但现在需要实用的解决方案。目前,RAG 仍然是有意义、可扩展的 AI 应用的唯一可行选择。RAG 不仅没有消亡 —— 它正在茁壮成长。

所以,RAG 还没有死,它才刚刚开始。

后续有很多值得我们探究的技术方向,比如Deep Search,Deep Research以及Agentic RAG等

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。 原始发表:2025-04-16,如有侵权请联系 cloudcommunity@tencent 删除token代理工作流模型数据

发布者:admin,转转请注明出处:http://www.yc00.com/web/1747645995a4675323.html

相关推荐

  • RAG 真的已死?为什么大上下文窗口还不够(至少目前如此)

    OpenAI 最近发布的 GPT-4.1 震动了 AI 社区:惊人的 100 万 token 上下文窗口、精准度大幅提升,而 Gemini 2.5 在研究模式下甚至宣称支持高达 1000 万 token。作为一家 RAG 即服务创业公司的创

    10小时前
    10

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信