什么是RAG?商业主管的简明指南
您的公司有数千份文档——政策、合同、产品规格、支持票证、会议记录。您的团队花费数小时在这些文档中寻找答案。现在想象一个人工智能可以立即搜索所有这些内容,并给您一个直接的答案,同时引用来源。这就是RAG,也是企业在2025年实际部署的最实用的AI应用之一。
但问题在于:大多数关于RAG的解释都是由工程师为工程师编写的。它们充满了向量嵌入、Transformer架构和余弦相似度分数。如果您是一个试图确定这项技术是否值得投资的企业主,这些都没有帮助。
所以我将以我向客户在咖啡厅解释的方式来解释RAG。无需博士学位。
目录
- RAG解决的问题
- RAG实际如何工作(咖啡厅解释)
- 为什么不直接使用ChatGPT?
- RAG的真实商业用例
- 构建RAG系统需要什么
- RAG系统的成本是多少?
- RAG vs. 微调 vs. 提示工程
- 企业在RAG方面犯的常见错误
- 何时RAG不是正确的解决方案
- 常见问题
RAG解决的问题
让我为您描绘一幅画面。您正在经营一家有50名员工的公司。在过去的十年中,您已经积累了:
- Zendesk中3000多张支持票证
- Notion中500多页内部文档
- Google Drive中200多份合同
- 无数包含机构知识的Slack线程
- 散落在Confluence、PDF和电子邮件中的产品规格
现在一位新员工问:"我们对于Q3 2024之前购买的企业客户的退货政策是什么?"
某位资深员工可能知道答案。但他们在开会。所以新员工花45分钟搜索文档,找到了三个略有不同的退货政策版本,并选择了看起来最新的那个。也许他们答对了。也许他们没有。
这就是知识检索问题。问题不在于信息不存在——问题在于从多个来源查找和综合信息需要大量时间和脑力,这些时间和脑力本可以花在实际工作上。
RAG通过让AI模型搜索您的文档、提取相关部分并生成自然语言答案来解决这个问题——并引用指向源文档的来源。
RAG实际如何工作(咖啡厅解释)
RAG代表检索增强生成。让我们将其分解为简单的英语:
- 检索:查找相关文档
- 增强:使用这些文档来增强AI的响应
- 生成:生成可读的答案
将其视为一个真正聪明的研究助手。以下是分步骤的流程:
第1步:您的文档被组织
在其他任何事情之前,您的文档需要被处理。系统将它们分解成较小的块(段落、部分、页面),并为每个块创建一种"指纹"。这些指纹捕获了块关于什么,而不仅仅是它包含什么单词。
技术人员称这些指纹为"嵌入",并将其存储在"向量数据库"中。您不需要记住这些术语。只需了解此步骤将您混乱的文档堆转换为计算机可以按意义搜索的内容,而不仅仅是按关键字。
第2步:有人提出问题
用户在您的系统中输入问题。比如:"我们第2层客户的SLA要求是什么?"
第3步:系统查找相关块
系统为问题创建相同类型的指纹,然后查找指纹最相似的文档块。它可能从不同文档中提取五个或十个块——也许是您的SLA模板中的一个部分、客户合同中的一个段落和销售电话中的一个注释。
这是检索部分。它与关键字搜索从根本上不同。如果您的文档说"响应时间承诺",但用户问的是"SLA要求",关键字搜索可能会错过它。RAG的基于意义的搜索不会。
第4步:AI生成答案
现在这些相关块被发送到大型语言模型(如GPT-4、Claude或Gemini),以及原始问题。提示本质上是说:"以下是一些相关文档。基于这些,回答用户的问题。"
AI读取这些块并写出自然语言响应,通常引用信息来自哪些文档。
就这样。这就是RAG。检索正确的背景,然后基于该背景生成答案。
为什么不直接使用ChatGPT?
这是我从企业主那里得到的最常见的问题。"我不能只是将我的文档粘贴到ChatGPT中吗?"
您可以,某种程度上。但有严重的局限性:
| 方法 | 优点 | 缺点 |
|---|---|---|
| 粘贴到ChatGPT | 免费、简单、无需设置 | 上下文窗口限制(~128K令牌)、无持久化、数据离开您的控制、每次都需要手动 |
| ChatGPT with file upload | 稍好一些,可以处理PDF | 仍然限于几个文件、不可扩展、没有实时更新 |
| 自定义RAG系统 | 搜索数千份文档、始终是最新的、引用来源、保留在您的基础设施中 | 需要开发投资、需要维护 |
仅使用ChatGPT的核心问题是规模和控制。ChatGPT除非您每次都将文档提供给它,否则它不知道您的文档。它无法搜索10000个文件。当文档更改时,它无法自动保持最新。根据您的行业,将机密文档发送到OpenAI的服务器可能是合规性的噩梦。
RAG系统是您的系统。它位于您的基础设施(或您的私有云)中,连接到您的文档存储,并将所有内容保留在您的控制下。
RAG的真实商业用例
我已经看到RAG在很多不同的环境中部署。以下是提供最多价值的用例:
内部知识库
最常见的用例。员工提出问题,从您的内部文档、政策和程序中获得答案。将其视为一个更聪明的、对话式的内部网。
示例:一家拥有20年案例文件的律师事务所建立了一个RAG系统,以便助理们可以提出"我们是否处理过任何涉及德州海事保险争议的案件?"这样的问题,并获取包含实际文档链接的相关摘要。
客户支持
RAG为下一代支持聊天机器人提供动力——那些实际上能给出有用答案的机器人,因为它们从您真实的知识库、帮助文章和产品文档中提取信息。
示例:一家SaaS公司将其整个帮助中心、发行说明和已知问题数据库输入到RAG系统中。他们的支持机器人无需人工干预即可处理40%的票证,答案实际上是准确的。
文档搜索和合规
对于在监管文档中苦不堪言的行业——金融、医疗保健、法律——RAG可以同时搜索数千份监管文件、政策和合规文档。
示例:一家医疗保健公司使用RAG同时搜索HIPAA法规、自己的合规政策和特定州的要求。合规官员在几秒钟内而不是几小时内获得答案。
销售支持
销售团队浪费大量时间寻找正确的案例研究、定价信息或竞争对比。RAG可以准确地获取他们需要的内容。
示例:"显示我们在制造领域击败竞争对手X的案例研究"——系统会提取三个最相关的案例研究以及关键指标。
人力资源和入职
新员工有无数问题。连接到您的员工手册、福利文档和入职材料的RAG系统可以立即回答大多数问题。
构建RAG系统需要什么
让我坦诚地告诉您涉及的内容。RAG系统不是您在一个下午就能建立的东西。以下是典型架构的样子:
文档管道
您需要一种方式从文档所在的任何地方摄入文档——Google Drive、Notion、Confluence、SharePoint、本地文件系统、数据库。这些文档需要被解析(PDF特别棘手)、分块成适当的大小,并转换为嵌入。
常用工具:LangChain、LlamaIndex、Unstructured.io用于解析,以及来自OpenAI、Cohere或开源替代品(如BGE或E5)的各种嵌入模型。
向量数据库
这是那些文档指纹(嵌入)被存储和搜索的地方。2025年流行的选项包括:
- Pinecone:托管服务,易于设置,生产用途起价约$70/月
- Weaviate:开源选项,提供托管云服务
- Qdrant:强大的开源选项,可以自托管
- pgvector:PostgreSQL扩展——如果您已经运行Postgres,这很好
- Chroma:轻量级,适合原型设计
LLM(语言模型)
您需要一个AI模型来生成实际的答案。选项范围从:
- OpenAI GPT-4o / GPT-4.1:大多数生产系统的首选。截至2025年中期,约$2.50/百万输入令牌、$10/百万输出令牌
- Anthropic Claude 3.5 / Claude 4:强大的替代品,特别是对于较长的文档。价格相似
- Google Gemini 2.5:有竞争力的选项,具有大的上下文窗口
- 开源模型(Llama 3、Mistral):自托管选项以获得最大的数据隐私
应用层
某人需要构建实际的界面——聊天窗口、管理仪表板、文档管理UI。这是经验丰富的现代网络开发团队参与的地方。我们使用Next.js等框架构建这些类型的界面,并将它们连接到无头CMS平台,以管理应用周围的非AI内容。如果您对这方面感到好奇,我们的Next.js开发和无头CMS功能页面会深入探讨。
RAG系统的成本是多少?
这是大多数博客文章变得模糊的部分。我不会这样做。以下是2025年的现实成本范围:
| 组件 | 原型 / MVP | 生产(小) | 生产(企业) |
|---|---|---|---|
| 文档管道设置 | $5K–$15K | $15K–$40K | $40K–$100K+ |
| 向量数据库 | 免费(Chroma) | $70–$300/月(Pinecone/Weaviate) | $500–$5,000/月 |
| LLM API成本 | $50–$200/月 | $200–$2,000/月 | $2,000–$20,000+/月 |
| 应用开发 | $10K–$25K | $25K–$75K | $75K–$250K+ |
| 持续维护 | 最少 | $2K–$5K/月 | $5K–$20K/月 |
最大的变量是文档量和查询量。拥有500份文档、每天进行100次查询的公司支付的费用只是拥有50000份文档、每天进行10000次查询的公司的一小部分。
LLM成本特别是从2023年初以来下降了约90%,并继续下降。两年前花$1的API费用现在花$0.10。
想要针对您的情况的更具体的估计吗?联系我们——我们已经为多个客户范围和构建了这些系统,可以快速给您一个现实的数字。
RAG vs. 微调 vs. 提示工程
这三种方法经常被混淆。以下是诚实的分解:
| 方法 | 它做什么 | 最适合 | 成本 | 保持数据最新? |
|---|---|---|---|---|
| 提示工程 | 为AI仔细制作指令 | 简单任务、少量背景 | 低 ($) | N/A |
| RAG | 在查询时检索相关文档并将其提供给AI | 大的、变化的知识库 | 中等 ($$) | 是——只需更新文档 |
| 微调 | 在您的数据上训练AI模型本身 | 教模型特定的风格、格式或专门技能 | 高 ($$$) | 否——需要重新培训 |
大多数企业应该从RAG开始。微调适用于您需要模型表现不同的情况(例如以特定格式输出结构化数据),而不是当您需要它知道不同的事情时。RAG处理"了解"部分效果好得多,并且远容易保持最新。
我看过公司浪费$50K+在微调项目上,而RAG会在时间和成本的一小部分内解决他们的问题。不要犯这个错误。
企业在RAG方面犯的常见错误
在构建了多个这样的系统后,我有一份不断增长的陷阱清单:
1. 垃圾进,垃圾出
如果您的文档组织不良、相互矛盾或过时,您的RAG系统会信心十足地提供错误信息。RAG不会神奇地解决您的文档问题——它会暴露它。为文档清理预留时间。
2. 块大小比您想象的更重要
您如何将文档分割成段落会戏剧性地影响答案质量。太小,您会失去背景。太大,您会稀释相关性。这是经验真正重要的领域之一。
3. 忽视"最后一英里"UI
许多团队在AI后端上表现出色,但交付了可怕的界面。用户需要看到来源、理解信心水平,并有办法标记错误答案。前端体验与AI管道一样重要。
4. 没有评估框架
您如何知道您的RAG系统实际上是否给出了好答案?您需要一种系统的方式来测试和测量准确性。这通常意味着构建一组具有已知正确答案的测试问题,并定期进行基准测试。
5. 将其视为"一劳永逸"
文档会改变。新的会被添加。旧的会过时。您的RAG管道需要处理更新,并且需要有人监控质量。
何时RAG不是正确的解决方案
我想在这里诚实相待,因为并非每个AI问题都是RAG问题:
- 如果您有少于50份文档:您可能可以使用更简单的方法,例如直接将背景内容填充到提示中。
- 如果您的数据主要是结构化的(电子表格、数据库):RAG是为非结构化文本设计的。对于结构化数据,您可能需要文本到SQL方法。
- 如果您需要实时数据:RAG适用于存在的文档。如果您需要实时股票价格或实时传感器数据,您需要不同的架构。
- 如果准确性必须是100%:RAG系统非常好,但并不完美。对于生死决定或具有法律约束力的响应,始终让人参与其中。
常见问题
RAG代表什么? RAG代表检索增强生成。这是一种技术,其中AI系统在从您的知识库生成答案之前检索相关文档,因此响应以您的实际数据为基础,而不是AI的一般培训。
RAG与ChatGPT相同吗? 不。ChatGPT是一个通用的AI聊天机器人。RAG是一种可以使用GPT-4等模型(为ChatGPT提供支持)但将它们连接到您特定文档的技术。将ChatGPT视为一个具有常识的聪明人,将RAG视为在他们回答之前给那个聪明人访问您公司文件柜的权限。
RAG系统的准确性如何? 构建良好的RAG系统通常在从您的文档中绘制的直接事实问题上达到85-95%的准确性。准确性在很大程度上取决于文档质量、块大小以及检索步骤的工作情况。最好的系统包括源引用,以便用户可以验证答案。
RAG可以处理机密或敏感文档吗? 绝对可以。您可以使用自托管模型和数据库完全在您自己的基础设施内运行RAG系统。对于受管制行业(医疗保健、金融、法律)的公司,这通常是一项要求。如果您不想,您不必将任何数据发送到第三方API——开源模型(如Llama 3和Mistral)可以在您自己的服务器上运行。
构建RAG系统需要多长时间? 基本原型可以在1-2周内构建。具有适当安全性、精美UI、文档管道自动化和评估测试的生产质量系统通常需要6-12周。企业部署具有复杂集成的可能需要3-6个月。
RAG和培训自定义AI模型之间有什么区别? RAG在查询时检索信息——您不会修改AI模型本身。培训(微调)自定义模型实际上根据您的数据改变模型的权重。RAG更快、更便宜、更容易更新,是大多数业务知识库用例的正确选择。当您需要模型采用特定行为或输出格式时,微调才有意义。
我是否需要技术团队来维护RAG系统? 是的,您需要一些技术能力。需要有人管理文档摄入管道、监控系统性能、更新配置并处理偶发的问题。也就是说,托管RAG平台(如Glean、Guru和Vectara)显着降低了技术开销。对于自定义解决方案,许多公司与开发机构合作进行初始构建和持续维护——这是我们定期帮助的事情。
RAG可以处理什么类型的文档? 大多数RAG系统可以处理PDF、Word文档、纯文本文件、HTML页面、Markdown文件、电子表格、演示文稿,甚至转录的音频/视频。最难处理的文档是扫描的PDF(需要先OCR)、具有复杂表格的高度格式化的文档,以及图像丰富的内容。现代文档解析工具(如Unstructured.io)在处理大多数这些边缘情况方面已经变得非常出色。