深入解析RAG技术：如何通过检索增强生成提升大型语言模型的准确性

hwyzw · 发表于 2025-1-21 01:52:40

之前我们讲过RAG()，它是搜索增强生成技术，特别是在使用它的时候。今天我们就来深入聊聊。

首先我要说的是，大型语言模型（LLM）非常擅长自然语言处理（NLP），也就是说，它们可以根据你的问题生成答案。但如果你问它一些它在训练时没有接触过的信息，比如某个小众知识点或者最新新闻，它就会感到困惑，因为它不知道这些信息。

这时候RAG就派上用场了。它为法学硕士提供了一个框架，以便在生成答案时提供更准确和相关的信息。我们先来看看“RAG”中的“G”是什么意思。 “G”是指根据您的问题（也称为“提示”）生成文本的大型语言模型。但有时，这个模型给出的答案可能并不可靠。

举个栗子：

问：人类什么时候第一次登陆火星？

错误答案（编造）：人类将于2025年首次登陆火星。

你看，这个答案只是编造的，因为截至2024年，人类还没有去过火星。该模型有时会根据训练期间学到的模式生成答案。如果它被问到一些它不知道的问题，它可能会做出疯狂的猜测，导致答案不准确或完全是编造的。

这个时候，我们就需要一个可靠的来源来寻找答案。否则，你怎么能确定答案是否可靠呢？而且很多时候，这些答案已经过时了。例如，我们的模型可能没有了解 NASA 最近宣布的将人类送上火星的计划。因此，在使用语言模型获取信息时，意识到这些问题并解决它们非常重要。

我们遇到的主要问题是：

我查了NASA的网站，发现了很多关于他们将人类送上火星的计划的信息。例如，2023 年 6 月开始的一项任务将对火星表面进行为期 378 天的模拟。本次任务结束后，有关人类登陆火星的信息将持续更新。这样，我得到了更可靠的答案：NASA网站是可信来源，而且我并没有像LLM那样编造答案。

那么既然使用LLM可能会遇到这些问题，为什么我们还要使用呢？这就是“RAG”中的“RA”发挥作用的地方。所谓检索增强，就是我们不只是依赖LLM训练的内容，而是给它提供正确的答案和来源，然后让它生成摘要并列出来源。这样，我们就可以帮助LLM避免编造答案。

一般我们可以这样做：

将我们的内容（例如文档、PDF 等）放入数据存储中，例如矢量数据库。通过这种方式，我们可以为我们的用户创建一个聊天机器人界面，而不是直接使用LLM。我们将这些内容转换为向量嵌入并将它们存储在向量数据库中。当用户向我们的聊天机器人提问时，我们会要求 LLM 查找与该问题相关的信息。 LLM会将问题转化为向量嵌入，然后利用向量数据库中的数据进行语义相似度搜索。一旦找到增强搜索的答案，我们的聊天机器人就可以将这些答案和来源发送给 LLM，LLM 会生成一份摘要，其中包括用户的问题、提供的数据以及它按照指示行事的证据。

那么RAG是如何帮助LLM解决前面提到的问题的呢？

首先，我们需要提供一个包含正确数据的数据存储，应用程序可以从中检索信息，然后将其发送到 LLM，严格告诉它仅使用此数据和原始问题来生成答案。

其次，我们可以告诉LLM要注意数据来源，提供证据。如果根据向量数据库中存储的数据无法可靠地回答问题，我们甚至可以更进一步，要求法学硕士回答“我不知道”。

RAG 是如何运作的？

RAG 的工作原理

RAG 必须从选择数据源开始。这些数据源可能包括文本文档、数据库，甚至多媒体文件，具体取决于您要检索的信息类型。选择数据源后，我们将内容转换为向量嵌入，这就像给数据一个数字表示。此转换过程通常使用可以理解数据含义的预先训练的机器学习模型来完成。一旦生成这些向量嵌入，它们就会存储在向量数据库中，该数据库旨在处理高维向量并使相似性搜索更加有效。有关向量嵌入和向量数据库的更多信息，请参阅“”、“”和“”。

例如，当有人向聊天机器人提问时，应用程序会在矢量数据库中启动语义搜索。该查询被转换为向量嵌入，以便可以将其与数据库中存储的数据进行比较以获得语义相似性，而不仅仅是关键字匹配。矢量数据库找到最相关的文档或数据点，与原始查询和提示相结合，形成发送给法学硕士的完整输入。

LLM 将使用此输入生成与用户原始问题相关且与上下文相关的答案。这一过程不仅确保生成的信息基于可靠的数据源，而且还利用机器学习的力量来高精度地解释和响应复杂的查询。通过将向量数据库和法学硕士相结合，RAG 系统可以提供更详细、更精确的信息检索，这对于需要复杂的上下文感知应用程序的应用程序来说是理想的选择。

一般来说，RAG 是一个很好的起点，它为许多应用程序提供了一种简单而强大的方法。 RAG 允许您通过利用外部数据源来提高 LLM 的性能，这对于不想深入修改底层模型但希望提高响应质量的开发人员来说是一个可行的选择。通过精心设计的提示，您可以进一步完善您的答案，以确保它们与预期用例更相关。

人工智能应用需要定制数据才能有效

AI应用想要展现自己真正的实力，就必须使用定制化的数据，也就是一般所说的知识库。特别是在那些专业领域，公司需要确保这些语言模型可以访问和理解其特定领域的数据。对于需要准确和上下文答案的情况，仅通用预训练模型是不够的。

例如，客户支持机器人需要能够为公司的产品、服务和政策提供定制答案。同样，内部问答机器人必须能够提供符合当前操作实践和协议的详细、具体信息。为了满足这一特定需求，公司需要将其独特的数据集与LLM集成，以便模型生成的答案既相关又符合公司不断变化的需求。这种方法减少了大规模再训练的需要，是维持人工智能应用的准确性和有效性的更有效的解决方案。

RAG作为行业标准和应用

RAG现在已经成为各行各业的标准做法，它帮助我们打破了传统LLM的固有局限性。尽管这些传统的法学硕士相当强大，但它们受到静态训练数据的限制。这些数据并不是实时更新的，训练后也无法添加新的信息。这种静态性质使得他们在某种程度上无法在需要快速响应或即时数据的行业中提供准确及时的答案。

RAG如何解决这个问题呢？它将法学硕士与实时数据检索系统动态地结合起来。通过将最新、最相关的数据直接集成到法学硕士的提示中，RAG 弥合了静态知识和实时信息之间的差距。这样，生成的答案不仅是上下文相关的，而且是最新的，使公司能够使用人工智能来处理需要最准确和及时信息的任务。因此，RAG 已迅速成为依赖人工智能改善决策、客户互动和整体运营效率的行业的关键工具。

RAG 的一些最流行的用例包括：

问答聊天机器人：自动从公司文档和知识库中提取准确答案，以支持客户服务并解决疑问。

搜索增强：使用LLM生成的答案来增强搜索引擎，改善信息查询的反馈，并使信息检索更容易。

内部查询知识引擎：使员工能够询问有关公司数据的问题，例如人力资源或财务政策或合规文件。

RAG 还有很多好处：

最新且准确的响应：RAG 将法学硕士的响应基于最新的外部数据源，减少对静态训练数据的依赖。

减少不准确和错觉：通过根据相关外部知识生成法学硕士输出，RAG 最大限度地降低了提供虚假或捏造信息的风险，并且输出具有可验证的来源。

特定领域的相关响应：使用 RAG 允许法学硕士提供与组织的专有或特定领域数据一致的上下文响应。

高效且经济高效：与其他定制方法相比，RAG简单且经济高效，允许组织无需大规模模型定制即可部署。

构建 RAG 应用程序的第一步是从选定的数据源收集内容。必须对该内容进行预处理，以确保其可在应用程序中使用。根据您的分块策略，数据被切割成适当的长度，以优化检索和处理效率。然后，使用与您选择的下游 LLM 应用程序一致的嵌入模型将数据转换为向量嵌入。此步骤为后续过程中准确、高效的数据检索奠定了基础。

一旦我们处理完数据并将其转换为向量嵌入，下一个任务就是对数据进行索引，以便我们可以快速找到与搜索查询最相关的信息。我们生成文档的向量嵌入，并使用该数据创建向量搜索索引。矢量数据库会自动为我们创建这些索引，并且还提供各种数据管理功能，以便更轻松地组织、检索和更新索引内容。

RAG系统的关键点是它能够检索与用户查询最相关的数据。当用户提出问题时，矢量数据库会执行语义搜索，查找相关数据，并将这些数据包含在生成 LLM 摘要的提示中。通过这种方式，法学硕士可以访问最相关的上下文信息并生成更准确的上下文答案。

建立检索系统和查询机制后，下一步是将这些组件集成到功能性人工智能应用程序中。这包括将已通过相关内容增强的提示和 LLM 查询组件封装到单个端点中。然后可以通过 REST API 将该端点提供给各种应用程序，例如问答聊天机器人，从而允许用户与 RAG 支持的系统无缝交互。

总结

在人工智能领域，搜索增强一代正在改变游戏规则。它不仅仅是一个工具。它无缝地结合了法学硕士和矢量数据库，以检索最新信息并提供准确、及时和针对特定行业的响应。检索增强一代正在引领人工智能走向准确性和灵活性并存的未来，将今天的语言表达模型转变为明天的智能对话者。关于检索增强生成的工作原理还有很多东西需要了解，特别是当我们致力于将生成式人工智能应用程序投入实际生产时。这个旅程才刚刚开始。在 RAG 的领导和支持下，我相信现代信息检索系统的潜力是无穷的。