RAG | Retrieval Augmented Generation

技术点

RAG（Retrieval-Augmented Generation）技术已成为连接通用语言模型与垂直领域知识的关键桥梁。它不仅能够显著提升模型在特定任务中的表现，还能有效解决模型幻觉、知识更新滞后、生成内容不准确等问题。

深入理解文本摘要、机器翻译、向量数据库、相似度检索等关键技术，并熟练使用 LangChain、LlamIndex、GraphRAG 等主流工具。覆盖语义切片、术语库构建、向量引擎选型、混合召回、LoRA 微调、Agentic 架构设计、多模态扩展与工程化部署，结合 LangChain 技术栈与 Python 实战，深入解析 OCR 纠错、查询扩写、动态规划等真实场景难题。

介绍

检索增强生成（Retrieval Augmented Generation），简称 RAG，已经成为当前最火热的LLM应用方案。经历今年年初那一波大模型潮，想必大家对大模型的能力有了一定的了解，但是当我们将大模型应用于实际业务场景时会发现，通用的基础大模型基本无法满足我们的实际业务需求，主要有以下几方面原因：

知识的局限性：模型自身的知识完全源于它的训练数据，而现有的主流大模型（ChatGPT、文心一言、通义千问…）的训练集基本都是构建于网络公开的数据，对于一些实时性的、非公开的或离线的数据是无法获取到的，这部分知识也就无从具备。
幻觉问题：所有的AI模型的底层原理都是基于数学概率，其模型输出实质上是一系列数值运算，大模型也不例外，所以它有时候会一本正经地胡说八道，尤其是在大模型自身不具备某一方面的知识或不擅长的场景。而这种幻觉问题的区分是比较困难的，因为它要求使用者自身具备相应领域的知识。
数据安全性：对于企业来说，数据安全至关重要，没有企业愿意承担数据泄露的风险，将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案不得不在数据安全和效果方面进行取舍。

流程

Untitled

完整的RAG应用流程主要包含两个阶段：

数据准备阶段：数据提取——>文本分割——>向量化（embedding）——>数据入库
应用阶段：用户提问——>数据检索（召回）——>注入Prompt——>LLM生成答案

向量数据存储召回

数据库分块具体数据

向量库存一份，查到 ID 去数据库拿数据

更新的时候删除掉插入