感谢 Semiotic Labs的Sam Green和Geo的Yaniv Tal对本文的贡献。
概述:
我们已经见证了大语言模型(LLM)在主流领域的迅猛普及,以及有关这项技术可能带来的风险的热烈讨论。很明显,AI将对文化、政治和真相追求产生深远的影响。因此,我们作为全球化的社区,不能让少数科技巨头通过数据护城河来垄断人工智能,而应共同努力,构建去中心化的替代方案。
**通过确保数据保持开放和公共性,我们可以建立一个信任层,以一种在大型科技公司控制下的商业环境中无法实现的方式,来验证数据的准确性。**我们不应该受少数大型公司的偏见、假设和意见的影响,而是必须共同努力,构建一个真正可访问、由所有人拥有的去中心化大脑。AI技术本身,以及AI技术与我们日常生活的融合,应该从一开始就被设计为一种公共产品,而不是在封闭的环境内,由个别科技巨头向大众提供。
Yann LeCun — Meta首席AI科学家
在讨论大语言模型和信息检索时,我们可以用人脑作为类比,来了解我们如何通过工作记忆和显性记忆与人工智能互动。大语言模型擅长显性记忆。在模型的训练阶段,大语言模型使用权重编码数据,以便解析大量内容,并且很好的记忆这些信息。不过,这种方式并非没有缺点。由于大语言模型无法实际存储所有训练数据(因为数据量呈指数增长),这就导致人所共知的大语言模型的“幻觉”现象,也就是大语言模型对看似简单的某些问题,却给出了令人发笑的猜测。并且,由于无法持续进行训练,大语言模型也就无法吸收最新的信息,也就是说,它们对于最新创新和发现是一无所知的。这也是检索增强生成(RAG)技术能够成为大语言模型完美补充的原因。
RAG 是一个过程,它要求首先参考大语言模型训练知识之外的数据集,以便为大语言模型提供新信息和上下文。RAG 可以被视为人工智能大脑的工作记忆。RAG 通过使用外部知识库和向量数据库来整合最新知识,提高 AI 生成内容的准确性和相关性。然而,如果过于依赖非结构化信息,可能会导致提取数据的过程变得非常复杂,带来信息冗余,还不能确保在回答的时候使用了正确的上下文信息。
知识图谱可以大大增强大语言模型中RAG的能力。与向量数据库相比,知识图谱具有语义分析层次更深、数据检索效率更高、可验证性更强等多方面优势。知识图谱与人类认知非常相似,擅长理解自然语言的复杂性,也能细致入微的洞察数据之间的相互关系。这种语义深度可以确保大语言模型获得与上下文相关的准确资讯,显著提高生成内容的质量。与此相反,向量数据库依赖于文档分块方法,要么忽视上下文信息,要么依靠无关信息,这些都会导致大语言模型的“幻觉”现象。只有通过知识图谱,大语言模型才可以快速找到相关实体,并遍历图谱来获取所有上下文信息。
此外,即使在数据集不断被追加的情况下,知识图谱具有的结构化性质,也非常适合组织大量数据。这种结构优势会使得检索过程更加精确,为任何给定查询提供最相关的数据,提高RAG应用程序的性能和效率。这一性能的提高,再结合从大语言模型的“显性记忆”中找到的信息,可以让大语言模型的提示词业务从两个“记忆桶”中获得服务,因为每个记忆桶都有其独特风格和优势,所以能提供更准确、更切合实际的响应。