构建由人工智能与加密货币驱动的去中心化大脑

感谢 Semiotic Labs的 Sam Green和Geo的Yaniv Tal对本文的贡献。

概述:

对于目前迅猛发展的AI，为了防止科技巨头对于技术的集中控制，迫切需要去中心化的解决方案。将AI和区块链结合起来，是确保数据开放性和可验证性的最佳途径。
知识图谱具有卓越的数据组织和检索能力**。检索增强生成（RAG）和知识图谱**通过提供与上下文相关的最新信息，提高了大语言模型的准确性。
**去中心化知识图谱是下一个重大范式转移。**它可以利用区块链技术确保对信息的开放访问，同时通过可验证性和透明治理来增强信任。
Geo是一个开拓性的去中心化知识图谱，即将在The Graph上推出。Geo将区块链技术和AI完美整合，以创建更易访问、更可靠、真正由用户治理的互联网。
借助人工参与验证和AI驱动的内容生成，信息将以指数级的速度产生和组织，在确保信任和透明度的同时，也保持人性化的触感。

我们已经见证了大语言模型（LLM）在主流领域的迅猛普及，以及有关这项技术可能带来的风险的热烈讨论。很明显，AI将对文化、政治和真相追求产生深远的影响。因此，我们作为全球化的社区，不能让少数科技巨头通过数据护城河来垄断人工智能，而应共同努力，构建去中心化的替代方案。

**通过确保数据保持开放和公共性，我们可以建立一个信任层，以一种在大型科技公司控制下的商业环境中无法实现的方式，来验证数据的准确性。**我们不应该受少数大型公司的偏见、假设和意见的影响，而是必须共同努力，构建一个真正可访问、由所有人拥有的去中心化大脑。AI技术本身，以及AI技术与我们日常生活的融合，应该从一开始就被设计为一种公共产品，而不是在封闭的环境内，由个别科技巨头向大众提供。

Yann LeCun — Meta首席AI科学家

检索增强生成（RAG）的作用

在讨论大语言模型和信息检索时，我们可以用人脑作为类比，来了解我们如何通过工作记忆和显性记忆与人工智能互动。大语言模型擅长显性记忆。在模型的训练阶段，大语言模型使用权重编码数据，以便解析大量内容，并且很好的记忆这些信息。不过，这种方式并非没有缺点。由于大语言模型无法实际存储所有训练数据（因为数据量呈指数增长），这就导致人所共知的大语言模型的“幻觉”现象，也就是大语言模型对看似简单的某些问题，却给出了令人发笑的猜测。并且，由于无法持续进行训练，大语言模型也就无法吸收最新的信息，也就是说，它们对于最新创新和发现是一无所知的。这也是检索增强生成（RAG）技术能够成为大语言模型完美补充的原因。

RAG 是一个过程，它要求首先参考大语言模型训练知识之外的数据集，以便为大语言模型提供新信息和上下文。RAG 可以被视为人工智能大脑的工作记忆。RAG 通过使用外部知识库和向量数据库来整合最新知识，提高 AI 生成内容的准确性和相关性。然而，如果过于依赖非结构化信息，可能会导致提取数据的过程变得非常复杂，带来信息冗余，还不能确保在回答的时候使用了正确的上下文信息。

知识图谱：超越向量数据库

知识图谱可以大大增强大语言模型中RAG的能力。与向量数据库相比，知识图谱具有语义分析层次更深、数据检索效率更高、可验证性更强等多方面优势。知识图谱与人类认知非常相似，擅长理解自然语言的复杂性，也能细致入微的洞察数据之间的相互关系。这种语义深度可以确保大语言模型获得与上下文相关的准确资讯，显著提高生成内容的质量。与此相反，向量数据库依赖于文档分块方法，要么忽视上下文信息，要么依靠无关信息，这些都会导致大语言模型的“幻觉”现象。只有通过知识图谱，大语言模型才可以快速找到相关实体，并遍历图谱来获取所有上下文信息。

此外，即使在数据集不断被追加的情况下，知识图谱具有的结构化性质，也非常适合组织大量数据。这种结构优势会使得检索过程更加精确，为任何给定查询提供最相关的数据，提高RAG应用程序的性能和效率。这一性能的提高，再结合从大语言模型的“显性记忆”中找到的信息，可以让大语言模型的提示词业务从两个“记忆桶”中获得服务，因为每个记忆桶都有其独特风格和优势，所以能提供更准确、更切合实际的响应。

检索增强生成（RAG）的作用

知识图谱：超越向量数据库

去中心化知识图谱：一种范式转移