为了账号安全,请及时绑定邮箱和手机立即绑定

知识图谱与RAG系统的五大常见误区及其应用解析

这个标题通俗易懂地传达了文章的核心内容,指出了知识图谱在检索增强生成系统中常见的五大误区,并且强调了知识图谱的具体应用和解析。

更新:我们最近开源了我们的知识图谱工作室:https://medium.com/enterprise-rag/open-sourcing-the-whyhow-knowledge-graph-studio-powered-by-nosql-edce283fb341(由Nosql驱动)

在这篇文章中,我们想探讨知识图谱在RAG系统中的一些常见误区。我们特别关注的是理解传统知识图谱构建技术与我们所说的“RAG原生图谱”之间的差异。

这些常见的误解有:

常见误解 #A:不需要很大图

当人们想到知识图谱时,有时会觉得它是一个庞大的单一数据结构,建立它需要耗费大量的时间和资金,可能需要数年时间和数百万的资金。

历史上,在LLMs出现之前,对于知识图谱在特定应用场景(如大规模欺诈侦测或生物医学研究)方面的情况而言,这在当时确实如此。

随着大型语言模型(LLM)的出现,知识图谱的一些应用场景已经发生变化,大型语言模型也被用来自动化知识图谱的构建,将过去需要几年才能完成的工作压缩到几秒钟内。

此外,利用LLM系统,小型图谱的机会也随之出现,进一步降低了创建有价值图谱的难度。

在大型语言模型出现之前,知识图谱主要用于类似于数据字典的功能——作为一种手段,确保不同数据孤岛间语义结构的一致性,并将数据集聚合起来以揭示隐藏的关系,或进行关系挖掘。知识图谱被用来捕捉那些值得关注的概念和关系,尤其是在应对大量非结构化数据存储库时。一个例子是收集大量生物制药的学术论文,并将所有信息整合到知识图谱中,以便理解跨不同论文间概念的隐藏关系,特别是那些需要跨多篇文档的关系关联的情况(例如,论文1说X=Y,论文2说Y=Z。知识图谱可以揭示出X等于Z)。

随着大型语言模型的不断进步,我们应该将知识图谱视为提高语义聚焦和结构根基的工具,而不仅仅是数据聚合器。由此产生的较小的图谱不需要完全完善,因为大型语言模型本身具备对语义的理解。这意味着,在许多情况下,没有必要创建一个完美描绘的世界。

误区 #B:知识图谱主要用来处理像支付或社交媒体这样的网络数据

知识图在过去常被应用于处理网络相关的数据,例如支付和社交媒体网络信息。

一个常见的误解是,知识图谱仅被认为适用于网络数据,因为这曾是使用知识图谱的传统重点。

发生变化的是非结构化数据的流行。就像当嵌入技术用于非结构化数据搜索时,向量数据库变得非常流行,不同类型的知识图谱也出现了新的非结构化数据存储和搜索模式,这些类型的知识图谱过去并不常见。

除了网络型数据外,还有一种来自非结构化数据的层次数据类型也非常适合知识图谱的建模。在这篇文章里,更详细地介绍了这种层次数据类型;在这里,提供了一个层次知识图谱的例子,比如苹果的季度财务报告的展示形式。

来源:点击这里阅读原文

在这张由 Neo4J 制作的图形中,他们涵盖了可以在图形结构中表示的信息范围(非详尽的)。这反映了图形结构在处理非结构化数据时的多种应用场景。

点击这里:https://www.slideshare.net/slideshow/knowledge-graphs-and-graph-data-science-more-context-better-predictions/254876316

例如,LinkedIn开发的这个客户服务系统就是一个具体的例子,展示了如何将非网络连接的数据以图结构表示。

在这里,知识图谱用于表示客户支持工单中的各种元素,如优先级状态、根本原因、描述等以及摘要。这是一个表示客户支持工单元素的基本层次结构,用于辅助查询分类(“问题查询”)和检索相关元素(“HAS_STEPS_TO_REPRODUCE”)。

这种分层而非网状的数据结构允许根据预定义的模式存储的信息能够非常精确地检索特定信息。我们也可以看到它与误解#A在大型图的表现上有重叠,因为在客户支持工单中,不是所有可能的实体和关系都会在图中显示出来,只有LinkedIn感兴趣的工单特定方面才会被表示为边和节点。

你可以在这里查看原始文章:参考链接 https://arxiv.org/html/2404.17723v1

我们还可以看到许多其他类似的例子,包括这篇关于患者数据的文章,其中多跳检索并不是真正追求的价值主张,而是更准确和更全面的信息检索。

常见误区,C: 聚类分析/图分析与图RAG有很多交集

创建知识图谱的过程通常包括多种方法,包括聚类。在我们构建KG RAG方法的经验中发现,聚类对于RAG来说并不是特别相关。这是因为聚类更多是关于对底层数据进行高层次理解,而RAG主要侧重于目标信息检索,聚类提供的粒度层次远远不足以获取精确的结果。

聚类广泛指的是模型对未结构化的数据进行一系列分类,将其分类为模型能识别的几个类别(例如“关于人员的信息”、“关于工作的信息”、“关于公司的信息”等)。这些类别构成了模式框架的基础,而底层信息则根据此框架被组织进图中。聚类只是图分析技术中的一种。这种方法对检索增强生成(RAG)有帮助,因为它能帮助自动发现可能使用的潜在模式。

这种方法在你试图从高层次理解非结构化文本时特别有帮助和实用,并了解文本中不同主题之间的关联。这里的价值主要体现在对底层数据特性的分析。

然而,正如你所想象的,这种情况对RAG流程来说确实存在一些显而易见的不适用之处。RAG更注重的是对数据进行细致且精确的表述,而不是对非结构化数据进行高层次的分析,这样可以确保针对数据提出的精确问题也能得到精确的回答。虽然高层次的数据分类可能有用,但它并不能明显地比简单的向量RAG搜索带来更多的精确检索过程。这尤其因为在当前,RAG的问题不在于缺少一般的检索能力,而在于如何克服更精确和确定性的相关信息检索的难题。

尽管聚类可能是一种潜在的方法,用来获得一个高层次的架构以开始,但它是否能胜过直接让一个大语言模型根据底层数据生成高层次的架构,或者其他任何模式生成方法,这还不清楚。根据我们为客户构建知识图谱RAG的经验,我们经常观察到,构建一个符合用户业务需求和问题类型的图谱,通常能达到RAG中常见的性能水平。

这并不是说聚类和图分析完全不相关。在许多场景下,你可以对特定类型的数据执行RAG和图分析,尤其是在网络数据上。例如,为了进行RAG和细粒度的信息检索,可能需要创建一个具有一定粒度的知识图谱,然后通过聚类分析来获得对底层信息的更高层次的理解。

这种想法是常见误解 #D:KG RAG 只能用来做多跳查询和检索

与图分析类似,知识图谱在过去对于理解不同数据孤岛之间的隐藏关系非常有用。这一发现过程可以通过多跳检索来实现,这使得通过多层次推理检索信息变得简单。

一个核心误区是认为知识图谱只能用于多跳检索。正如我们在误区#B中提到的那样,图的结构对于强制执行关系和表示层级信息很有用。有时这些关系以多跳检索的形式出现。然而,在许多RAG案例中,多跳检索并不是主要问题。

许多知识图谱(KG)和检索增强生成(RAG)的论文认为KG对RAG系统特别重要,由于多跳查询的重要性。这偏离了结构化知识表示的核心价值主张。我们可以看到,这些问题以相对不自然的方式被提出和评估,以试图强调这一特定的价值主张,这些论文采用了各种变通的方法。

用作多步查询示例的这些查询往往并不能很好地体现人们通常如何提问。

在实际应用案例中,比如LinkedIn,我们可以看到这种情绪的体现。现实中的应用场景更侧重于确定性检索和关联,而不是多跳推理,这更符合企业中典型RAG应用场景的定义。

话虽如此,存在多种多跳查询类型,多跳推理过程在知识图谱(KG)和检索增强生成(RAG)系统中确实发挥着作用。多跳查询出现在不同的系统中,应被视为一个有价值的补充,而不是核心价值所在。过分强调多跳查询的作用,会让人忽视KG和RAG系统的核心价值。

我们应该更加重视 KG 和 RAG 系统的价值,具体表现在:

  • 可解释性
  • 确定性系统或决定性系统
  • 完整性

我们在这篇文章中更详细地讨论了这些观点:

这个误区认为:处理成本较低和更长的上下文窗口长度减少了对知识图谱问答(RAG)的需求,因为较大的误差范围

KG RAG不仅仅是为了减少RAG中的无关信息。我们最大的担忧是能否将相关但语义不相似的信息引入上下文。

领英(LinkedIn)的这个例子也很好地说明了这一点。如果没有知识图谱,很难将“HAS_STEPS_TO_REPRODUCE”里的信息关联起来并放回上下文中,因为这些词本身并不出现在答案里。

相反,知识图谱非常适合用来建立实际重现问题步骤之间的关系(“HAS_STEPS_TO_REPRODUCE”)。换句话说,知识图谱非常适合引入相关但语义不同的信息。知识图谱并不是一种降低RAG成本的方法,而应该被视为一种引入向量搜索无法检索的信息的方式,从而提高答案的确定性、准确性和完整性。

WhyHow.AI 正在开发工具,帮助开发人员通过图结构为其检索增强生成(RAG)流程带来更多的确定性和控制。如果您正在考虑、进行中或已经将知识图应用于 RAG 以增强准确性、记忆和确定性,欢迎通过 team@whyhow.ai 与我们联系,或订阅我们的新闻通讯 WhyHow.AI。在 Discord 上参与我们关于规则、确定性和知识图在 RAG 中的讨论。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消