开发一个能够回答实际问题并给出恰当且精确的答案的聊天机器人确实是一项艰巨的任务。尽管在大型语言模型方面已经取得了显著进展,但仍然存在一个开放性挑战,即将这些模型与知识库结合起来,以提供既可靠又丰富的回复。
Google DeepMind 在 Unsplash 上分享的照片
关键问题往往在于模型会编造不存在的信息,以及无法理解信息间的微妙关系。其他人尝试建立稳健的问答系统,但效果不佳,因为虽然这些模型连接到庞大的知识库,却经常给出质量低劣的答案。
虽然检索增广生成(RAG)可以通过将生成的响应与现实世界的数据连接起来减少幻觉,但准确地回答复杂问题完全是另一回事。用户常常会得到诸如“ 检索到的文本中并未明确提及xx主题 ”之类的回答,知识库中确实包含了相关信息,尽管不那么明显。这时,图检索增广生成(GraphRAG)就能派上用场了,通过利用结构化的知识图谱,可以提升模型提供更加精确和语境丰富的答案的能力。
RAG:连接检索与生成的桥梁
RAG在结合检索和生成方法的优点上迈出了重要一步。对于给定的查询,RAG会从大型语料库中检索相关的文档或段落,然后根据这些信息生成答案。因此可以确定生成的文本既具有信息量又与上下文相关,因为它基于实际数据。
例如,在一个像 “法国的首都是哪里?” 这样的问题中,RAG系统会在其语料库中查找与法国及其首都巴黎相关的文档。它会检索相关段落并生成类似 “法国的首都是巴黎。” 的回答。这种回答方式非常适合简单查询,答案也十分明确。
然而,当面对更复杂的查询时,RAG的表现并不理想,特别是那些需要理解实体之间关系的查询,而这些关系在检索到的文档中没有明确说明。系统在类似“17世纪的科学贡献是如何影响20世纪初的物理学发展的?”这样的问题上显得力不从心。(关于这个例子,我们稍后会进一步讨论)。
GraphRAG:发挥知识图谱的力量
GraphRAG,正如微软研究博客中首次概述的那样,旨在克服这些限制。简单来说,它将知识库中的非结构化文本重组为结构化的知识图谱,在该图谱中,节点表示实体(例如,人、地点、概念等),而边则表示实体之间的关系。这种结构化的格式使模型能够更好地理解和利用不同信息片段之间的相互关系。
照片由 Alina Grubnyak 拍摄,来源 Unsplash
我们现在稍微详细地讲一讲GraphRAG的概念,通过与RAG对比,用简单的方式来理解一下。
我们先假设有一个知识库,其中包含了来自各种科学和历史文献的句子,如下。
1. “阿尔伯特·爱因斯坦发展了相对论,这一理论彻底颠覆了理论物理学和天文学的面貌。”
2. “相对论是上世纪初提出来的,对我们的时空观念产生了深远的影响。”
_3。“艾萨克·牛顿因他的运动定律和万有引力定律而闻名于世,为经典力学打下了基础。”
4. “1915年,爱因斯坦提出了广义相对论这一理论,扩展了他的早期狭义相对论研究。”
5. “牛顿的研究在17世纪的为现代物理的领域奠定了基础。”
在 RAG 系统里,这些句子会被储存为未结构化的文本。而如果问 “17世纪的科学贡献是如何影响20世纪初期的物理学的?” 这样的问题,系统可能就会卡壳,因为具体措辞和文档检索质量未能直接将17世纪的影响与20世纪初期物理学联系起来。RAG 可能会给出类似这样的答案 “17世纪,牛顿的工作为现代物理学奠定了基础。20世纪初期,爱因斯坦发展了相对论”,这是因为系统虽然能够找到相关信息,但无法明确解释17世纪物理学对20世纪初期发展的影响。
相比之下,GraphRAG 将这个文本转换成一个结构化的知识图谱。知识图谱展示了不同事物之间的关系。它使用一系列本体来组织信息。这样,它不仅可以发现明显的联系,还可以揭示隐藏的关联。
使用GraphRAG系统,原有的知识库会被转换成如下的节点和边结构。
节点: 阿尔伯特·爱因斯坦, 相对论, 理论物理学, 天文学领域, 20世纪初, 空间, 时间, 艾萨克·牛顿, 运动定律, 万有引力, 经典力学, 1915年, 爱因斯坦的广义相对论, 爱因斯坦的狭义相对论, 17世纪的, 现代物理学。
- (阿尔伯特·爱因斯坦) - [以...闻名] → (相对论)
- (相对论) - [革新了] → (理论物理学)
- (相对论) - [革新了] → (天文学)
- (相对论) - [形成于20世纪初] → (20世纪初)
- (相对论) - [影响了] → (对空间和时间的理解)
- (艾萨克·牛顿) - [以...闻名] → (运动定律)
- (艾萨克·牛顿) - [以...闻名] → (万有引力)
- (艾萨克·牛顿) - [奠定了基础] → (经典力学)
- (广义相对论) - [由...提出] → (阿尔伯特·爱因斯坦)
- (广义相对论) - [包含了] → (狭义相对论)
- (牛顿的工作) - [为...奠定了基础] → (现代物理学)
当被问到 “17世纪的科学贡献是如何影响20世纪早期物理学的?” 这个问题时,GraphRAG 的基于检索的方法可以识别从牛顿的工作到爱因斯坦的成就,强调了17世纪物理学对20世纪早期发展的影响。这种结构化的检索方式使答案在上下文中更加丰富和准确: “17世纪,伊萨克·牛顿提出的运动定律和万有引力定律为经典力学奠定了基础。这些原理影响了爱因斯坦在20世纪早期发展相对论理论,扩展了我们对空间和时间的理解范围。”
GraphRAG利用结构化的知识图谱增强了模型回答复杂查询的能力,同时通过减少幻觉的发生,为答案提供明确的关系基础。从本质上讲,这使得GraphRAG更有效于开发更可靠和智能的对话问答系统。
将非结构化的知识库转化为结构化的图谱,这也能让GraphRAG从信息中挖掘出更深层次的意义,从而帮助语言模型根据上下文准确生成适当的回应。这标志着对话AI在向更高级、更可靠的聊天机器人系统发展过程中迈出了重要一步。
不过,和其他 GraphRAG 的好处一样,同样也有一些挑战。
首先,把无组织的知识库变成结构化的知识图谱非常困难。这要求很高且具有挑战性,并需要高级的方法来提取实体并识别关系,这可能会非常耗时且计算密集。
其次,可扩展性问题出现了。知识图谱随着知识基础的增长而变得更复杂。如果知识图谱变得过于庞大,难以在运行时轻松遍历,这可能会引发关于可扩展性的问题。主要挑战之一是优化大规模知识图谱的检索算法。
第三点提到维护成本:知识图谱需要不断更新,以包含新信息和现有的数据变更。在某些领域,这些领域变化可能非常频繁,这可能会成为一项非常昂贵的任务,尤其是在技术或医学领域。这意味着,尽管结果可能很有前景,但必须投入大量精力来确保知识图谱的准确性和相关性得以保持。
不过,GraphRAG承诺未来的对话式AI代理将更加智能、可靠,并具备更强的上下文理解能力。更多的研究与开发工作可以帮助解决GraphRAG面临的挑战,为更加复杂的AI驱动解决方案铺平道路。
共同学习,写下你的评论
评论加载中...
作者其他优质文章