一种基于多视图聚类的检索增强生成方法和系统技术方案

技术编号：42197703 阅读：21 留言：0更新日期：2024-07-30 18:45

本申请涉及一种基于多视图聚类的检索增强生成方法和系统。所述方法包括：构建图谱数据库、向量数据库和ES数据库；将图谱数据库、向量数据库和ES数据库中的数据进行多视图预处理得到多视图特征数据库，对用户输入的多视图特征和多视图特征数据库中的数据进行多视图聚类得到多个聚类簇和每一数据点的软聚类分数；选取与用户输入属于同一聚类簇的数据点放入候选池，对候选池中的每一数据点对应的原始数据进行多路召回得到召回结果；根据软聚类分数对召回结果进行融合重排得到重排结果，将重排结果和用户输入加载到提示词后输入大语言模型，输出对应的回答。采用本方法能够在保证检索效率的前提下进一步提高检索精度，实现高效文档检索。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，特别是涉及一种基于多视图聚类的检索增强生成方法和系统。

技术介绍

1、大型语言模型的局限性：传统的大型语言模型（如bert、gpt-3等）通常在大规模数据集上进行预训练，以掌握语言的通用知识。然而，这些模型可能会生成与事实不符的“幻觉”（hallucinations），并且对新信息的响应能力有限。

2、rag（retrieval-augmented generation，检索增强生成）技术是一种结合了信息检索（retrieval）和生成（generation）的先进方法，旨在提高大型语言模型（largelanguage models，llms）的性能。rag的核心思想是通过检索阶段获取相关信息，并将其用于辅助生成阶段，产生更准确、更丰富的文本输出。传统rag方案在分散段落，系统吞吐量，大候选集等方面都具有一定的局限性，研究者们正在探索如何更高效地整合检索和生成过程，以及如何改进检索器和生成器之间的交互。其中检索部分是rag技术极为重要的一环，其决定了整个rag系统的能力上限，只有准确且高效的检索方式才能保...

【技术保护点】

1.一种基于多视图聚类的检索增强生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，选取与用户输入属于同一聚类簇的数据点放入候选池，对候选池中的每一数据点对应的原始数据进行多路召回，得到召回结果包括：

3.根据权利要求1或2所述的方法，其特征在于，所述多路召回的步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述根据软聚类分数对召回结果进行融合重排，得到重排结果包括：

5.根据权利要求1所述的方法，其特征在于，所述对用户输入的多视图特征和多视图特征数据库中的数据进行多视图聚类，得到多个聚类簇和每一数据点的软...

【技术特征摘要】

1.一种基于多视图聚类的检索增强生成方法，其特征在于，所述方法包括：

3.根据权利要求1或2所述的方法，其特征在于，所述多路召回的步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述根据软聚类分数对召回结果进行融合重排，得到重排结果包括：

5.根据权利要求1所述的方法，其特征在于，所述对用户输入的多视图特征和多视图特征数据库中的数据进行多视图聚类，得到多个聚类簇和每一数据点的软聚类...

【专利技术属性】
技术研发人员：刘吉元，许凯，尹全军，鞠儒生，胡星辰，刘新旺，杨硕，尹帮虎，邱思航，彭勇，秦龙，罗海森，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人