一种基于大模型的问题扩充融合的文档检索方法及装置制造方法及图纸

技术编号：40577415 阅读：27 留言：0更新日期：2024-03-06 17:19

本发明专利技术实施例涉及一种基于大模型的问题扩充融合的文档检索方法及装置，方法包括：对预获取的用户的原始输入问题进行扩充，得到相应的扩充问题；利用向量编码方法分别对原始输入问题和扩充问题进行处理，得到原始输入问题对应的向量和扩充问题对应的向量；利用聚类方法将扩充问题分为多个簇，并确定簇中心；针对每个簇，抽取距离簇中心最近的扩充问题作为每个簇对应的候选问题；将每个簇对应的候选问题对应的向量和原始输入问题对应的向量进行融合，得到每个簇对应的融合向量；计算每个簇对应的融合向量与文档向量的相关性，将相关性最高的文档作为相关文档。本发明专利技术通过将用户的原始输入问题进行扩充的方式，解决了召回率低和召回不完整的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，具体涉及一种基于大模型的问题扩充融合的文档检索方法及装置。

技术介绍

1、在传统的搜索引擎中，最常用的检索方式是：在基于问题检索相关问题过程中，通常将用户的原始输入问题和文档分别进行向量编码，然后计算用户输入的问题向量和文档向量的相关性，选取相关性最大的k个文档作为候选文档。在该方法中，首先，由于用户的说法一般比较口语化，且比较多样，导致用户输入的问题向量和文档向量的相关性偏低，最终使得文档召回率低；其次，由于用户期望的答案涉及到多篇文档，用户一次输入的说法比较单一，导致部分相关文档不能召回，即文档召回不完整。

2、基于此，如何解决文档召回率低和召回不完整成为亟需解决的技术问题。

技术实现思路

1、正是基于上述问题，本专利技术提出了一种基于大模型的问题扩充融合的文档检索方法及装置以解决现有技术中所存在的问题。

2、为此，第一方面，本专利技术提供了一种基于大模型的问题扩充融合的文档检索方法，所述方法包括：

3、对预获取的用户的原始输入...

【技术保护点】

1.一种基于大模型的问题扩充融合的文档检索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述聚类方法为k-means聚类方法。

3.根据权利要求1所述的方法，其特征在于，根据如下公式确定所述簇中心：

4.根据权利要求1所述的方法，其特征在于，根据如下公式确定所述融合向量：

5.一种基于大模型的问题扩充融合的文档检索装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，根据如下公式确定所述簇中心：

7.根据权利要求5所述的装置，其特征在于，根据如下公式确定所述融合向量...

【技术特征摘要】

1.一种基于大模型的问题扩充融合的文档检索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述聚类方法为k-means聚类方法。

3.根据权利要求1所述的方法，其特征在于，根据如下公式确定所述簇中心：

4.根据权利要求1所述的方法，其特征在于，根据如下公式确定所述融合向量：

5.一种基于大模型的问题扩充融合的文档检索装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，根据如下公式确定所述簇中心：

7.根据权利要求5...

【专利技术属性】
技术研发人员：贾文雷，刘升平，梁家恩，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人