System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及自然语言处理,具体涉及一种查询结果生成方法及装置。
技术介绍
1、在当今的自然语言处理领域,信息检索和自然语言生成是两个非常重要和活跃的研究方向。信息检索系统旨在从大型数据集中找到与用户查询相关的信息,而自然语言生成技术则努力生成流畅和自然的文本。近年来,深度学习和大规模语言模型的快速进展显著提高了机器生成文本的可信度和质量。
2、但传统的语言模型在处理复杂查询时,查询信息较为分散且与查询的相关性较弱,导致生成的查询结果文本存在较大的语义歧义,降低查询结果的准确性。
技术实现思路
1、本申请实施例提供一种查询结果生成方法及装置,用以解决传统的语言模型在处理复杂查询时,查询信息较为分散且与查询的相关性较弱,导致生成的查询结果文本存在较大的语义歧义,降低查询结果的准确性的技术问题。
2、第一方面,本申请实施例提供一种查询结果生成方法,包括:
3、将查询语句输入目标检索器,以利用所述目标检索器在知识图谱中进行检索,得到与所述查询语句相关的目标三元组;
4、将所述查询语句与所述目标三元组进行融合,得到融合数据;
5、将所述融合数据输入目标生成器,以利用所述目标生成器生成所述查询语句对应的查询结果;
6、所述目标检索器和所述目标生成器是以大语言模型中的检索器和生成器的联合损失函数最小为目标进行训练得到的。
7、在一个实施例中,所述目标检索器和所述目标生成器,是基于以下方式确定得到的:
8
9、对所述大语言模型中的生成器进行单独训练,得到优化生成器;
10、对所述优化检索器和所述优化生成器进行联合训练,得到目标检索器和目标生成器。
11、在一个实施例中,所述对所述大语言模型中的检索器进行单独训练,得到优化检索器,包括:
12、将第一查询语句集、第一正样本集和第一负样本集组成的训练集输入所述大语言模型中的检索器,得到所述检索器输出的所述第一查询语句集中各查询语句与各样本之间的相似度得分;所述第一正样本集为与所述第一查询语句集中各查询语句相关的文本集,所述第一负样本集为与所述第一查询语句集中各查询语句不相关的文本集;
13、将所述相似度得分输入激活函数,得到所述各样本与所述各查询语句相关的概率;
14、若任一概率大于概率阈值,则确定所述任一概率对应的样本与所述任一概率对应的查询语句相关;
15、若所述任一概率对应的样本实际为所述第一负样本集中的样本,则根据所述检索器的损失函数调整所述检索器的参数后,返回将第一查询语句集、第一正样本集和第一负样本集组成的训练集输入所述大语言模型中的检索器的步骤,直至所述检索器的损失函数值最小,得到优化检索器。
16、在一个实施例中,所述对所述大语言模型中的生成器进行单独训练,得到优化生成器,包括:
17、将第二查询语句集、第二正样本集和预设词汇表集组成的训练集输入所述大语言模型中的生成器,得到所述生成器输出的生成文本集以及所述生成文本集中各生成文本的目标概率分布;其中,任一目标概率分布是任一生成文本中的所有词在所述预设词汇表集中任一预设词汇表的出现概率分布,所述任一预设词汇表是对所述生成器的任一预设生成文本进行分词后形成的词汇表;
18、若任一目标概率分布与实际概率分布之间的误差大于误差阈值,则根据所述生成器的损失函数调整所述生成器的参数后,返回将第二查询语句集、第二正样本集和预设词汇表集组成的训练集输入所述大语言模型中的生成器的步骤,直至所述生成器的损失函数值最小,得到优化生成器。
19、在一个实施例中,所述对所述优化检索器和所述优化生成器进行联合训练,得到目标检索器和目标生成器,包括:
20、将第三查询语句集、第三正样本集和第三负样本集组成的训练集输入所述优化检索器,得到所述优化检索器输出的所述第三查询语句集中各查询语句与各样本之间的相似度得分;所述第三正样本集为与所述第三查询语句集中各查询语句相关的文本集,所述第三负样本集为与所述第三查询语句集中各查询语句不相关的文本集;
21、将所述相似度得分输入激活函数,得到所述各样本与所述各查询语句相关的概率;
22、若任一概率大于概率阈值,则确定所述任一概率对应的样本与所述任一概率对应的查询语句相关;
23、将所述任一概率对应的样本作为第四正样本集中的样本,将所述任一概率对应的查询语句作为第四查询语句集中的查询语句,将所述第四查询语句集、所述第四正样本集和预设词汇表集组成的训练集输入所述优化生成器,得到所述优化生成器输出的生成文本集以及所述生成文本集中各生成文本的目标概率分布;其中,任一目标概率分布是任一生成文本中的所有词在所述预设词汇表集中任一预设词汇表的出现概率分布,所述任一预设词汇表是对所述优化生成器的任一预设生成文本进行分词后形成的词汇表;
24、若任一目标概率分布与实际概率分布之间的误差大于误差阈值,则根据所述联合损失函数调整所述优化检索器和/或所述优化生成器的参数后,返回将第三查询语句集、第三正样本集和第三负样本集组成的训练集输入所述优化检索器的步骤,直至所述联合损失函数值最小,得到目标检索器和目标生成器;所述联合损失函数是对所述检索器的损失函数和所述生成器的损失函数进行加权平均得到的。
25、在一个实施例中,所述利用所述目标检索器在知识图谱中进行检索,得到与所述查询语句相关的目标三元组,包括:
26、将所述查询语句和所述知识图谱中的三元组向量化,得到查询向量和三元组向量;
27、计算所述查询向量与各三元组向量的第一相似度得分,将所述第一相似度得分由高到低排序,得到向量相似度序列;
28、选取所述向量相似度序列中排序靠前的多个第一相似度对应的三元组向量,得到第一检索结果;
29、提取所述查询语句中的关键词,得到查询关键词;
30、计算所述查询关键词与所述知识图谱中的三元组的第二相似度得分,将所述第二相似度得分由高到低排序,得到关键词相似度序列;
31、选取所述关键词相似度序列中排序靠前的多个第二相似度对应的三元组,得到第二检索结果;
32、将所述第一检索结果和所述第二检索结果进行合并去重,得到与所述查询语句相关的目标三元组。
33、第二方面,本申请实施例提供一种查询结果生成装置,包括:
34、检索模块,用于:将查询语句输入目标检索器,以利用所述目标检索器在知识图谱中进行检索,得到与所述查询语句相关的目标三元组;
35、融合模块,用于:将所述查询语句与所述目标三元组进行融合,得到融合数据;
36、生成模块,用于:将所述融合数据输入目标生成器,以利用所述目标生成器生成所述查询语句对应的查询结果;
37、所述目标检索器和所述目标生成器是以本文档来自技高网...
【技术保护点】
1.一种查询结果生成方法,其特征在于,包括:
2.根据权利要求1所述的查询结果生成方法,其特征在于,所述目标检索器和所述目标生成器,是基于以下方式确定得到的:
3.根据权利要求2所述的查询结果生成方法,其特征在于,所述对所述大语言模型中的检索器进行单独训练,得到优化检索器,包括:
4.根据权利要求2所述的查询结果生成方法,其特征在于,所述对所述大语言模型中的生成器进行单独训练,得到优化生成器,包括:
5.根据权利要求2所述的查询结果生成方法,其特征在于,所述对所述优化检索器和所述优化生成器进行联合训练,得到目标检索器和目标生成器,包括:
6.根据权利要求1所述的查询结果生成方法,其特征在于,所述利用所述目标检索器在知识图谱中进行检索,得到与所述查询语句相关的目标三元组,包括:
7.一种查询结果生成装置,其特征在于,包括:
8.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的查询结果生成方法的步骤。
9.一种计算
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的查询结果生成方法的步骤。
...【技术特征摘要】
1.一种查询结果生成方法,其特征在于,包括:
2.根据权利要求1所述的查询结果生成方法,其特征在于,所述目标检索器和所述目标生成器,是基于以下方式确定得到的:
3.根据权利要求2所述的查询结果生成方法,其特征在于,所述对所述大语言模型中的检索器进行单独训练,得到优化检索器,包括:
4.根据权利要求2所述的查询结果生成方法,其特征在于,所述对所述大语言模型中的生成器进行单独训练,得到优化生成器,包括:
5.根据权利要求2所述的查询结果生成方法,其特征在于,所述对所述优化检索器和所述优化生成器进行联合训练,得到目标检索器和目标生成器,包括:
6.根据权利要求1所述的查询结果生成方...
【专利技术属性】
技术研发人员:潘文硕,袁明明,王凯,梁秉豪,周正,
申请(专利权)人:浪潮通信信息系统有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。