复数域稠密通道的召回方法、系统、电子设备及存储介质技术方案

技术编号：40962391 阅读：2 留言：0更新日期：2024-04-18 20:41

本申请提供了一种复数域稠密通道的召回方法、系统、电子设备及存储介质，涉及信息检索技术领域。本申请在训练目标稠密通道召回模型时充分考虑了问题语义信息和文档语义信息之间的关联性，且仅通过一个初始稠密通道召回模型来训练问题语义信息和文档语义信息组成的训练样本，不仅能够使模型的输出结果更加准确，还大大减少了模型的训练成本，将本申请的目标稠密通道召回模型应用于信息检索，能够得到更加准确的召回结果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及信息检索，特别是一种复数域稠密通道的召回方法、系统、电子设备及存储介质。

技术介绍

1、在信息检索领域，向量召回是一种通过计算问题向量和文档向量相似度的方式，其中，和问题向量相似度越高的文档向量则确定为检索结果，其方法通常与索引搜索结合，实现在语义层面查找与检索问题可能存在关系的文档，这中方法能够解决传统索引搜索时面临的分词粒度问题。

2、针对上述向量召回的方法，需要对检索的问题以及对应的文档进行向量编码，从而衍生出了两大类的向量召回方案：稀疏编码(sparse embedding)和稠密编码(denseembedding)，但是，对于稀疏编码，针对一些结构明显且描述规范的问题和文档拥有很高的准确率，但是因为受限于登录词和分词正确与否的影响，该方法在通用表述的检索上效果不是很理想。对于稠密编码，则需要分别对问题和文档进行编码的模型构建，在训练和推理阶段都需要同时在两个结构上进行，这大大地增加了模型训练的时间成本和资源成本。

3、因此，亟需一种新的复数域稠密通道的召回方法。

技术实现思路

1、鉴于上述问题，本申请实施例提供了一种复数域稠密通道的召回方法、系统、电子设备及存储介质，以便克服上述问题或者至少部分地解决上述问题。

2、本申请实施例第一方面，提供了一种复数域稠密通道的召回方法，所述方法包括：

3、获取待检索的问题语义信息；

4、将所述待检索的问题语义信息输入预先训练的目标稠密通道召回模型，并通过所述目标稠密

5、计算所述待检索的问题语义信息的向量与所述文档语义信息的向量之间的余弦相似度，并根据所述余弦相似度得到所述目标稠密通道召回模型的召回结果，其中，所述目标稠密通道召回模型是通过如下步骤训练得到的：

6、获取训练数据集，其中，所述训练数据集中的每一组训练数据包括一个问题语义信息、所述问题语义信息对应的文档语义信息以及训练标签；

7、将任一组所述训练数据作为一个复变量训练样本输入到初始稠密通道召回模型中进行模型训练，其中，所述问题语义信息作为所述复变量训练样本的虚部，所述文档语义信息作为所述复变量训练样本的实部；

8、分别计算所述复变量训练样本的二分类损失函数值和对比学习损失函数值，并将所述二分类损失函数值和所述对比学习损失函数值进行加权融合，得到联合损失函数值；

9、基于所述联合损失函数值，更新所述初始稠密通道召回模型的模型参数，得到所述目标稠密通道召回模型。

10、可选地，所述将任一组所述训练数据作为一个复变量训练样本输入到初始稠密通道召回模型中进行模型训练，包括：

11、将所述复变量训练样本的虚部输入第一嵌入层，将所述复变量训练样本的实部输入第二嵌入层，分别得到所述虚部和所述实部各自对应的特征高维向量，其中，所述第一嵌入层和所述第二嵌入层拥有共享模型参数；

12、分别将所述虚部对应的特征高维向量和所述实部对应的特征高维向量依次输入自注意力模块、前反馈全连接层以及输出层，得到所述联合损失函数值；

13、基于所述联合损失函数值，更新所述输出层、所述前反馈全连接层、所述自注意力模块的模型参数以及更新所述第一嵌入层和所述第二嵌入层的所述共享模型参数。

14、可选地，所述分别将所述虚部对应的特征高维向量和所述实部对应的特征高维向量依次输入自注意力模块、前反馈全连接层以及输出层，得到所述联合损失函数值，包括：

15、将所述虚部对应的特征高维向量和所述实部对应的特征高维向量，分别输入由所述自注意力模块拆解出的第一自注意力模块和第二自注意力模块，以对所述虚部对应的特征高维向量和所述实部对应的特征高维向量分别进行独立计算；

16、将所述第一自注意力模块的第一输出结果和所述第二自注意力模块的第二输出结果分别输入到前反馈全连接层，以通过所述前反馈全连接层分别对所述第一输出结果和所述第二输出结果分别进行独立计算；

17、将所述前反馈全连接层对所述第一输出结果和所述第二输出结果分别进行独立计算的输出结果输入所述输出层，得到所述联合损失函数值。

18、可选地，所述将所述前反馈全连接层对所述第一输出结果和所述第二输出结果分别进行独立计算的输出结果输入所述输出层，得到所述联合损失函数值，包括：

19、在所述输出层内，将所述前反馈全连接层的输出结果的实部和虚部进行点积，并将点积后的结果计算所述二分类损失函数值；

20、计算所述前反馈全连接层的输出结果的实部和虚部之间的余弦相似度，并根据所述余弦相似度确定所述前反馈全连接层的输出结果的实部和虚部的预测类别；

21、根据所述预测类别实际类别，计算所述对比学习损失函数值；

22、将所述二分类损失函数值和所述对比学习损失函数值进行加权融合，得到所述联合损失函数值；

23、其中，联合损失函数值的计算公式如下公式所示：

24、

25、其中，ltotal表示联合损失函数值；lcross_entropy表示交叉熵损失函数；表示输入为隐藏层输出的实部和虚部的点积，并且经过softmax归一化函数得到类别概率分布；y-label表示该输入对应的真实类比；l_contrastive-learning表示对比学习；(h)为隐藏层输出。

26、可选地，所述获取训练数据集，包括：

27、将所有问题语义信息划分为正问题语义信息和负问题语义信息，将所有文档语义信息划分为正文档语义信息和负文档语义信息；

28、将所述正问题语义信息、所述负问题语义信息分别与所述正文档语义信息和负文档语义信息进行组合，得到多种语义信息组合，所述多种语义信息组合至少包括：正问题语义信息与正文档语义信息组合，正问题语义信息与负文档语义信息组合，负问题语义信息和正文档语义信息组合以及负问题语义信息和负文档语义信息组合；

29、将每一组所述语义信息组合以及各自对应的训练标签确定为一组训练数据，并将多组训练数据确定为所述训练数据集，其中，所述训练数据集中训练标签为0的训练数据所占的比例为第一预设比例。

30、可选地，所述方法还包括：

31、通过生成式大模型对所述正问题语义信息进行关联正问题语义信息生成；

32、将所述关联正问题语义信息与所述正文档语义信息组合以及对应的训练标签组合成一组训练数据。

33、可选地，所述基于所述联合损失函数值，更新所述初始稠密通道召回模型的模型参数，得到所述目标稠密通道召回模型，包括：

34、在每个训练周期结束后，保留每一次训练周期中在验证集上表现最好的中间稠密通道召回模型；

35、将多个训练周期保留下来的多个所述中间稠密通道召回模型，进行参数平均，得到所述目标稠密通道召回模型。

本文档来自技高网...

【技术保护点】

1.一种复数域稠密通道的召回方法，其特征在于，所述方法包括：

2.根据权利要求1所述的复数域稠密通道的召回方法，其特征在于，所述将任一组所述训练数据作为一个复变量训练样本输入到初始稠密通道召回模型中进行模型训练，包括：

3.根据权利要求2所述的复数域稠密通道的召回方法，其特征在于，所述分别将所述虚部对应的特征高维向量和所述实部对应的特征高维向量依次输入自注意力模块、前反馈全连接层以及输出层，得到所述联合损失函数值，包括：

4.根据权利要求3所述的复数域稠密通道的召回方法，其特征在于，所述将所述前反馈全连接层对所述第一输出结果和所述第二输出结果分别进行独立计算的输出结果输入所述输出层，得到所述联合损失函数值，包括：

5.根据权利要求1所述的复数域稠密通道的召回方法，其特征在于，所述获取训练数据集，包括：

6.根据权利要求5所述的复数域稠密通道的召回方法，其特征在于，所述方法还包括：

7.根据权利要求1中所述的复数域稠密通道的召回方法，其特征在于，所述基于所述联合损失函数值，更新所述初始稠密通道召回模型的模型参数

8.一种复数域稠密通道的召回系统，其特征在于，所述系统包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如权利要求1至7中任一项所述的复数域稠密通道的召回方法。

10.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如权利要求1至7中任一项所述的复数域稠密通道的召回方法。

...

【技术特征摘要】

1.一种复数域稠密通道的召回方法，其特征在于，所述方法包括：

5.根据权利要求1所述的复数域稠密通道的召回方法，其特征在于，所...

【专利技术属性】
技术研发人员：王元，邢启洲，李健，陈明，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人