一种数据处理方法、装置、设备以及存储介质制造方法及图纸

技术编号:39241913 阅读:9 留言:0更新日期:2023-10-30 11:54
本申请实施例提供了一种数据处理方法、装置、设备以及存储介质,用于提高搜索匹配的准确度。包括:获取搜索关键对象和候选匹配资源;基于第一特征提取模型获取搜索关键对象的第一特征向量,并基于第二特征提取模型获取候选匹配资源所对应的第二特征向量;基于第一注意力网络、第一特征向量和第二特征向量确定第一融合特征向量和第二融合特征向量;对第一融合特征向量和第二融合特征向量进行向量拼接得到分类模型的输入向量;调用分类模型基于输入向量确定搜索关键对象与候选匹配资源的匹配结果。本申请提供的技术方案可以应用于人工智能、云技术、大数据等领域。大数据等领域。大数据等领域。

【技术实现步骤摘要】
一种数据处理方法、装置、设备以及存储介质


[0001]本申请涉及人工智能,尤其涉及一种数据处理方法、装置、设备以及存储介质。

技术介绍

[0002]随着计算机技术的发展,搜索引擎的功能日趋强大。召回是搜索中的重要环节,根据用户输入的搜索关键对象可以从海量信息资源中召回与搜索关键对象相关的信息资源。在对象搜索场景中,当用户输入了搜索关键对象(query)后,计算机设备可确定海量信息资源中的候选匹配资源(doc)与搜索关键对象之间的相关性,从而基于相关性来对各个对象进行输出显示,以实现对搜索关键对象进行反馈。
[0003]传统技术中,通常是提取搜索关键对象对应的搜索关键对象特征,提取候选匹配资源(即doc)对应的特征,基于搜索关键对象特征和候选匹配资源(即doc)对应的特征确定两者是否匹配,从而确定是否召回该候选匹配资源。在此过程中,候选匹配资源和搜索关键对象之间的相关性,通常是通过神经网络模型对相应的候选匹配资源进行分类预测得到的;可见,神经网络模型的模型性能与相关性的预测结果息息相关。
[0004]基于此,目前亟需一个可以提升搜索匹配的精确性的方案。

技术实现思路

[0005]本申请实施例提供了一种数据处理方法、装置、设备以及存储介质,用于提高搜索匹配的准确度。
[0006]有鉴于此,本申请一方面提供一种数据处理方法,包括:
[0007]获取搜索关键对象和候选匹配资源;基于第一特征提取模型获取搜索关键对象的第一特征向量,并基于第二特征提取模型获取候选匹配资源所对应的第二特征向量;基于第一注意力网络、该第一特征向量和该第二特征向量确定第一融合特征向量,该第一融合特征向量用于指示该候选匹配资源中与该搜索关键对象的语义向量关联性超过第一阈值的特征向量;基于第二注意力网络、该第二特征向量和该第一特征向量确定第二融合特征向量,该第二融合特征向量用于指示该搜索关键对象中与该候选匹配资源的语义向量关联性超过第二阈值的特征向量;对该第一融合特征向量和该第二融合特征向量进行向量拼接得到分类模型的输入向量;调用分类模型基于该输入向量确定该搜索关键对象与该候选匹配资源的匹配结果。
[0008]本申请另一方面提供一种数据处理装置,包括:
[0009]获取模块,用于获取搜索关键对象和候选匹配资源;
[0010]特征提取模块,用于基于第一特征提取模型获取搜索关键对象的第一特征向量,并基于第二特征提取模型获取候选匹配资源所对应的第二特征向量;
[0011]特征融合模块,用于基于第一注意力网络、该第一特征向量和该第二特征向量确定第一融合特征向量,该第一融合特征向量用于指示该候选匹配资源中与该搜索关键对象的语义向量关联性超过第一阈值的特征向量;基于第二注意力网络、该第二特征向量和该
第一特征向量确定第二融合特征向量,该第二融合特征向量用于指示该搜索关键对象中与该候选匹配资源的语义向量关联性超过第一阈值的特征向量;
[0012]特征拼接模块,用于对该第一融合特征向量和该第二融合特征向量进行向量拼接得到分类模型的输入向量;
[0013]特征分类模块,用于调用分类模型基于该输入向量确定该搜索关键对象与该候选匹配资源的匹配结果。
[0014]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该特征融合模块,具体用于基于该第一注意力网络对该第一特征向量进行编码和归一化处理得到第一注意力特征向量;
[0015]基于该第一注意力特征向量与该第二特征向量进行向量融合处理得到该第一融合特征向量。
[0016]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该特征融合模块,具体用于基于该第二注意力网络对该第二特征向量进行编码和归一化处理得到第二注意力特征向量;
[0017]基于该第二注意力特征向量与该第一特征向量进行向量融合处理得到该第二融合特征向量。
[0018]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该特征提取模块,具体用于基于第一长短期记忆递归神经网络(Long Short

Term Memory,LSTM)获取该搜索关键对象的第一特征向量;
[0019]或者,
[0020]基于双向编码转换器(Bidirectional Encoder Representation from Transformers,BERT)模型获取该搜索关键对象的第一特征向量。
[0021]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该候选匹配资源包括候选文本和候选图像,该特征提取模块,具体用于基于第二LSTM或者第二BERT获取该候选文本的第一向量,并基于残差网络(residual network 101,ResNet

101)获取该候选图像的第二向量;
[0022]该第一向量和该第二向量拼接得到该第二特征向量。
[0023]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该获取模块,还用于获取训练样本、初始分类模型、第一初始特征提取模型、第二初始特征提取模型、第一初始注意力网络和第二初始注意力网络,该训练样本包括训练搜索关键对象、训练匹配资源以及匹配结果标注;
[0024]该特征提取模块,还用于基于该第一初始特征提取模型获取该训练搜索关键对象的第三特征向量,并基于该第二初始特征提取模型获取该训练匹配资源的第四特征向量;
[0025]该特征融合模块,还用于基于第一初始注意力网络、该第三特征向量和该第四特征向量确定第三融合特征向量,该第三融合特征向量用于指示该训练匹配资源中与该训练搜索关键对象的语义向量关联性超过第三阈值的特征向量;基于第二初始注意力网络、该第三特征向量和该第四特征向量确定第四融合特征向量,该第四融合特征向量用于指示该训练搜索关键对象中与该训练匹配资源的语义向量关联性超过第四阈值的特征向量;
[0026]该特征拼接模块,还用于将该第三融合特征向量和该第四融合特征向量拼接得到
该初始分类模型的输入向量;
[0027]该特征分类模块,还用于调用该初始分类模型基于该初始分类模型的输入向量预测得到该训练样本的预测匹配结果;
[0028]该装置还包括处理模块,用于基于该预测匹配结果和该匹配结果标注得到损失值;根据该损失值训练该初始分类模型、第一初始特征提取模型、第二初始特征提取模型、第一初始注意力网络和第二初始注意力网络得到该分类模型、该第一特征提取模型、该第二特征提取模型、该第一注意力网络以及该第二注意力网络。
[0029]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该获取模块,具体用于获取历史查询结果,该历史查询结果用于指示历史搜索关键对象以及与该历史搜索关键对象相匹配的历史匹配资源;
[0030]统计该历史搜索关键对象与该历史匹配资源的匹配次数;
[0031]在该匹配次数大于第五阈值时,确定该历史搜索关键对象与该本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取搜索关键对象和候选匹配资源;基于第一特征提取模型获取所述搜索关键对象的第一特征向量,并基于第二特征提取模型获取所述候选匹配资源所对应的第二特征向量;基于第一注意力网络、所述第一特征向量和所述第二特征向量确定第一融合特征向量,所述第一融合特征向量用于指示所述候选匹配资源中与所述搜索关键对象的语义向量关联性超过第一阈值的特征向量;基于第二注意力网络、所述第二特征向量和所述第一特征向量确定第二融合特征向量,所述第二融合特征向量用于指示所述搜索关键对象中与所述候选匹配资源的语义向量关联性超过第二阈值的特征向量;对所述第一融合特征向量和所述第二融合特征向量进行向量拼接得到分类模型的输入向量;调用分类模型基于所述输入向量确定所述搜索关键对象与所述候选匹配资源的匹配结果。2.根据权利要求1所述的方法,其特征在于,基于第一注意力网络、所述第一特征向量和所述第二特征向量确定第一融合特征向量包括:基于所述第一注意力网络对所述第一特征向量进行编码和归一化处理得到第一注意力特征向量;基于所述第一注意力特征向量与所述第二特征向量进行向量融合处理得到所述第一融合特征向量。3.根据权利要求1所述的方法,其特征在于,基于第二注意力网络、所述第二特征向量和所述第一特征向量确定第二融合特征向量包括:基于所述第二注意力网络对所述第二特征向量进行编码和归一化处理得到第二注意力特征向量;基于所述第二注意力特征向量与所述第一特征向量进行向量融合处理得到所述第二融合特征向量。4.根据权利要求1所述的方法,其特征在于,所述基于第一特征提取模型获取搜索关键对象的第一特征向量包括:基于第一长短期记忆递归神经网络LSTM获取所述搜索关键对象的第一特征向量;或者,基于双向编码转换器BERT模型获取所述搜索关键对象的第一特征向量。5.根据权利要求1所述的方法,其特征在于,所述候选匹配资源包括候选文本和候选图像,所述基于第二特征提取模型获取候选匹配资源所对应的第二特征向量包括:基于第二LSTM或者第二BERT模型获取所述候选文本的第一向量,并基于残差网络ResNet

101获取所述候选图像的第二向量;所述第一向量和所述第二向量拼接得到所述第二特征向量。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:获取训练样本、初始分类模型、第一初始特征提取模型、第二初始特征提取模型、第一初始注意力网络和第二初始注意力网络,所述训练样本包括训练搜索关键对象、训练匹配
资源以及匹配结果标注;基于所述第一初始特征提取模型获取所述训练搜索关键对象的第三特征向量,并基于所述第二初始特征提取模型获取所述训练匹配资源的第四特征向量;基于第一初始注意力网络、所述第三特征向量和所述第四特征向量确定第三融合特征向量,所述第三融合特征向量用于指示所述训练匹配资源中与所述训练搜索关键对象的语义向量关联性超过第三阈值的特征向量;基于第二初始注意力网络、所述第三特征向量和所述第四特征向量确定第四融合特征向量,所述第四融合特征向量用于指示所述训练搜索关键对象中与所述训练匹配资源的语义向量关联性超过第四阈值的特征向量;将所述第三融合特征向量和所述第四融合特征向量拼接得到所述初始分类模型的输入向量;调用所述初始分类模型基于所述初始分类模型的输入向量预测得到所述训练样本的预测匹配结果;基于所述预测匹配结果和所述匹配结果标注得到损失值;根据所述损失值训练所述初始分类模型、第一初始特征提取模型、第二初始特征提取模型、第一初始注意力网络和第二初始注意力网络得到所述分类模型、所述第一特征提取模型、所述第二特征提取模型、所述第一注意力网络以及所述第二注意力网络。7.根据权利要求6所述的方法,其特征在于,所述获取所述训练样本包括:获取历史查询结果,所述历史查询结果用...

【专利技术属性】
技术研发人员:黄剑辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1