一种数据处理方法、装置、设备以及存储介质制造方法及图纸

技术编号：39241913 阅读：9 留言：0更新日期：2023-10-30 11:54

本申请实施例提供了一种数据处理方法、装置、设备以及存储介质，用于提高搜索匹配的准确度。包括：获取搜索关键对象和候选匹配资源；基于第一特征提取模型获取搜索关键对象的第一特征向量，并基于第二特征提取模型获取候选匹配资源所对应的第二特征向量；基于第一注意力网络、第一特征向量和第二特征向量确定第一融合特征向量和第二融合特征向量；对第一融合特征向量和第二融合特征向量进行向量拼接得到分类模型的输入向量；调用分类模型基于输入向量确定搜索关键对象与候选匹配资源的匹配结果。本申请提供的技术方案可以应用于人工智能、云技术、大数据等领域。大数据等领域。大数据等领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法、装置、设备以及存储介质

[0001]本申请涉及人工智能，尤其涉及一种数据处理方法、装置、设备以及存储介质。

技术介绍

[0002]随着计算机技术的发展，搜索引擎的功能日趋强大。召回是搜索中的重要环节，根据用户输入的搜索关键对象可以从海量信息资源中召回与搜索关键对象相关的信息资源。在对象搜索场景中，当用户输入了搜索关键对象(query)后，计算机设备可确定海量信息资源中的候选匹配资源(doc)与搜索关键对象之间的相关性，从而基于相关性来对各个对象进行输出显示，以实现对搜索关键对象进行反馈。
[0003]传统技术中，通常是提取搜索关键对象对应的搜索关键对象特征，提取候选匹配资源(即doc)对应的特征，基于搜索关键对象特征和候选匹配资源(即doc)对应的特征确定两者是否匹配，从而确定是否召回该候选匹配资源。在此过程中，候选匹配资源和搜索关键对象之间的相关性，通常是通过神经网络模型对相应的候选匹配资源进行分类预测得到的；可见，神经网络模型的模型性能与相关性的预测结果息息相关。
[0004]基于此，目前亟需一个可以提升搜索匹配的精确性的方案。

技术实现思路

[0005]本申请实施例提供了一种数据处理方法、装置、设备以及存储介质，用于提高搜索匹配的准确度。
[0006]有鉴于此，本申请一方面提供一种数据处理方法，包括：
[0007]获取搜索关键对象和候选匹配资源；基于第一特征提取模型获取搜索关键对象的第一特征向量，并基于第二特征提取模型获取候选匹配资源所对应的第二...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取搜索关键对象和候选匹配资源；基于第一特征提取模型获取所述搜索关键对象的第一特征向量，并基于第二特征提取模型获取所述候选匹配资源所对应的第二特征向量；基于第一注意力网络、所述第一特征向量和所述第二特征向量确定第一融合特征向量，所述第一融合特征向量用于指示所述候选匹配资源中与所述搜索关键对象的语义向量关联性超过第一阈值的特征向量；基于第二注意力网络、所述第二特征向量和所述第一特征向量确定第二融合特征向量，所述第二融合特征向量用于指示所述搜索关键对象中与所述候选匹配资源的语义向量关联性超过第二阈值的特征向量；对所述第一融合特征向量和所述第二融合特征向量进行向量拼接得到分类模型的输入向量；调用分类模型基于所述输入向量确定所述搜索关键对象与所述候选匹配资源的匹配结果。2.根据权利要求1所述的方法，其特征在于，基于第一注意力网络、所述第一特征向量和所述第二特征向量确定第一融合特征向量包括：基于所述第一注意力网络对所述第一特征向量进行编码和归一化处理得到第一注意力特征向量；基于所述第一注意力特征向量与所述第二特征向量进行向量融合处理得到所述第一融合特征向量。3.根据权利要求1所述的方法，其特征在于，基于第二注意力网络、所述第二特征向量和所述第一特征向量确定第二融合特征向量包括：基于所述第二注意力网络对所述第二特征向量进行编码和归一化处理得到第二注意力特征向量；基于所述第二注意力特征向量与所述第一特征向量进行向量融合处理得到所述第二融合特征向量。4.根据权利要求1所述的方法，其特征在于，所述基于第一特征提取模型获取搜索关键对象的第一特征向量包括：基于第一长短期记忆递归神经网络LSTM获取所述搜索关键对象的第一特征向量；或者，基于双向编码转换器BERT模型获取所述搜索关键对象的第一特征向量。5.根据权利要求1所述的方法，其特征在于，所述候选匹配资源包括候选文本和候选图像，所述基于第二特征提取模型获取候选匹配资源所对应的第二特征向量包括：基于第二LSTM或者第二BERT模型获取所述候选文本的第一向量，并基于残差网络ResNet
‑
101获取所述候选图像的第二向量；所述第一向量和所述第二向量拼接得到所述第二特征向量。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：获取训练样本、初始分类模型、第一初始特征提取模型、第二初始特征提取模型、第一初始注意力网络和第二初始注意力网络，所述训练样本包括训练搜索关键对象、训练匹配
资源以及匹配结果标注；基于所述第一初始特征提取模型获取所述训练搜索关键对象的第三特征向量，并基于所述第二初始特征提取模型获取所述训练匹配资源的第四特征向量；基于第一初始注意力网络、所述第三特征向量和所述第四特征向量确定第三融合特征向量，所述第三融合特征向量用于指示所述训练匹配资源中与所述训练搜索关键对象的语义向量关联性超过第三阈值的特征向量；基于第二初始注意力网络、所述第三特征向量和所述第四特征向量确定第四融合特征向量，所述第四融合特征向量用于指示所述训练搜索关键对象中与所述训练匹配资源的语义向量关联性超过第四阈值的特征向量；将所述第三融合特征向量和所述第四融合特征向量拼接得到所述初始分类模型的输入向量；调用所述初始分类模型基于所述初始分类模型的输入向量预测得到所述训练样本的预测匹配结果；基于所述预测匹配结果和所述匹配结果标注得到损失值；根据所述损失值训练所述初始分类模型、第一初始特征提取模型、第二初始特征提取模型、第一初始注意力网络和第二初始注意力网络得到所述分类模型、所述第一特征提取模型、所述第二特征提取模型、所述第一注意力网络以及所述第二注意力网络。7.根据权利要求6所述的方法，其特征在于，所述获取所述训练样本包括：获取历史查询结果，所述历史查询结果用...

【专利技术属性】
技术研发人员：黄剑辉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人