跨模态哈希模型的训练方法、编码方法、装置及电子设备制造方法及图纸

技术编号:33246532 阅读:32 留言:0更新日期:2022-04-27 17:59
本申请提供了一种跨模态哈希模型的训练方法、编码方法、装置及电子设备;涉及人工智能技术领域,方法包括:调用跨模态哈希模型对获取到的多个样本对进行降维哈希编码处理,得到多个哈希编码对;针对每个哈希编码对,在哈希编码对中每个位置的哈希数据点对中,确定权重较大的目标数据哈希点,基于每个目标哈希数据点确定哈希编码对的二值码;基于每个哈希编码对、多个样本对所对应的相似度矩阵,以及每个哈希编码对与所对应的二值码之间的差异,确定跨模态哈希模型的总量化损失;基于总量化损失更新跨模态哈希模型的参数。通过本申请,能够提升跨模态哈希模型的编码精度,进而节约计算不同样本的编码结果之间相似度所占用的计算资源。资源。资源。

【技术实现步骤摘要】
跨模态哈希模型的训练方法、编码方法、装置及电子设备


[0001]本申请涉及人工智能技术,尤其涉及一种跨模态哈希模型的训练方法、编码方法、装置及电子设备。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0003]跨模态哈希技术是将不同模态的高维数据映射到一个统一的低维的汉明空间的哈希编码技术,通常通过跨模态哈希模型来实现。跨模态哈希模型将不同模态的样本的高维数据转换到低维的哈希编码的过程中会产生量化损失,相关技术暂无更有效的方式确定更准确的量化损失,导致基于训练出的跨模态哈希模型的编码精度较低。
[0004]由于跨模态哈希模型将高维数据降维编码处理为相同编码长度的哈希编码,并通过相同编码长度的哈希编码之间的距离表征样本之间的相似度(哈希编码之间的距离与相似度呈负相关),编码精度低则哈希编码之间的距离表征样本之间的相似度的准确性不高,从而在基于编码精度低的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种跨模态哈希模型的训练方法,其特征在于,所述方法包括:获取多个样本对,其中,每个所述样本对包括用于描述相同内容且不同模态的两个样本;调用跨模态哈希模型对多个所述样本对进行降维哈希编码处理,得到与所述多个样本对一一对应的多个哈希编码对,其中,所述哈希编码对中的两个哈希编码之间的距离用于表征所述哈希编码对所对应的所述两个样本之间的相似度;针对每个所述哈希编码对执行以下处理:在所述哈希编码对中每个位置的哈希数据点对中,确定权重较大的目标数据哈希点,基于所述每个位置对应的所述目标哈希数据点确定所述哈希编码对的二值码,其中,所述权重用于表征所述哈希数据点对于计算所述哈希编码对所对应的样本对的相似度的重要程度;基于每个所述哈希编码对、所述多个样本对所对应的相似度矩阵,以及每个所述哈希编码对与每个所述哈希编码对所对应的所述二值码之间的差异,确定所述跨模态哈希模型的总量化损失;基于所述总量化损失更新所述跨模态哈希模型的参数。2.如权利要求1所述的方法,其特征在于,所述不同模态包括第一模态和第二模态;每个所述样本对包括:一个所述第一模态的样本和一个所述第二模态的样本;所述多个样本对一一对应的多个哈希编码对包括:所述第一模态的多个样本一一对应的多个哈希编码、以及所述第二模态的多个样本一一对应的多个哈希编码;所述对多个所述样本对进行降维哈希编码处理,得到与所述多个样本对一一对应的多个哈希编码对,包括:对多个所述样本对中所述第一模态的多个样本进行特征提取,得到所述第一模态的样本特征集合,并对多个所述样本对中所述第二模态的多个样本进行特征提取,得到所述第二模态的样本特征集合;对所述第一模态的样本特征集合进行降维哈希编码处理,得到与所述第一模态的多个样本一一对应的多个哈希编码,并对所述第二模态的样本特征集合进行降维哈希编码处理,得到与所述第二模态的多个样本一一对应的多个哈希编码,其中,所述第一模态的多个样本的哈希编码与所述第二模态的多个样本的哈希编码的长度相同。3.如权利要求2所述的方法,其特征在于,所述对所述第一模态的样本特征集合进行降维哈希编码处理,得到与所述第一模态的多个样本一一对应的多个哈希编码,包括:对所述第一模态的样本特征集合包括的多个特征数据点分别进行降维哈希编码处理,得到与所述第一模态的多个样本一一对应的多个哈希编码,其中,所述多个特征数据点与所述第一模态的多个样本一一对应;所述对所述第二模态的样本特征集合进行降维哈希编码处理,得到与所述第二模态的多个样本一一对应的多个哈希编码,包括:对所述第二模态的样本特征集合包括的多个特征数据点分别进行降维哈希编码处理,得到与所述第二模态的多个样本一一对应的哈希编码,其中,所述多个特征数据点与所述第二模态的多个样本一一对应。
4.如权利要求2所述的方法,其特征在于,所述第一模态的样本特征集合包括多个特征数据点,其中,所述多个特征数据点与所述第一模态的多个样本一一对应;所述第二模态的样本特征集合包括多个特征数据点,其中,所述多个特征数据点与所述第二模态的多个样本一一对应;在确定所述跨模态哈希模型的总量化损失之前,所述方法还包括:通过以下方式获取多个样本对所对应的相似度矩阵:对于所述第一模态的样本特征集合中的每个特征数据点进行以下处理:确定所述第一模态的特征数据点在所述样本特征集合中的位置编号,并确定所述位置编号对应的行;根据每个所述第二模态的特征数据点在所述样本特征集合中的位置编号,依次获取所述第一模态的特征数据点与每个所述第二模态的特征数据点的特征相似度;将得到的每个特征相似度依次作为位于所述行中的元素,将得到的每一行的元素组合为所述相似度矩阵。5.如权利要求1所述的方法,其特征在于,所述不同模态包括第一模态和第二模态,每个所述哈希编码对包括所述第一模态的样本的哈希编码和所述第二模态的样本的哈希编码,每个所述哈希编码包括多个哈希数据点;所述在所述哈希编码对中每个位置的哈希数据点对中,确定权重较大的目标数据哈希点,包括:遍历每个所述哈希编码对,获取所遍历到的所述哈希编码对的目标权重矩阵,并针对所遍历到的所述哈希编码对中的每个位置执行以下处理:基于所遍历到的所述哈希编码对的目标权重矩阵,确定所述第一模态的样本的哈希编码中位于所述位置的哈希数据点的权重、以及所述第二模板的样本的哈希编码中位于所述位置的哈希数据点的权重;将权重较大的哈希数据点确定为所述位置对应的目标哈希数据点。6.如权利要求5所述的方法,其特征在于,所述目标权重矩阵为对角线矩阵,且所述对角线矩阵的对角线上的元素数量等于所述哈希编码对中的两个哈希编码的编码长度的加和;所述基于所遍历到的所述哈希编码对的目标权重矩阵,确定所述第一模态的样本的哈希编码中位于所述位置的哈希数据点的权重、以及所述第二模板的样本的哈希编码中位于所述位置的哈希数据点的权重,包括:确定所述位置在所述哈希编码对中的第一列数,将所述第一列数与所述编码长度的加和作为第二列数;将所述目标权重矩阵中对角线上的位于所述第一列数的元素,作为位于所述位置的所述第一模态的样本的哈希数据点的权重;将所述目标权重矩阵中对角线上的位于所述第二列数的元素,作为位于所述位置的所述第二模态的样本的哈希数据点的权重。7.如权利要求5所述的方法,其特征在于,所述获取所遍历到的所述哈希编码对的目标
权重矩阵,包括:获取所遍历到的所述哈希编码对的权重变量矩阵,其中,所述权重变量矩阵为对角线矩阵,且所述对角线矩阵的对角线上的元素数量等于所述哈希编码对中的两个哈希编码的编码长度的加和,所述对角线上的元素为变量;基于所述权重变量矩阵与所述哈希编码对,确定以所述哈希编码对之间距离表征的所述两个样本的变量汉明相似度,其中,所述变量汉明相似度以矩阵形式表示;确定所述哈希编码对所对应的两个特征数据点的特征相似度与所述变量汉明相似度之间的变量相似度差异;确定所述变量相似度差异对应的最小相似度差异,基于所述最小差异值及所述两个特征数据点对应的特征相似度,确定相似度差异最小时的目标汉明相似度;基于所述目标汉明相似度及所述哈希编码对,确定相似度差异最小时的所述哈希编码对的目标权重矩阵。8.如权利要求7所述的方法,其特征在于,所述基于所述权重变量矩阵与所述哈希编码对,确定以所述哈希编码对之间距离表征的所述两个样本的变量汉明相似度,包括:基于所述哈希编码对生成编码矩阵,并确定所述编码矩阵的转置矩阵;确定所述编码矩阵、所述权重...

【专利技术属性】
技术研发人员:蔡成飞涂荣成蒋杰刘威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1