【技术实现步骤摘要】
图像检索模型的训练和检索方法、装置、设备及介质
[0001]本申请涉及人工智能领域,特别涉及一种图像检索模型的训练和检索方法、装置、设备及介质。
技术介绍
[0002]在基于查询图像进行图像检索时,往往通过召回多个候选图像进行排序选取置信度较高的候选图像作为检索结果。
[0003]相关技术中,常常先通过嵌入向量网络获取查询图像的特征向量,对特征向量进行PQ量化(Product Quantization,乘积量化)得到量化索引,再从量化码本中找到与量化索引匹配的m个特征向量,召回与m个特征向量对应的m个候选图像,再根据m个候选图像的特征向量与查询图像的特征向量之间的距离排序结果,选取排名较高的候选图像作为最终召回的图像。
[0004]相关技术中,PQ量化把特征向量的每个维度的数值切分成多段,每段用不同的数码表征(如某位值为0~1间的浮点数,则可能切分为0.1、
…
0.9、1.0共10段,分别用1~10的数字表示每一段的量化方法),检索时将量化到相同段的候选图像召回。然而,PQ量化的方法容易造成 ...
【技术保护点】
【技术特征摘要】
1.一种图像检索模型的训练方法,其特征在于,所述图像检索模型包括嵌入向量网络和量化索引网络,所述嵌入向量网络用于获取图像的特征向量,所述量化索引网络用于提取所述图像的量化索引;所述方法包括:获取用于训练所述图像检索模型的n个样本三元组;所述样本三元组包括目标样本、与所述目标样本构成相似样本对的正样本、以及与所述目标样本不构成相似样本对的负样本,n为大于1的正整数;将所述n个样本三元组的基础特征向量输入所述嵌入向量网络;根据所述嵌入向量网络输出的特征向量的误差,筛选出用于训练所述量化索引网络的第一样本三元组集合;将所述n个样本三元组的基础特征向量输入所述量化索引网络;根据所述量化索引网络输出的量化索引的误差,筛选出用于训练所述嵌入向量网络的第二样本三元组集合;基于所述第一样本三元组集合训练所述量化索引网络,以及基于所述第二样本三元组集合训练所述嵌入向量网络。2.根据权利要求1所述的方法,其特征在于,所述根据所述嵌入向量网络输出的特征向量的误差,筛选出用于训练所述量化索引网络的第一样本三元组集合,包括:获取所述嵌入向量网络对所述n个样本三元组输出的n组三元组特征向量;计算所述n组三元组特征向量对应的n个第一误差损失;在所述n个第一误差损失由小到大的排序结果中,筛选出排序在第一选取范围内的n1个第一误差损失所对应的样本三元组,添加至用于训练所述量化索引网络的第一样本三元组集合,n1为小于n的正整数。3.根据权利要求2所述的方法,其特征在于,所述计算所述n组三元组特征向量对应的n个第一误差损失,包括:针对每组所述三元组特征向量,计算所述目标样本的特征向量和所述正样本的特征向量之间的第一距离;针对每组所述三元组特征向量,计算所述目标样本的特征向量和所述负样本的特征向量之间的第二距离;计算所述第一距离和所述第二距离之间的差值与第一距离阈值之间的第一误差损失,所述第一距离阈值是所述目标样本与所述正样本之间的距离和所述目标样本与所述负样本之间的距离的差值的阈值。4.根据权利要求2所述的方法,其特征在于,所述在所述n个第一误差损失由小到大的排序结果中,筛选出排序在第一选取范围内的n1个第一误差损失所对应的样本三元组,添加至用于训练所述量化索引网络的第一样本三元组集合,包括:在所述n个第一误差损失由小到大的排序结果中,根据预设的x值,筛选出排序在前x%的n1个第一误差损失所对应的样本三元组,添加至用于训练所述量化索引网络的第一样本三元组集合,x为正数。5.根据权利要求1所述的方法,其特征在于,所述根据所述量化索引网络输出的量化索引的误差,筛选出用于训练所述嵌入向量网络的第二样本三元组集合,包括:获取所述量化索引网络对所述n个样本三元组输出的n组三元组量化索引;计算所述n组三元组量化索引对应的n个第二误差损失;在所述n个第二误差损失由小到大的排序结果中,筛选出排序在第二选取范围内的n2个
第二误差损失所对应的样本三元组,添加至用于训练所述嵌入向量网络的第二样本三元组集合,n2为小于n的正整数。6.根据权利要求5所述的方法,其特征在于,所述计算所述n组三元组量化索引对应的n个第二误差损失,包括:针对每组三元组量化索引,计算所述三元组量化索引的第一三元组损失;针对每组三元组量化索引,计算所述三元组量化索引的第一量化误差损失;对所述第一三元组损失和所述第一量化误差损失进行加权求和,得到所述第二误差损失。7.根据权利要求5所述的方法,其特征在于,所述在所述n个第二误差损失由小到大的排序结果中,筛选出排序在第二选取范围内的n2个第二误差损失所对应的样本三元组,添加至用于训练所述嵌入向量网络的第二样本三元组集合,包括:在所述n个第二误差损失由小到大的排序结果中,根据预设的y值,筛选出排序在前y%的n2个第二误差损失所对应的样本三元组,添加至用于训练所述量化索引网络的第二样本三元组集合,y为正数。8.根据权利要求1至7任一所述的方法,其特征在于,所述基于所述第一样本三元组集合训练所述量化索引网络,包括:针对所述第一样本三元组集合的每个所述样本三元组,通过所述量化索引网络计算三元组特征向量的第二三元组损失,所述三元组特征向量是所述嵌入向量网络输出的特征向量,所述第一样本三元组集合包括n1个样本三元组;针对所述第一样本三元组集合的每个所述样本三元组,通过所述量化索引网络计算所述三元...
【专利技术属性】
技术研发人员:郭卉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。