一种同源图像检索方法和系统技术方案

技术编号:39597399 阅读:9 留言:0更新日期:2023-12-03 19:56
公开了一种同源图像检索方法和系统,包括将教师网络和学生网络分别分为多个模块,将浅层特征提取模块和深层特征提取模块分别进行损失的约束和知识的蒸馏;在浅层特征上将所述教师网络训练输出的伪标签作为所述学生网络在浅层特征学习后输出的标签,计算软分类交叉熵损失;对深层特征的教师网络和学生网络编码输出进行相似度计算,在总损失函数中加上所述教师网络和所述学生网络的硬分类交叉熵损失,完成启发式的网络轻量化训练

【技术实现步骤摘要】
一种同源图像检索方法和系统


[0001]本专利技术涉及同源图像检索的
,尤其是一种同源图像检索方法和系统


技术介绍

[0002]同源图像检索旨在海量图像中搜索出目标图像的原始图像,其基本实现方法是利用某种特征提取器
(
例如
SIFT、
卷积神经网络等
)
获取图像信息在高维空间的表征,然后在目标源库中进行相似度对比检索,其中利用卷积神经网络作为特征提取器的方法已逐渐成为主流

为了适应海量类别的图像分辨,对比学习技术被应用于同源图像检索,但该方法往往需要很大的批处理大小,这在工业中是难以被满足的,因此在实际应用中常常以更复杂的网络来弥补批处理大小较小的缺陷,同时对网络的结构或损失函数等进行改进

总的来说,同源图像检索技术的难点在于模型参数量大,推理速度慢,难以部署到终端设备

这主要是由于同源图像检索在训练过程中需要学习大量的类别信息,这要求模型需要具有较大的参数量以存储这些复杂的信息

[0003]当前基于卷积神经网络的同源图像检索旨在挖掘具有表征性的

紧凑的图像特征,而面对海量的图像类别,特征提取器需要更大更深的网络结构以承载更高的信息辨别能力

在进行终端设备上的模型部署时,这样大参数量的模型会造成推理速度的瓶颈,因此模型的轻量化成为本专利技术主要的优化目标

知识蒸馏是一种常见的启发式模型轻量化的方法,常见的知识提取方法只应用了标签层面的表示信息或只应用了特征层面的表征信息,这样会使蒸馏过程难以综合教师模型所挖掘到的浅层特征和深层特征,使轻量化后的模型泛化性不足


技术实现思路

[0004]为了解决现有技术中大参数量的模型会造成推理速度的瓶颈,蒸馏过程难以综合教师模型所挖掘到的浅层特征和深层特征,使轻量化后的模型泛化性不足等技术问题,本专利技术提出了一种同源图像检索方法和系统,以解决上述技术问题

[0005]根据本专利技术的第一方面,提出了一种同源图像检索方法,包括:
[0006]S1
:将教师网络和学生网络分别分为多个模块,将浅层特征提取模块和深层特征提取模块分别进行损失的约束和知识的蒸馏;
[0007]S2
:在浅层特征上将教师网络训练输出的伪标签作为学生网络在浅层特征学习后输出的标签,计算软分类交叉熵损失;
[0008]S3
:对深层特征的教师网络和学生网络编码输出进行相似度计算,在总损失函数中加上教师网络和学生网络的硬分类交叉熵损失,完成启发式的网络轻量化训练

[0009]在一些具体的实施例中,教师网络和学生网络同时采用四个模块串联的网络结构,教师网络采用
ResNet101
作为主干网络,学生网络采用
ResNet18
作为主干网络

[0010]在一些具体的实施例中,在教师网络和学生网络的第一

第二和最后一个模块后分别增加由一个全连接层和
Softmax
构成的分类头
f
i
(
·
)
,用于计算不同深度特征下的特
征分类能力以及进行分类能力的蒸馏学习

[0011]在一些具体的实施例中,在教师网络和学生网络的第三个模块后分别增加了一个由全连接层构成的特征表征头
g
i
(
·
)
,用于使学生网络学习图像的高层语义特征表征

[0012]在一些具体的实施例中,总损失函数的计算公式为:
L
total

α
L
softCE1
+
β
L
softCE2
+
γ
L
dist3
+
δ
L
hardCE1
+
ε
L
hardCE2
,其中,,其中,,其中,
α
+
β
+
γ
+
δ
+
ε
=1,为教师网络第一个模块在温度为
t
下的
Softmax
输出,为学生网络第一个模块在温度为
t
下的
Softmax
输出,表示
Softmax
的温度为1,

·
‖2表示
L2范数计算,表示教师网络第三个模块在经过特征表征头后的输出

[0013]在一些具体的实施例中,教师网络和学生网络同时

并行对输入数据集进行训练至损失函数收敛

[0014]在一些具体的实施例中,采用学生网络作为推理及模型的部署,测试样本经过四个网络模块编码后的输出特征向量行欧氏距离的相似度计算,选取底库中相似度最高的图片作为预测源图

[0015]根据本专利技术的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述的方法

[0016]根据本专利技术的第三方面,提出了一种同源图像检索系统,包括教师模型和学生模型,教师模型和学生模型分别分为多个模块,将浅层特征提取模块和深层特征提取模块分别进行损失的约束和知识的蒸馏,在浅层特征上将教师模型训练输出的伪标签作为学生模型在浅层特征学习后输出的标签,计算软分类交叉熵损失,对深层特征的教师模型和学生模型编码输出进行相似度计算,在总损失函数中加上教师模型和学生模型的硬分类交叉熵损失,完成启发式的模型轻量化训练

[0017]在一些具体的实施例中,教师模型和学生模型同时采用四个模块串联的网络结构,教师模型采用
ResNet101
作为主干网络,学生模型采用
ResNet18
作为主干网络

[0018]在一些具体的实施例中,在教师模型和学生模型的第一

第二和最后一个模块后分别增加由一个全连接层和
Softmax
构成的分类头
f
i
(
·
)
,用于计算不同深度特征下的特征分类能力以及进行分类能力的蒸馏学习,在教师模型和学生模型的第三个模块后分别增加了一个由全连接层构成的特征表征头
g
i
(
·
)
,用于使学生模型学习图像的高层语义特征表征

[0019]在一些具体的实施例中,总损失函数的计算公式为:
L
total

α
L
softCE1
+
β
L
softCE2
+...

【技术保护点】

【技术特征摘要】
1.
一种同源图像检索方法,其特征在于,包括:
S1
:将教师网络和学生网络分别分为多个模块,将浅层特征提取模块和深层特征提取模块分别进行损失的约束和知识的蒸馏;
S2
:在浅层特征上将所述教师网络训练输出的伪标签作为所述学生网络在浅层特征学习后输出的标签,计算软分类交叉熵损失;
S3
:对深层特征的教师网络和学生网络编码输出进行相似度计算,在总损失函数中加上所述教师网络和所述学生网络的硬分类交叉熵损失,完成启发式的网络轻量化训练
。2.
根据权利要求1所述的同源图像检索方法,其特征在于,所述教师网络和所述学生网络同时采用四个模块串联的网络结构,所述教师网络采用
ResNet101
作为主干网络,所述学生网络采用
ResNet18
作为主干网络
。3.
根据权利要求2所述的同源图像检索方法,其特征在于,在所述教师网络和所述学生网络的第一

第二和最后一个模块后分别增加由一个全连接层和
Softmax
构成的分类头
f
i
(
·
)
,用于计算不同深度特征下的特征分类能力以及进行分类能力的蒸馏学习
。4.
根据权利要求2所述的同源图像检索方法,其特征在于,在所述教师网络和所述学生网络的第三个模块后分别增加了一个由全连接层构成的特征表征头
g
i
(
·
)
,用于使所述学生网络学习图像的高层语义特征表征
。5.
根据权利要求1所述的同源图像检索方法,其特征在于,所述总损失函数的计算公式为:
L
total

α
L
softCE1
+
β
L
softCE2
+
γ
L
dist3
+
δ
L
hardCE1
+
ε
L
hardCE2
,其中,,其中,
α
+
β
+
γ
+
δ
+
ε
=1,为所述教师网络第一个模块在温度为
t
下的
Softmax
输出,为所述学生网络第一个模块在温度为
t
下的
Softmax
输出,表示
Softmax
的温度为1,
||
·
||2表示
L2范数计算,表示所述教师网络第三个模块在经过特征表征头后的输出
。6.
根据权利要求1所述的同源图像检索方法,其特征在于,所述教师网络和所述学生网络同时

并行对输入数据集进行训练至损失函数收敛
。7.
根据权利要求1所述的同源图像检索方法,其特征在于,采用所述学生网络作为推理及模型的部署,测试样本经过四个网络模块编码后的输出特征向量行欧氏距离的相似度计算,选取底序中相似度最高的图片作为预测源图
。8.
一种计算机可读存储介质...

【专利技术属性】
技术研发人员:满君怡孙奕吴俊毅高志鹏赵建强陈德意黄裕锟
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1