当前位置: 首页 > 专利查询>西北大学专利>正文

一种多目标图像检索模型的构建方法及检索方法和装置制造方法及图纸

技术编号:29050942 阅读:58 留言:0更新日期:2021-06-26 06:14
本发明专利技术公开了一种多目标图像检索模型的构建方法及检索方法和装置,用户输入一个或多个待检索图像,通过模型获取该图像的多目标查询哈希码集合,将该查询哈希码集合与检索数据库中的目标哈希码集合比较计算联合汉明距离,从小到大排序,返回检索结果。本发明专利技术基于弱监督学习的方式获取图像目标区域所对应的哈希码进行检索,每张图像的各个目标区域生成独立的的哈希编码,从而避免了复杂背景的影响以及各目标之间的相互影响,从而更加完整的表示复杂图像的内容,提高检索的效果,扩充图像的检索方式。索方式。

【技术实现步骤摘要】
一种多目标图像检索模型的构建方法及检索方法和装置


[0001]本专利技术属于图像检索
,具体涉及一种多目标图像检索模型的构建方法及检索方法和装置。

技术介绍

[0002]近些年来,随着深度学习技术在图像领域不断发展与应用,这些与深度学习相结合的图像检索方法可以较为准确地捕捉图像隐藏的语义信息,极大的提升检索效果。但是现有的这些方法忽略了一些问题,在图像中往往都具有丰富的语义信息,并且一副图像通常包含着多个目标或者内容区域,在当前主流的图像检索方法中都是将一幅图像抽象为一个固定维度的特征向量表示,特征向量的表示通常是一个256到2048维的实数向量,这样一个图像特征向量表示过程往往会丢失很多有效信息,只保留了图像中最核心的语义信息。并且随着图像数据量的逐年递增,为了在海量的图像数据库中快速检索,还会将特征向量进行哈希化表示。在经过哈希方法处理过后的特征表示中,一般使用16至128维的二值哈希向量表示,这样损失的信息将会更多,不能准确的刻画图像中的每一个目标,因此很大程度的限制了检索的实际性能表现。
[0003]图像检索的核心步骤就是生成图像的准确特征描述,对于多标签、多目标的复杂场景图像,如何准确完整的描述它的内容,更是一个核心问题,将多标签图像使用单个特征向量表示,很难完整的表示整个图像的内容信息,存在一定的缺陷。一方面,尤其在多标签图像中,一个标签通常只对应图像中的某一个目标或者局部区域,而不是整个图像,在获取整个图像特征表示过程中,可能会掺杂与实际检索目标无关的复杂背景信息,导致提取的哈希编码失去了对检索目标的强表征能力;并且尺度大小不一的多个目标混杂在一起也会相互影响,使之无法分辨检索目标的主题内容,会给检索带来一定的干扰,导致检索效果欠佳。另外一方面,在传统的图像检索方式中,是输入一副图像检索与它相关的图像,这种检索方式本身具有一定的局限性,如果我们期望输入多幅图像,检索同时具有这多幅图像中目标的图像,传统的单个特征表示方法是无法实现的。
[0004]为了解决这样的问题,一种有效的方法是分别获取每个标签所对应目标区域的特征表示,目前也出现了一些方法通过目标检测的方式先获取图像中各个目标,然后得到各个目标的特征向量表示,从而解决多目标图像的检索问题,但是要训练一个好的目标检模型测通常需要大量的目标区域和类别标注,在实际中,我们的图像并没有各个目标框的标注信息,人工标注的成本较高,图像级别的标签没有和图像中的目标对应起来,这对这个也是整个任务的挑战之一。并且在这些方法中,目标检测的过程和目标区域特征的学习过程是独立开的,使用了多个步骤、多个模型来协作完成整个任务,并非一个端到端的系统,整体过程就显得复杂,并且在不同的模块中其优化目标是不一致的,一些模块的目标函数可能与系统的整体目标可能存在偏差,这样独立训练出来的模块也很难让整体系统达到最优的性能,还可能存在误差累积的情况,即前一步骤产生的偏差可能影响后面整体的步骤,导致整个系统难以达到一个最优的状态。

技术实现思路

[0005]针对现有技术中的缺陷和不足,本专利技术提供了一种多目标图像检索模型的构建方法及检索方法和装置,仅使用图像级别的标注信息,在学习图像标签与其目标位置的对应关系的同时,也学习各个目标、区域的哈希特征表示,解决现有技术中无法避免与检索目标无关的噪声信息的干扰问题和精细化、多样化检索问题。
[0006]为达到上述目的,本专利技术采取如下的技术方案:
[0007]一种多目标图像检索模型的构建方法,该多目标图像检索模型能用于获取多目标图像的类哈希表示以实现多目标图像检索;包括以下步骤:
[0008]步骤1,获取多幅图像及其对应的标签作为训练集;
[0009]步骤2,构建预训练神经网络模型,该神经网络模型为多任务学习模型,包括:
[0010]第一模块:RPN模块,用以为输入的图像生成目标候选框;
[0011]第二模块:任意的深度卷积神经网络,用以生成输入的图像的特征图;
[0012]第三模块:兴趣区域池化模块,用以快速获取每个目标候选框对应目标区域的特征向量表示;
[0013]第四模块:目标区域检测分支,用以确定目标候选框的类别概率进而求和得到图像的类别概率;
[0014]第五模块:哈希码学习分支,用以确定目标候选框的类哈希表示;
[0015]步骤3,将图像输入所述预训练神经网络模型进行训练,包括:
[0016]步骤3.1,将图像输入第一模块RPN模块,为每个图像生成初始目标候选框,设最终得到P个目标候选框,则输出为P
×
4的矩阵,每一行表示一个目标候选框的坐标信息,起始坐标和宽高信息(x,y,w,h),得到P个目标候选框的坐标信息;
[0017]同时,将图像输入第二模块深度卷积神经网络,设batch size大小为B,输出特征图,
[0018]步骤3.2,将步骤3.1的特征图和P个目标候选框输入第三模块兴趣区域池化模块,得到每个目标候选框对应目标区域的特征向量表示,输出为B
×
P
×
d的矩阵,d为特征向量表示的维度;
[0019]步骤3.3,将步骤3.2的输出分别输入第四模块目标区域检测分支和第五模块哈希码学习分支,其中目标区域检测分支的输出为图像类别概率,哈希码学习分支的输出为每个目标候选框的类哈希表示;
[0020]步骤3.4,优化模型:将图像类别概率与图像的标签向量对比计算二元交叉熵分类损失;将每个目标候选框的类哈希表示与图像的标签对比计算哈希损失;将计算得到的两个损失函数加权求和得到最终的联合损失,并通过随机梯度下降方法进行反向迭代优化模型,最终得到多目标图像检索模型。
[0021]本专利技术还包括如下技术特征:
[0022]具体的,所述步骤3.3包括:
[0023]步骤3.3.1,在第四模块目标区域检测分支中,将每个目标候选框的特征向量通过两个全连接层后将其输出分为检测数据流分支和分类数据流分支;再分别经过两个全连接层后得到检测输出矩阵和分类输出矩阵;然后将检测输出矩阵和分类输出矩阵进行element

wised的相乘,得到每个目标候选框的类别概率,输出合并数据矩阵;最后对每个
图像各目标候选框的类别概率求和,得到图像的类别概率,作为目标区域检测分支的输出;
[0024]步骤3.3.2,在第五模块哈希码学习分支中,将每个目标候选框的特征向量先经过两个全连接层,再输入到含有L个节点的哈希层中,得到一个B
×
P
×
L的类哈希输出,每个图像的行向量代表了每个目标候选框的类哈希表示。
[0025]具体的,所述步骤3.3.1包括:
[0026]步骤(a1),检测数据流分支经过两个全连接层得到检测输出矩阵X
d
,按照公式1进行计算:
[0027][0028]公式1中,i表示矩阵的第i行,j表示矩阵的第j列,[δ
detct
(x
d本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多目标图像检索模型的构建方法,其特征在于,该多目标图像检索模型能用于获取多目标图像的类哈希表示以实现多目标图像检索;包括以下步骤:步骤1,获取多幅图像及其对应的标签作为训练集;步骤2,构建预训练神经网络模型,该神经网络模型为多任务学习模型,包括:第一模块:RPN模块,用以为输入的图像生成目标候选框;第二模块:任意的深度卷积神经网络,用以生成输入的图像的特征图;第三模块:兴趣区域池化模块,用以快速获取每个目标候选框对应目标区域的特征向量表示;第四模块:目标区域检测分支,用以确定目标候选框的类别概率进而求和得到图像的类别概率;第五模块:哈希码学习分支,用以确定目标候选框的类哈希表示;步骤3,将图像输入所述预训练神经网络模型进行训练,包括:步骤3.1,将图像输入第一模块RPN模块,为每个图像生成初始目标候选框,设最终得到P个目标候选框,则输出为P
×
4的矩阵,每一行表示一个目标候选框的坐标信息,起始坐标和宽高信息(x,y,w,h),得到P个目标候选框的坐标信息;同时,将图像输入第二模块深度卷积神经网络,设batch size大小为B,输出特征图,步骤3.2,将步骤3.1的特征图和P个目标候选框输入第三模块兴趣区域池化模块,得到每个目标候选框对应目标区域的特征向量表示,输出为B
×
P
×
d的矩阵,d为特征向量表示的维度;步骤3.3,将步骤3.2的输出分别输入第四模块目标区域检测分支和第五模块哈希码学习分支,其中目标区域检测分支的输出为图像类别概率,哈希码学习分支的输出为每个目标候选框的类哈希表示;步骤3.4,优化模型:将图像类别概率与图像的标签向量对比计算二元交叉熵分类损失;将每个目标候选框的类哈希表示与图像的标签对比计算哈希损失;将计算得到的两个损失函数加权求和得到最终的联合损失,并通过随机梯度下降方法进行反向迭代优化模型,最终得到多目标图像检索模型。2.如权利要求1所述的多目标图像检索模型的构建方法,其特征在于,所述步骤3.3包括:步骤3.3.1,在第四模块目标区域检测分支中,将每个目标候选框的特征向量通过两个全连接层后将其输出分为检测数据流分支和分类数据流分支;再分别经过两个全连接层后得到检测输出矩阵和分类输出矩阵;然后将检测输出矩阵和分类输出矩阵进行element

wised的相乘,得到每个目标候选框的类别概率,输出合并数据矩阵;最后对每个图像各目标候选框的类别概率求和,得到图像的类别概率,作为目标区域检测分支的输出;步骤3.3.2,在第五模块哈希码学习分支中,将每个目标候选框的特征向量先经过两个全连接层,再输入到含有L个节点的哈希层中,得到一个B
×
P
×
L的类哈希输出,每个图像的行向量代表了每个目标候选框的类哈希表示。3.如权利要求2所述的多目标图像检索模型的构建方法,其特征在于,所述步骤3.3.1包括:步骤(a1),检测数据流分支经过两个全连接层得到检测输出矩阵X
d
,按照公式1进行计
算:公式1中,i表示矩阵的第i行,j表示矩阵的第j列,[δ
detct
(x
d
)]
ij
是指检测数据流分支计算后的第i行第j列的输出,是指检测输出矩阵X
d
的第i行j列的值,P表示总的目标候选框的个数,e为幂运算的底数;设共有C个类别,检测输出矩阵维度为B
×
P
×
C,得到每个类在各个目标候选框下的得分,公式1相当于进行了一次目标检测;步骤(a2),分类数据流分支经过两个全连接层得到分类输出矩阵X
c
,按照公式2进行计算:公式2中,i表示矩阵的第i行,j表示矩阵的第j列,[δ
class
(x
c
)]
ij
是指分类数据流分支计算后的第i行第j列的输出,是指分类输出矩阵X
c
的第i行j列的值,C表示总的类别个数,e为幂运算的底数,公式2计算每个目标候选框在各个类别的概率,相当于对每个目标候选框进行了一次分类,分类输出矩阵维度为B
×
P
×
C;步骤(a3),分类输出矩与检测输出矩阵进行element

wised的相乘,得到分类与检测合并的结果:B
×
P
×
C的数据矩阵,数据矩阵中每个图像的每一行代表了一个目标候选框在各个类别上的得分即目标候选框上的类别概率;步骤(a4),最后对每个图像各目标候选框的类别概率求和,得到图像的类别概率,上述求和后的输出维度为B
×1×
C,作为目标区域检测分支的输出。4.如权利要求3所述的多目标图像检索模型的构建方法,其特征在于,所述步骤3.4包括:步骤(b1),在步骤(a4)得到图像的类别概率与图像标签向量对比计算二元交叉熵分类损失,计算方法为公式3:公式3中,L
c
(y,p(y))为计算一副图像的二元交叉熵分类损失,N为数据集标签的总个数,y
i
的取值为0或1,表示该图像是否具有第i个标签,若有则为1,p(y
i
)表示模型预测图像具有第i个标签的概率值;...

【专利技术属性】
技术研发人员:范建平舒永康赵万青彭先霖胡琦瑶杨文静王琳
申请(专利权)人:西北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1