【技术实现步骤摘要】
一种多目标图像检索模型的构建方法及检索方法和装置
[0001]本专利技术属于图像检索
,具体涉及一种多目标图像检索模型的构建方法及检索方法和装置。
技术介绍
[0002]近些年来,随着深度学习技术在图像领域不断发展与应用,这些与深度学习相结合的图像检索方法可以较为准确地捕捉图像隐藏的语义信息,极大的提升检索效果。但是现有的这些方法忽略了一些问题,在图像中往往都具有丰富的语义信息,并且一副图像通常包含着多个目标或者内容区域,在当前主流的图像检索方法中都是将一幅图像抽象为一个固定维度的特征向量表示,特征向量的表示通常是一个256到2048维的实数向量,这样一个图像特征向量表示过程往往会丢失很多有效信息,只保留了图像中最核心的语义信息。并且随着图像数据量的逐年递增,为了在海量的图像数据库中快速检索,还会将特征向量进行哈希化表示。在经过哈希方法处理过后的特征表示中,一般使用16至128维的二值哈希向量表示,这样损失的信息将会更多,不能准确的刻画图像中的每一个目标,因此很大程度的限制了检索的实际性能表现。
[0003]图像检索的核心步骤就是生成图像的准确特征描述,对于多标签、多目标的复杂场景图像,如何准确完整的描述它的内容,更是一个核心问题,将多标签图像使用单个特征向量表示,很难完整的表示整个图像的内容信息,存在一定的缺陷。一方面,尤其在多标签图像中,一个标签通常只对应图像中的某一个目标或者局部区域,而不是整个图像,在获取整个图像特征表示过程中,可能会掺杂与实际检索目标无关的复杂背景信息,导致提取的哈希编码失去了 ...
【技术保护点】
【技术特征摘要】
1.一种多目标图像检索模型的构建方法,其特征在于,该多目标图像检索模型能用于获取多目标图像的类哈希表示以实现多目标图像检索;包括以下步骤:步骤1,获取多幅图像及其对应的标签作为训练集;步骤2,构建预训练神经网络模型,该神经网络模型为多任务学习模型,包括:第一模块:RPN模块,用以为输入的图像生成目标候选框;第二模块:任意的深度卷积神经网络,用以生成输入的图像的特征图;第三模块:兴趣区域池化模块,用以快速获取每个目标候选框对应目标区域的特征向量表示;第四模块:目标区域检测分支,用以确定目标候选框的类别概率进而求和得到图像的类别概率;第五模块:哈希码学习分支,用以确定目标候选框的类哈希表示;步骤3,将图像输入所述预训练神经网络模型进行训练,包括:步骤3.1,将图像输入第一模块RPN模块,为每个图像生成初始目标候选框,设最终得到P个目标候选框,则输出为P
×
4的矩阵,每一行表示一个目标候选框的坐标信息,起始坐标和宽高信息(x,y,w,h),得到P个目标候选框的坐标信息;同时,将图像输入第二模块深度卷积神经网络,设batch size大小为B,输出特征图,步骤3.2,将步骤3.1的特征图和P个目标候选框输入第三模块兴趣区域池化模块,得到每个目标候选框对应目标区域的特征向量表示,输出为B
×
P
×
d的矩阵,d为特征向量表示的维度;步骤3.3,将步骤3.2的输出分别输入第四模块目标区域检测分支和第五模块哈希码学习分支,其中目标区域检测分支的输出为图像类别概率,哈希码学习分支的输出为每个目标候选框的类哈希表示;步骤3.4,优化模型:将图像类别概率与图像的标签向量对比计算二元交叉熵分类损失;将每个目标候选框的类哈希表示与图像的标签对比计算哈希损失;将计算得到的两个损失函数加权求和得到最终的联合损失,并通过随机梯度下降方法进行反向迭代优化模型,最终得到多目标图像检索模型。2.如权利要求1所述的多目标图像检索模型的构建方法,其特征在于,所述步骤3.3包括:步骤3.3.1,在第四模块目标区域检测分支中,将每个目标候选框的特征向量通过两个全连接层后将其输出分为检测数据流分支和分类数据流分支;再分别经过两个全连接层后得到检测输出矩阵和分类输出矩阵;然后将检测输出矩阵和分类输出矩阵进行element
‑
wised的相乘,得到每个目标候选框的类别概率,输出合并数据矩阵;最后对每个图像各目标候选框的类别概率求和,得到图像的类别概率,作为目标区域检测分支的输出;步骤3.3.2,在第五模块哈希码学习分支中,将每个目标候选框的特征向量先经过两个全连接层,再输入到含有L个节点的哈希层中,得到一个B
×
P
×
L的类哈希输出,每个图像的行向量代表了每个目标候选框的类哈希表示。3.如权利要求2所述的多目标图像检索模型的构建方法,其特征在于,所述步骤3.3.1包括:步骤(a1),检测数据流分支经过两个全连接层得到检测输出矩阵X
d
,按照公式1进行计
算:公式1中,i表示矩阵的第i行,j表示矩阵的第j列,[δ
detct
(x
d
)]
ij
是指检测数据流分支计算后的第i行第j列的输出,是指检测输出矩阵X
d
的第i行j列的值,P表示总的目标候选框的个数,e为幂运算的底数;设共有C个类别,检测输出矩阵维度为B
×
P
×
C,得到每个类在各个目标候选框下的得分,公式1相当于进行了一次目标检测;步骤(a2),分类数据流分支经过两个全连接层得到分类输出矩阵X
c
,按照公式2进行计算:公式2中,i表示矩阵的第i行,j表示矩阵的第j列,[δ
class
(x
c
)]
ij
是指分类数据流分支计算后的第i行第j列的输出,是指分类输出矩阵X
c
的第i行j列的值,C表示总的类别个数,e为幂运算的底数,公式2计算每个目标候选框在各个类别的概率,相当于对每个目标候选框进行了一次分类,分类输出矩阵维度为B
×
P
×
C;步骤(a3),分类输出矩与检测输出矩阵进行element
‑
wised的相乘,得到分类与检测合并的结果:B
×
P
×
C的数据矩阵,数据矩阵中每个图像的每一行代表了一个目标候选框在各个类别上的得分即目标候选框上的类别概率;步骤(a4),最后对每个图像各目标候选框的类别概率求和,得到图像的类别概率,上述求和后的输出维度为B
×1×
C,作为目标区域检测分支的输出。4.如权利要求3所述的多目标图像检索模型的构建方法,其特征在于,所述步骤3.4包括:步骤(b1),在步骤(a4)得到图像的类别概率与图像标签向量对比计算二元交叉熵分类损失,计算方法为公式3:公式3中,L
c
(y,p(y))为计算一副图像的二元交叉熵分类损失,N为数据集标签的总个数,y
i
的取值为0或1,表示该图像是否具有第i个标签,若有则为1,p(y
i
)表示模型预测图像具有第i个标签的概率值;...
【专利技术属性】
技术研发人员:范建平,舒永康,赵万青,彭先霖,胡琦瑶,杨文静,王琳,
申请(专利权)人:西北大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。