【技术实现步骤摘要】
基于排序聚类序列辨别选择的草图图像检索方法及系统
[0001]本专利技术属于图像检索
,涉及一种草图图像检索方法及系统,特别涉及一种基于排序聚类序列辨别选择的草图图像检索方法及系统。
技术介绍
[0002]由于触摸屏设备的爆炸性增长,草图的使用变得越来越频繁:用户可以随时随地用手指在触摸屏设备上绘制草图。利用草图挖掘有效的自然图像是非常有意义的。因此草图图像检索受到的关注越来越多,草图图像检索的目的是通过利用手绘草图作为查询方式来匹配自然图像。
[0003]现有的草图图像检索方法大致分为两类:手工制作方法和深度学习方法。但因为手工制作特征不能有效地表示具有较大变化和歧义的自然图像和未对齐草图的边缘,手工制作草图图像检索方法不能很好地减少草图和自然图像之间的跨域差异。为了解决跨域差异的问题,提出了深度学习草图图像检索方法。但现有的深度学习方法仍面临两个挑战:(1)草图和自然图像包含具有相似轮廓形状的不同对象。一些深度学习草图检索方法不能捕捉草图和自然图像之间重要的辨别域,导致信息冗余问题,最终影响草图图像检索的性 ...
【技术保护点】
【技术特征摘要】
1.一种基于排序聚类序列辨别选择的草图图像检索方法,其特征在于:首先构建草图图像检索网络,然后利用所述草图图像检索网络进行草图图像检索;所述构建草图图像检索网络,具体实现包括以下步骤:步骤1:构建草图图像检索网络;所述草图图像检索网络,包括transformer分割模块、线性投影模块、transformer编码模块;所述transformer分割模块,用于将输入图像分成M个2D小块图像x
p
,每幅图像的大小是H
×
W,图像中每个小块图像的大小是P
×
P,所述线性投影模块,用于将所述transformer模块输出的小块图像映射到D维度,将可学习的位置嵌入添加到小块图像嵌入中,用以保存位置信息;其中,嵌入向量记为z0,位置零的输出是D维类令牌x
class
;所述transformer编码模块,用于通过送入transformer编码模块的z0,挖掘序列中小块图像之间的关系;所述transformer编码模块包括L个transformer层和一个哈希层,每个transformer层包含多头自注意层MSA和Conv1×1块,Conv1×1块由带有1
×
1的卷积核的两个卷积层和一个全连接层;对于每一个transformer层,它的输入都是前一层的输出;第L层transformer输出输入哈希层,进行深度哈希函数学习,将输出的哈希码用于构建目标函数中的三元组项、类别级语义项和排序聚类项;步骤2:获取现有草图图像数据集,将数据集划分为训练数据集、验证数据集和测试数据集;步骤3:在训练数据集中,给定N个三元组单元和三元组标签其中中的三个元素依次分别表示第i个数据的锚点草图、正例图像和负例图像;表示的类标签,表示的类标签,表示的类标签;其中,N、I分别表示三元组单元的个数和数据集中样本的个数;a,p,n分别表示锚点图像、正例图像和负例图像;步骤4:利用训练集训练草图图像检索网络,计算草图图像检索网络的目标函数并更新草图图像检索网络的初始参数;网络训练达到预设轮次或直到损失不再下降为止;获得训练好的草图图像检索网络。2.根据权利要求1所述的基于排序聚类序列辨别选择的草图图像检索方法,其特征在于:步骤1中,所述将可学习的位置嵌入添加到小块图像嵌入中,嵌入向量为:其中,分别表示第1,2,
…
,M个2维小块图像;E表示小块图像嵌入投影,E
pos
表示位置嵌入。3.根据权利要求1所述的基于排序聚类序列辨别选择的草图图像检索方法,其特征在于:步骤1中,所述transformer编码模块为:z
′
l
=MAS(LN(z
l
‑1)+z
l
‑1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)z
l
=CONV(LN(z
′
l
)+z
′
l
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
其中,LN(
·
)表示层的归一化操作,z
l
表示嵌入图像表示;z
′
l
表示多头自注意层的输出,CONV(
·
)表示卷积操作。4.根据权利要求1所述的基于排序聚类序列辨别选择的草图图像检索方法,其特征在于:步骤1中,所述transformer编码模块第L层的输入是于:步骤1中,所述transformer编码模块第L层的输入是其中,分别表示第L
‑
1层的M个输出;除第L层外,每一层的K头自注意权重是其中l∈1,2,
…
,L
‑
1;对于每一层的自注意,每个小块图像有K组结点;因此,每一层中M个小块图像的权重表示为其中i∈1,2,
…
,K;将前L
‑
1层的权重相乘得到最终的权值,如下:其中,w
f
表示能选择辨别区域的最终权值;携带有用信息的小块图像的索引能由选择区域获得,同时,将索引作为位置信息用来找到相应的小块图像嵌入,选择嵌入形成一个新序列并进入第L层transformer。5.根据权利要求1所述的基于排序聚类序列辨别选择的草图图像检索方法,其特征在于:步骤1中,所述哈希层,针对给定任意的三元组单元深度哈希函数为:其中,sign(
·
)表示元素符号函数;φ(
·
)表示tanh函数;表示样本的K为哈希码;表示样本在第L层transformer的输出,且表示深度哈希函数;θ
g
表示哈希层的权重参数。6.根据权利要求1所述的基于排序聚类序列辨别选择的草图图像检...
【专利技术属性】
技术研发人员:陈亚雄,汤一博,李小玉,赵东婕,熊盛武,
申请(专利权)人:武汉理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。