一种基于自注意力机制的传统纹样子图检索方法技术

技术编号:33453385 阅读:30 留言:0更新日期:2022-05-19 00:36
本发明专利技术公开了一种基于自注意力机制的传统纹样子图检索方法,该方法包括以下步骤:利用训练数据集对子图检索模型进行训练;提取不同层次的特征图,并利用特征金字塔进行融合;进行全局特征及局部特征的提取;进行注意力权重计算,并对加权后的融合特征图进行聚合得到子图特征;计算查询子图特征与数据库图像特征的相似度,将数据库按照相似度进行排序实现子图检索。本发明专利技术将具有丰富语义信息的高层特征与相应的具有丰富的空间信息的底层特征图进行融合,使Transformer生成的预选框可以捕捉更小的细节,利用attention机制对融合特征计算自注意力权重,对子图特征图加权,忽略大多不重要的信息,以取得更好的检索结果。以取得更好的检索结果。以取得更好的检索结果。

【技术实现步骤摘要】
一种基于自注意力机制的传统纹样子图检索方法


[0001]本专利技术涉及图像处理和计算机视觉
,具体来说,涉及一种基于自注意力机制的传统纹样子图检索方法。

技术介绍

[0002]随着网络和数字经济的发展,多媒体数据也不断迅猛增长,越来越多的数据可以保存为图像的形式,种类更加复杂,如何在大量的图像中寻找自己所需的图像成为一个难题。自20世纪70年代以来,图像检索一直是一个非常活跃的研究领域。图像检索方法可以分为两类:基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR),图像中的全部视觉内容有时很难用文字表达,因此TBIR会产生不相关的结果。CBIR是指利用图像的颜色、纹理、轮廓、空间关系等信息检索图像。
[0003]随着深度学习的发展,研究的重点开始转向基于深度学习的方法。早期利用DCNN进行图像检索的研究一般采用全连接层特征作为描述子。但该方法存在特征维度高、图片输入有限制等问题。随着检索任务复杂程度的增加以及研究的深入,发现相比于全连接层,卷积层特征包含一定的位置特征信息,使其更适合作为图像描述子。因此,图像特征描述子研本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力机制的传统纹样子图检索方法,其特征在于,该方法包括以下步骤:S1、构建基于传统纹样图片的数据集,并利用该数据集对预先构建的子图检索模型进行训练;S2、利用卷积神经网络提取一系列处于不同层次的特征图,并将提取到的特征图利用特征金字塔进行融合;S3、利用Transformer对基于数据库图像生成的融合特征图进行全局特征及局部特征的提取;S4、利用Vision Transformer对用户输入的子图进行注意力权重计算,并对加权后的融合特征图进行聚合得到子图特征;S5、计算查询子图特征与数据库图像特征的相似度,并按照相似性得分进行排序实现子图检索。2.根据权利要求1所述的一种基于自注意力机制的传统纹样子图检索方法,其特征在于,所述构建基于传统纹样图片的训练数据集,并利用该数据集对预先构建的子图检索模型进行训练包括以下步骤:S11、获取预设数量的传统纹样图片,并对传统纹样图片中的目标位置及类别信息进行手动标注,得到标注好的数据集;S12、将整个数据库随机划分为训练集和测试集两个集合,训练集与测试集的比例为8:2,在训练过程中使用训练集训练拟合模型,使用测试集进行模型预测,衡量模型的性能和能力,并记录准确率;S13、利用图像处理工具对标注好的数据库图像进行图像中子元素的分割提取,并去除背景得到查询子图数据集;S14、构建子图检索模型,并利用数据集对该子图检索模型进行训练。3.根据权利要求2所述的一种基于自注意力机制的传统纹样子图检索方法,其特征在于,所述子图检索模型在DETR模型的基础上增加特征融合模块,采用ResNet作为主干提取图像不同卷积层的特征,进行特征融合后得到1024维的特征图,输入Transformer结构中,Transformer会生成N个预测,所用的损失函数如下:其中,y
i
表示ground truth,即数据集中已标记的类别与目标位置,表示Transormer生成的第σ(i)个预测,表示ground truthy
i
与预测之间的类别损失与IoU损失的和,由于N的数量会大于ground truth的数量,因此,对y
i
使用空集补齐为N,使其与N个预测进行二部图匹配,当N个元素之间的排列使得损失最小,则为两个集合之间最优二部图匹配,表示预测集与ground truth最优的二部图匹配。4.根据权利要求1所述的一种基于自注意力机制的传统纹样子图检索方法,其特征在于,所述利用卷积神经网络提取一系列处于不同层次的特征图,并将提取到的特征图利用特征金字塔进行融合包括以下步骤:S21、利用残差网络提取输入图像每个阶段最后一个残差结构的特征激活输出,并采用
{L1,L2,L3,L4}表示,其中L1至L4表示不同的残差网络卷积组;S22、利用1*1的卷积层将L4特征图的通道数降低至与L3特征图的通道数一致;S23、利用最近邻插值法进行上采样,将L4特征图的维度调整为与L3特征图的维度一致;S24、将调整后的L4特征图与L3特征图进行逐元素相加,得到融合后的特征图;S25、利用1*1的卷积层对融合后的特征图进行通道数降低处理,并采用最近邻插值法进行上采样后与L2特征图相加,得到最终的融合特征图;S26、利用3*3的卷积层对生成的融合特征图进行融合,生成最终通道数为1024维的特征图。5.根据权利要求4所述的一种基于自注意力机制的传统纹样子图检索方法,其特征在于,所述融合后的特征图在特征融合时的计算公式如下:于,所述融合后的特征图在特征融合时的计算公式如下:G
f
(s,t,j)=G
L
(s,t,d)*δ(3,3,d);其中,δ(1,1,k)表示k维1x1的卷积核,δ(3,3,d)表示d维3x3的卷积核,表示L
i
层宽为m高为n通道数为k的特征图,表示L
i
层特征通道数降为d的特征图,表示L
i
‑1层宽为s高为t通道数为d的特征图,G
L
(s,t,d)表示L...

【专利技术属性】
技术研发人员:赵海英高子惠
申请(专利权)人:北京第二外国语学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1