System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于交叉注意力机制的哈希到图像逆映射方法技术_技高网
当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于交叉注意力机制的哈希到图像逆映射方法技术

技术编号:41355176 阅读:14 留言:0更新日期:2024-05-20 10:07
本发明专利技术公开了一种基于交叉注意力机制的哈希到图像逆映射方法,所述方法包括以下步骤:使用哈希函数生成图像的哈希,构成图像到哈希的配对训练样本,构建训练集;构建哈希到图像逆映射网络,哈希到图像逆映射网络包含哈希特征提取模块、若干级联的哈希特征调制模块以及图像特征上采样模块;哈希特征提取模块提取的哈希特征通过哈希调制模块逐级转换为图像特征,其中初始提取的哈希特征作为每一级哈希调制模块的交叉注意力层的输入,调控哈希特征到图像特征的转换过程;采用L1范数损失、结构相似性损失和对比学习损失的线性组合训练网络;将哈希输入训练好的网络即可得到重建图像。本发明专利技术可以直接从哈希中重建对应图像。

【技术实现步骤摘要】

本专利技术涉及图像处理技术与深度学习,尤其涉及一种基于交叉注意力机制的哈希到图像逆映射方法


技术介绍

1、图像哈希是一种可以用于大规模数据索引,快速图像检索和认证的方法。这种方法可以进行高效的图像内容检索[1]。哈希是一种排列非常紧凑、具有鲁棒性且能反映图像本质内容的描述符。虽然通常认为哈希生成过程是单项映射过程,但现有研究表明借助深度学习等技术可以从图像的哈希序列重建输入图像。因此,哈希除了能够用于图像检索等应用外,还可作为一种具有高度紧凑性的图像表示方法,能够极大节省图像存储和传输成本。

2、现有研究工作主要聚焦于从图像局部描述符来重建图像,例如词袋模型、局部二值模式等描述符,但此类图像描述符包含的信息量远大于哈希。近期一些工作尝试采用深度学习技术从哈希序列中推断原始图像信息,从而重建图像,且重建结果能够反映出原始图像的主要视觉内容。wang等人[2]使用深度学习方法从哈希中重建小尺寸灰度图像,所提出的卷积神经网络由全连接层、若干个激活函数和卷积层构成,用于以端到端的方式学习从哈希空间到图像空间的逆映射。rabab等人[3]利用多层级联的残差卷积神经网络学习从粗粒度到细粒度的哈希到图像逆映射化方法从而重建图像。但是,现有方法还难以精确恢复原始图像细节,重建图像的视觉质量有待提升。


技术实现思路

1、本专利技术提供了一种基于交叉注意力机制的哈希到图像逆映射方法,本专利技术利用交叉注意力机制从哈希重建图像,哈希到图像逆映射网络包含哈希特征提取模块、若干级联的哈希特征调制模块以及图像特征上采样模块;采用l1范数损失、结构相似性损失和对比学习损失的线性组合训练网络。该方法可以利用哈希重建图像,详见下文描述:

2、101:使用哈希函数生成图像哈希,构成包含图像和哈希的成对训练样本,构成训练集;

3、102:构建哈希到图像逆映射网络,哈希到图像逆映射网络包含哈希特征提取模块、若干级联的哈希特征调制模块以及图像特征上采样模块;

4、103:采用l1范数损失、结构相似性损失和对比学习损失的线性组合训练哈希到图像逆映射网络,对比学习损失通过图像分类网络的中间层输出的特征向量计算得到;

5、104:将哈希输入训练好的哈希到图像逆映射网络得到重建图像。

6、进一步,所述网络采用如下步骤对哈希做以下处理:

7、所述哈希特征提取模块由全连接层和一维卷积层构成,以哈希h作为输入,哈希特征作为输出;本专利技术对全连接层和一维卷积层的输出通道不做限制;

8、所述哈希特征调制模块由若干级联的注意力调制单元和调制后处理单元构成,对于第 i级哈希特征调制模块,将第( i-1)级模块输出与调制后处理单元的输出相加后得到输出,哈希特征输入每一级哈希特征调制模块的交叉注意力层;本专利技术对注意力调制单元和调制后处理单元的个数不做限制;

9、所述图像特征上采样模块由若干级联的上采样单元和二维卷积层构成,通过上采样单元增加图像特征分辨率,最后通过二维卷积层得到重建图像;本专利技术对上采样单元和二维卷积层的个数不做限制。

10、进一步,所述注意力调制单元由若干层归一化操作、交叉注意力层和全连接层构成;层归一化操作和交叉注意力层按如下方式对注意力调制单元的输入进行处理:

11、

12、其中为注意力调制单元的输入,为哈希特征提取模块输出的哈希特征,输入至全连接层;注意力调制单元的输出为,其计算方法如下:

13、

14、所述交叉注意力层接受两个输入:一个输入为前置层归一化操作的输出,a通过与权重矩阵相乘得到 q,另一个输入为哈希特征提取模块的输出,分别与权重矩阵、相乘得到 k、 v,即:

15、

16、

17、

18、交叉注意力层采用多头注意力操作将 q、 k、 v的最后一个维度进行分割,将 q、 k、 v的尺寸的最后一个维度均分为 m份,变为,再将第一个维度和第二个维度进行调换,变为, q、 k、 v经过上述步骤分割得到、、;上述结果经过softmax操作后再将输出尺寸变回为,则交叉注意力层公式如下:

19、

20、其中,为交叉注意力层的输出,为权重矩阵,所有权重矩阵均为可学习参数。

21、进一步,所述调制后处理单元由若干尺寸变换操作和二维卷积层构成,先将最后一个注意力调制单元的输出特征的尺寸由变换为,然后经过二维卷积层处理特征,再由尺寸变换为后作为该调制后处理单元的输出;最后一级的哈希特征调制模块将哈希特征与调制后处理单元的输出相加,再将相加结果的尺寸变换为,最后通过二维卷积层输出图像特征。

22、进一步,所述上采样单元由二维卷积层和像素重排操作构成,像素重排操作用于增加图像特征分辨率;对于尺寸为的特征,若上采样倍数为s,通过二维卷积将第一维的通道数扩充为,随后通过像素重排操作将特征尺寸转换为,增加图像特征分辨率;本专利技术对上采样方式不做具体要求。

23、进一步,所述l1范数损失用于直接衡量重建图像与真实目标图像之间的差别,计算每个对应像素点的差值平均数,公式如下:

24、

25、其中,g为重建图像,i为真实目标图像;

26、所述结构相似性损失用于衡量重建图像与真实目标图像的相似程度,结构相似性损失如下式所示:

27、

28、所述对比学习损失的目的是使得重建图像与其对应的真实目标图像的语义信息相同,与其他不同的类别图像的语义信息差异大;因此与重建图像对应的真实目标图像构成对比学习中的正样本,与重建图像不同类别的图像构成负样本;按如下方法计算对比学习损失:

29、首先将重建图像g与对应的真实目标图像i输入预训练的图像分类网络,抽取分类网络中间层输出的特征向量用来计算对比学习损失;本专利技术对图像分类网络具体结构和抽取特征向量的中间层不做具体限制。计算训练样本每个类别中所有真实目标图像的特征向量的质心,即:

30、

31、其中,代表第i类图像的特征向量质心,n代表这个类别所包含图像数量,代表表示此类中第k个图像对应的特征向量;

32、则对比学习损失公式如下:

33、

34、其中,为重建图像的特征向量,为对应真实目标图像的特征向量,为随机抽取的图像类别数量;本专利技术对m的取值不做具体限制;

35、所述损本文档来自技高网...

【技术保护点】

1.一种基于交叉注意力机制的哈希到图像逆映射方法,其特征在于,所述方法包括:

2.根据权利要求1所述一种基于交叉注意力机制的哈希到图像逆映射方法,其特征在于,所述哈希到图像逆映射网络采用以下步骤对哈希进行处理:

3.根据权利要求2所述一种基于交叉注意力机制的哈希到图像逆映射方法,其特征在于,所述注意力调制单元由若干层归一化操作、交叉注意力层和全连接层构成;层归一化操作和交叉注意力层按如下方式对注意力调制单元的输入进行处理:

4.根据权利要求3所述一种基于交叉注意力机制的哈希到图像逆映射方法,其特征在于,所述交叉注意力层接受两个输入:一个输入为前置层归一化操作的输出,A通过与权重矩阵相乘得到Q;另一个输入为哈希特征提取模块的输出,分别与权重矩阵、相乘得到K、V,即:

5.根据权利要求2所述一种基于交叉注意力机制的哈希到图像逆映射方法,其特征在于,所述调制后处理单元由若干尺寸变换操作和二维卷积层构成,先将最后一个注意力调制单元的输出特征的尺寸由变换为,然后经过二维卷积层处理特征,再由尺寸变换为后作为该调制后处理单元的输出;最后一级的哈希特征调制模块将哈希特征与调制后处理单元的输出相加,再将相加结果的尺寸变换为,最后通过二维卷积层输出图像特征。

6.根据权利要求1所述一种基于交叉注意力机制的哈希到图像逆映射方法,其特征在于,所述对比学习损失的目的是使得重建图像与其对应的真实目标图像的语义信息相同,与其他不同的类别图像的语义信息差异大;因此与重建图像对应的真实目标图像构成对比学习中的正样本,与重建图像不同类别的图像构成负样本;按如下方法计算对比学习损失:

...

【技术特征摘要】

1.一种基于交叉注意力机制的哈希到图像逆映射方法,其特征在于,所述方法包括:

2.根据权利要求1所述一种基于交叉注意力机制的哈希到图像逆映射方法,其特征在于,所述哈希到图像逆映射网络采用以下步骤对哈希进行处理:

3.根据权利要求2所述一种基于交叉注意力机制的哈希到图像逆映射方法,其特征在于,所述注意力调制单元由若干层归一化操作、交叉注意力层和全连接层构成;层归一化操作和交叉注意力层按如下方式对注意力调制单元的输入进行处理:

4.根据权利要求3所述一种基于交叉注意力机制的哈希到图像逆映射方法,其特征在于,所述交叉注意力层接受两个输入:一个输入为前置层归一化操作的输出,a通过与权重矩阵相乘得到q;另一个输入为哈希特征提取模块的输出,分别与权重矩阵、相乘得到k、v,即:

【专利技术属性】
技术研发人员:余琦奕李岳楠
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1