当前位置: 首页 > 专利查询>苏州大学专利>正文

一种图像描述生成方法及装置制造方法及图纸

技术编号:37135657 阅读:26 留言:0更新日期:2023-04-06 21:34
本发明专利技术涉及图像描述技术领域,尤其是指一种图像描述生成方法及装置。本发明专利技术所述的图像描述生成方法,通过局部通道注意力计算图像各个通道的权重,关注不同布纹之间的底层特征差异,从而提升网络的表征能力;通过全局通道注意力将局部通道注意力所提取的特征进行更好的融合。此外,本发明专利技术将通道注意力结构进行堆叠,局部邻域向全局进行扩散,局部特征与全局相关性结合,以提取图像局部与全局特征间以及特征通道间依赖关系,从而获得图像的上下文信息,有利于生成更精确的描述。该模块能够减少冗余特征并抑制与任务无关特征的干扰,使得网络高效的利用于生成描述强相关的特征,得到更加准确、质量更高的布纹图像描述。加准确、质量更高的布纹图像描述。加准确、质量更高的布纹图像描述。

【技术实现步骤摘要】
一种图像描述生成方法及装置


[0001]本专利技术涉及图像描述
,尤其是指一种图像描述生成方法及装置。

技术介绍

[0002]蓝印花布是一种中国传统纯手工印染工艺品,于2006年入选为国家非物质文化遗产。一般分成白底蓝花和蓝底白花两种样式,其花纹图案大多取材于民间神话传说、飞禽走兽与花草树木,如:吉庆有余(鱼)、凤戏牡丹、狮子舞绣球等。传统吉祥纹样借谐音、象征、寓意等手法,寄托了人们对美好生活的憧憬祝福。但现代化工业技术的兴起让蓝印花布这项民间技艺不能得到应有的传承和更新。随着计算机视觉技术的快速发展,利用图像描述技术对蓝印花布纹样进行自主说明,分析其纹样寓意构成,解读被赋予不同寓意的设计,在体现艺术价值的同时,也使其得到数字化的传承和创新。
[0003]图像描述技术包括了基于模板填充的方法、基于检索的方法以及基于生成的方法。基于模板填充的方法从提取的图像特征所获得的目标、属性和关系填充进一组人为设定的语法模板中,得到的描述虽保证了语义准确性,但完全确定的模板无法生成多样性的句子。基于检索的方法利用带描述图像与训练集中图像描述的相本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图像描述生成方法,其特征在于,包括:将待测图像输入预先训练好的图像描述生成模型中;提取所述待测图像的第一特征;将所述第一特征分两次输入局部通道注意力层进行处理,将得到的两个输出进行相加后经sigmoid激活函数处理,并与所述第一特征点积,得到第二特征,其中,所述局部通道注意力层中的具体处理过程为:将输入的特征通道数降维,并进行归一化处理,经过relu激活函数处理后,恢复通道数,再次进行归一化处理,得到局部通道注意力层的输出;将所述第二特征分别输入所述局部通道注意力层和全局通道注意力层进行处理,将得到的两个输出进行相加后经sigmoid激活函数处理,并与所述第一特征点积,得到第三特征,其中,所述全局注意力层由局部注意力层增加全局平均池化层构成;将所述第三特征与位置信息编码相加后输入Transformer编码器

解码器,预测生成待测图像描述。2.根据权利要求1所述的图像描述生成方法,其特征在于,所述提取所述待测图像的第一特征包括:利用去掉最后两层的ResNet

101模型提取所述待测图像的第一特征。3.根据权利要求1所述的图像描述生成方法,其特征在于,所述局部通道注意力层的公式定义为:L(X)=BN(conv2(ReLU(BN(conv1(X)))))其中,X表示局部通道注意力层的输入,conv1表示通过1
×
1的卷积核将输入特征X通道数降维,BN为BatchNorm,即对数据进行归一化处理,conv2表示通过1
×
1的卷积核将通道数恢复至原输入特征的通道数。4.根据权利要求1所述的图像描述生成方法,其特征在于,所述全局通道注意力层的公式定义为:G(X

)=GAP(BN(conv2(ReLU(BN(conv1(X

))))))其中,X

表示全局通道注意力层的输入,conv1表示通过1
×
1的卷积核将输入特征X通道数降维,BN为BatchNorm,即对数据进行归一化处理,conv2表示通过1
×
1的卷积核将通道数恢复至原输入特征的通道数,GAP表示全局平均池化。5.根据权利要求1所述的图像描述生成方法,其特征在于,所述将所述第三特征与位置信息编码相加后输入Transfor...

【专利技术属性】
技术研发人员:张莉郭晨怡赵雷王邦军周伟达李映
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1