当前位置: 首页 > 专利查询>方玉明专利>正文

一种基于空间注意力增强机制的自动图像描述方法技术

技术编号:28560322 阅读:49 留言:0更新日期:2021-05-25 17:55
本发明专利技术提供一种基于空间注意力增强机制的自动图像描述方法,包括提取图像中潜在的目标区域,将目标区域设定为待处理的图像区域,获取多个图像区域的空间特征和位置信息,提取各图像区域的图像特征;从提取出的图像区域中,根据实体数据集的信息选择富含定位信息的图像区域作为候选框,获得基于簇的注意力特征标签;根据已提取的图像特征计算每一时刻下图像候选区域的注意力强度;计算关于描述内容的交叉熵损失和基于簇的注意力特征标签的显著性损失,计算总损失;计算真实值标签和初始预测值之间的损失,并判定初始预测值与真实结果的差异,图像描述模型根据差异进行自学习,将图像特征输入完成自学习后的图像描述模型后,获得最终预测值。本发明专利技术能够提升自动图像描述方法的性能。

【技术实现步骤摘要】
一种基于空间注意力增强机制的自动图像描述方法
本专利技术涉及图像描述的
,具体的,涉及一种基于空间注意力增强机制的自动图像描述方法。
技术介绍
图像描述生成是一个融合计算机视觉和自然语言处理的综合问题,图像描述任务对于人类来说非常容易,但是受限于不同模态数据的异构特性,要求机器理解图片的内容并用自然语言描述十分困难,不仅要求机器生成通顺且人类可理解的句子,还要求句子表现完整图像内容。受注意力机制在机器翻译中应用的启发,一些研究人员在传统的“编码-解码”框架引入了注意力机制,显著地提高了自动图像描述任务的性能。注意力机制专注于图像中关键的视觉内容,在图像上下文向量输入到“编码-解码”框架的过程中提供更具辨别力的视觉信息来指导句子生成过程。尽管注意力机制能有效提升自动图像描述方法的性能,但是目前方法仍然存在注意力不够准确等问题,导致图像描述中出现图像中未出现的物体描述。
技术实现思路
针对现有技术的不足,本专利技术提供一种提高注意力准确性的基于空间注意力增强机制的自动图像描述方法。为实现上述目的,本专利技术通过以下技术方案予以实现:一种基于空间注意力增强机制的自动图像描述方法,包括:获取待描述的图像后,提取图像中潜在的目标区域,将目标区域设定为待处理的图像区域,获取多个图像区域的空间特征和位置信息,并提取各图像区域的图像特征;从提取出的图像区域中,根据实体数据集的信息选择富含定位信息的图像区域作为候选框,获得基于簇的注意力特征标签;根据已提取的图像特征计算每一时刻下图像候选区域的注意力强度;计算关于描述内容的交叉熵损失和基于簇的注意力特征标签的显著性损失,并计算总损失;计算真实值标签和初始预测值之间的损失,并判定初始预测值与真实结果的差异,图像描述模型根据差异进行自学习,将图像特征输入完成自学习后的图像描述模型后,获得最终预测值。优选的,获取多个图像区域的空间特征和位置信息包括:利用视觉基因数据集所预先训练的目标检测算法提取图像中自下而上的特征和相应的目标边界框在图像中的位置信息。优选的,根据实体数据集的信息选择富含定位信息的图像区域作为候选框包括:基于实体数据集的内容描述定位名词,将图像区域的空间特征和位置信息与实体数据集中的名词相匹配,使用簇类信息筛选方法选择出富含定位信息的候选框。优选的,使用簇类信息筛选方法选择出富含定位信息的候选框包括:使用簇类信息筛选方法将图像区域的空间特征和位置信息与实体数据集中的名词相结合,根据交并比准则和交叠比准则,选出富含定位信息的候选框。优选的,根据交并比准则和交叠比准则,选出富含定位信息的候选框包括:计算目标名词矩形框G与候选框B的交并比,交并比的计算公式为:其中,G∩B表示候选框和目标名词矩形框的相交区域面积,当交并比大于第一阈值时,则保留该候选框,将候选框的交并比标记为正;计算目标名词矩形框G与候选框B的交叠比,交叠比的计算公式为:当交叠比大于预设的第二阈值时,则保留该候选框,将候选框的交叠比标记为正。优选的,将目标名词矩形框G与候选框B的交并比小于第一阈值的候选框标记为负,并且,将目标名词矩形框G与候选框B的交叠比小于第二阈值的候选框标记为负。优选的,根据已提取的图像特征计算每一时刻下图像候选区域的注意力强度包括:将图像区域的空间特征和位置信息输入特征映射模块中,从N个对象的特征区域中提取语义特征,记为将提取出的语义特征输入注意力模块中,得到在时刻t处的注意力权重αt。优选的,计算关于描述内容的交叉熵损失和基于簇的注意力特征标签的显著性损失,并计算总损失包括:使用以下公式计算关于描述内容的交叉熵损失和基于簇的注意力特征标签的显著性损失:L(θ)=λ·Lgrd(θ)+LXE(θ)其中,L为总的损失,Lgrd和LXE分别是注意力特征标签的显著性损失和交叉熵损失,θ为图像描述模型的参数,和分别表示t时刻的单词向量和t时刻之前单词向量,p表示条件概率,NP表示正候选框,N为所有候选框的总数,Bn为负候选框,αi表示第i个候选框的注意力权重,λ表示基于簇的候选聚类损失函数在总的损失函数中的权重占比。与现有技术相比,本专利技术的有益效果是:本专利技术提出一种基于空间注意力增强机制的自动图像描述方法,使用基于簇的注意力标签,为描述生成过程中的注意力权重提供更好的参考,从而生成更精确的描述,以提升自动图像描述方法的性能。本专利技术的方法通过在Flickr30k和COCO等主流数据集上进行广泛实验,并与最先进的方法对比,本专利技术取得了更优异的结果。本专利技术的方法对于自动图像描述方法应用于辅助视障人士的场景具有实际意义。附图说明图1是本专利技术基于空间注意力增强机制的自动图像描述方法实施例所使用的结构框图;图2是本专利技术基于空间注意力增强机制的自动图像描述方法实施例的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术是一种基于空间注意力增强机制的自动图像描述方法,本专利技术的方法可以应用计算机装置实现,例如,计算机装置包括处理器以及存储器,存储器上存储有计算机程序,计算机程序可以实现本专利技术的基于空间注意力增强机制的自动图像描述方法。本专利技术的方法应用如图1所示的系统中,待描述的图像10经过目标检测算法模块11后被提取出图像特征13,图像特征13被输入至注意力模块14,并计算获得注意力权重。同时,图像特征13还与实体数据集中的名词相匹配23相结合,并利用簇类信息24来计算注意力权重15,注意力权重15通过解码器16的计算可以获得图像描述信息17,图像描述信息17还利用描述标签25获得。从待描述的图像10中可以获得定位标签21,并且经过名词筛选22可以获得描述定位名词23。参见图2,本实施例首先执行步骤S1,获取待描述的图像,例如将一张需要描述的图像输入至图像描述模型,然后,执行步骤S2,提取图像中潜在的目标区域,这些目标区域就是待处理的图像区域。然后,获取图像区域的空间特征和位置信息,并提取图像特征。具体的,提取待描述图像中潜在的目标区域的空间特征,并将这些特征作为后续内容的输入。例如,利用视觉基因数据集(VisualGenome)所预先训练的目标检测算法提取待描述的图像I中自下而上的特征和相应的目标边界框,图像特征的提取可以应用区域候选网络和感兴趣区域池化等已知的技术实现,这些目标边界框确定了目标区域在图像中的位置。接着,执行步骤S3,提取基于簇的注意力特征标签。本实施例中,使用簇类信息筛选方法选择出富含定位信息的候选框,具体的,使用簇类信息筛选方法将图像区域的空间特征和位置信息与实体数据集中的名词相结合,根据交并比准则和交叠比准则,选出富含定位信息本文档来自技高网...

【技术保护点】
1.一种基于空间注意力增强机制的自动图像描述方法,其特征在于,包括:/n获取待描述的图像后,提取图像中潜在的目标区域,将所述目标区域设定为待处理的图像区域,获取多个所述图像区域的空间特征和位置信息,并提取各图像区域的图像特征;/n从提取出的所述图像区域中,根据实体数据集的信息选择富含定位信息的图像区域作为候选框,获得基于簇的注意力特征标签;/n根据已提取的图像特征计算每一时刻下图像候选区域的注意力强度;/n计算关于描述内容的交叉熵损失和基于簇的注意力特征标签的显著性损失,并计算总损失;/n计算真实值标签和初始预测值之间的损失,并判定初始预测值与真实结果的差异,图像描述模型根据所述差异进行自学习,将所述图像特征输入完成自学习后的图像描述模型后,获得最终预测值。/n

【技术特征摘要】
1.一种基于空间注意力增强机制的自动图像描述方法,其特征在于,包括:
获取待描述的图像后,提取图像中潜在的目标区域,将所述目标区域设定为待处理的图像区域,获取多个所述图像区域的空间特征和位置信息,并提取各图像区域的图像特征;
从提取出的所述图像区域中,根据实体数据集的信息选择富含定位信息的图像区域作为候选框,获得基于簇的注意力特征标签;
根据已提取的图像特征计算每一时刻下图像候选区域的注意力强度;
计算关于描述内容的交叉熵损失和基于簇的注意力特征标签的显著性损失,并计算总损失;
计算真实值标签和初始预测值之间的损失,并判定初始预测值与真实结果的差异,图像描述模型根据所述差异进行自学习,将所述图像特征输入完成自学习后的图像描述模型后,获得最终预测值。


2.根据权利要求1所述的一种基于空间注意力增强机制的自动图像描述方法,其特征在于:
获取多个图像区域的空间特征和位置信息包括:
利用视觉基因数据集所预先训练的目标检测算法提取所述图像中自下而上的特征和相应的目标边界框在所述图像中的位置信息。


3.根据权利要求1所述的一种基于空间注意力增强机制的自动图像描述方法,其特征在于:
根据实体数据集的信息选择富含定位信息的图像区域作为候选框包括:
基于实体数据集的内容描述定位名词,将所述图像区域的空间特征和位置信息与所述实体数据集中的名词相匹配,使用簇类信息筛选方法选择出富含定位信息的候选框。


4.根据权利要求3所述的一种基于空间注意力增强机制的自动图像描述方法,其特征在于:
使用簇类信息筛选方法选择出富含定位信息的候选框包括:
使用簇类信息筛选方法将所述图像区域的空间特征和位置信息与所述实体数据集中的名词相结合,根据交并比准则和交叠比准则,选出富含定位信息的候选框。


5.根据权利要求4所述的一种基于空间注意力增强机制的自动图像描述方法,其特征在于:
根据交并比准则和交叠比准则,选出富含定位信息的候选框包括:

【专利技术属性】
技术研发人员:方玉明朱旻炜姜文晖
申请(专利权)人:方玉明
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1