图像描述生成方法、装置、系统、介质及电子设备制造方法及图纸

技术编号:25891189 阅读:20 留言:0更新日期:2020-10-09 23:33
本发明专利技术实施例是关于一种图像描述生成方法、装置、系统、介质及电子设备,涉及图像处理技术领域,该方法包括:获取目标图像中的图像区域特征,并对所述图像区域特征进行平均池化处理得到当前输入向量;对所述当前输入向量以及所述图像区域特征进行线性融合得到所述图像区域特征的外积向量;根据所述图像区域特征的外积向量计算所述图像区域特征在空间维度上的注意力分布以及在通道维度上的注意力分布;根据所述空间维度上的注意力分布以及通道维度上的注意力分布生成所述目标图像的图像描述。本发明专利技术实施例提高了生成的图像描述的准确率。

【技术实现步骤摘要】
图像描述生成方法、装置、系统、介质及电子设备
本专利技术实施例涉及图像处理
,具体而言,涉及一种图像描述生成方法、图像描述生成装置、图像描述生成系统、计算机可读存储介质以及电子设备。
技术介绍
随着图像识别技术的发展,通过算法就能将图像的内容信息转化为图像的文字描述。图像描述自动生成任务旨在让机器具有像人一样看图说话的能力,即对图像内容进行深层次的理解并自动生成和图像内容相关的描述语句。现有的图像描述方案中,首先基于解码器的状态来找寻图像中经过编码后最为相关的区域特征,然后通过给每个编码后的图像区域特征赋予不同的注意力权重来实现图像级别特征聚合,聚合后的图像级别特征可以通入解码器中来指导描述文本的解码过程。但是,上述方案存在如下缺陷:传统的注意力模块通常利用单线性融合来进行跨模态的特征交互学习,本质上只挖掘了不同模态间一阶的特征交互,因此会使得生成的图像描述的准确率较低。因此,需要提供一种新的图像描述生成方法及装置。需要说明的是,在上述
技术介绍
部分专利技术的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术的目的在于提供一种图像描述生成方法、图像描述生成装置、图像描述生成系统、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的生成的图像描述的准确率较低的问题。根据本公开的一个方面,提供一种图像描述生成方法,包括:获取目标图像中的图像区域特征,并对所述图像区域特征进行平均池化处理得到当前输入向量;对所述当前输入向量以及所述图像区域特征进行线性融合得到所述图像区域特征的外积向量;根据所述图像区域特征的外积向量计算所述图像区域特征在空间维度上的注意力分布以及在通道维度上的注意力分布;根据所述空间维度上的注意力分布以及通道维度上的注意力分布生成所述目标图像的图像描述。在本公开的一种示例性实施例中,获取目标图像中的图像区域特征包括:对所述目标图像进行检测得到所述目标图像中所包括的物体以及与所述物体对应的图像区域特征。在本公开的一种示例性实施例中,根据所述图像区域特征的外积向量计算所述图像区域特征在空间维度上的注意力分布以及在通道维度上的注意力分布包括:对所述图像区域特征的外积向量进行映射得到所述图像区域特征在空间维度上的注意力分布;对所述图像区域特征的外积向量进行压缩-激发处理得到所述图像区域特征在通道维度上的注意力分布。在本公开的一种示例性实施例中,对所述图像区域特征的外积向量进行映射得到所述图像区域特征在空间维度上的注意力分布包括:对所述图像区域特征的外积向量进行映射得到所述图像区域特征中包括的每一个图像区域对应的注意力权重;对所述图像区域特征中包括的每一个图像区域对应的注意力权重进行归一化处理,得到所述图像区域特征在空间维度上的注意力分布。在本公开的一种示例性实施例中,对所述图像区域特征的外积向量进行压缩-激发处理得到所述图像区域特征在通道维度上的注意力分布包括:在空间维度上对所述图像区域特征的外积向量进行融合,得到压缩后的通道表达;对所述压缩后的通道表达进行激发处理,得到所述图像区域特征在通道维度上的注意力权重;对所述图像区域特征在每一个通道维度上的注意力权重进行正则化处理,得到所述图像区域特征在通道维度上的注意力分布。在本公开的一种示例性实施例中,根据所述空间维度上的注意力分布以及通道维度上的注意力分布生成所述目标图像的图像描述包括:根据所述空间维度上的注意力分布对所述图像区域特征以及所述图像区域特征的外积向量进行融合,得到当前聚合特征;根据所述通道维度上的注意力分布对所述当前聚合特征进行融合,得到目标聚合特征;根据所述目标聚合特征,生成所述目标图像的图像描述。在本公开的一种示例性实施例中,对所述当前输入向量以及所述图像区域特征进行线性融合得到所述图像区域特征的外积向量包括:对所述当前输入向量以及所述图像区域特征进行指数性映射,并对指数性映射处理后的当前输入向量以及图像区域特征进行线性融合得到所述图像区域特征的外积向量。在本公开的一种示例性实施例中,所述图像区域特征的外积向量包括解码器当前的隐状态特征与编码后的图像区域特征间二阶的特征交互信息。根据本公开的一个方面,提供一种图像描述生成装置,包括:第一处理模块,用于获取目标图像中的图像区域特征,并对所述图像区域特征进行平均池化处理得到当前输入向量;第二处理模块,用于对所述当前输入向量以及所述图像区域特征进行线性融合得到所述图像区域特征的外积向量;注意力分布计算模块,用于根据所述图像区域特征的外积向量计算所述图像区域特征在空间维度上的注意力分布以及在通道维度上的注意力分布;图像描述生成模块,用于根据所述空间维度上的注意力分布以及通道维度上的注意力分布生成所述目标图像的图像描述。根据本公开的一个方面,提供一种图像描述生成系统,特征在于,包括:物体检测模块,用于获取目标图像中的图像区域特征;编码器,与所述物体检测模块网络连接,所述编码器包括多个高阶注意力模块;解码器,与所述编码器网络连接,所述解码器包括多个具有高阶注意力机制的长短期记忆网络;其中:所述多个高阶注意力模块,用于对所述图像区域特征进行平均池化处理得到当前输入向量;以及对所述当前输入向量以及所述图像区域特征进行线性融合得到所述图像区域特征的外积向量;以及根据所述图像区域特征的外积向量计算所述图像区域特征在空间维度上的注意力分布以及在通道维度上的注意力分布;所述多个具有高阶注意力机制的长短期记忆网络,用于根据所述空间维度上的注意力分布以及通道维度上的注意力分布生成所述目标图像的图像描述。根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一示例性实施例所述的图像描述生成方法。根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一示例性实施例所述的图像描述生成方法。本专利技术实施例提供的一种图像描述生成方法,一方面,通过对图像区域特征进行平均池化处理得到当前输入向量;然后对当前输入向量以及图像区域特征进行线性融合得到图像区域特征的外积向量;再根据图像区域特征的外积向量计算图像区域特征在空间维度上的注意力分布以及在通道维度上的注意力分布;最后根据空间维度上的注意力分布以及通道维度上的注意力分布生成目标图像的图像描述,解决了现有技术中由于传统的注意力模块通常利用线性融合来进行跨模态的特征交互学习,本质上只挖掘了不同模态间一阶的特征交互,因此会使得生成的图像描述的准确率较低的问题,提高了生成的图像描述的准确率;另一本文档来自技高网...

【技术保护点】
1.一种图像描述生成方法,其特征在于,包括:/n获取目标图像中的图像区域特征,并对所述图像区域特征进行平均池化处理得到当前输入向量;/n对所述当前输入向量以及所述图像区域特征进行线性融合得到所述图像区域特征的外积向量;/n根据所述图像区域特征的外积向量计算所述图像区域特征在空间维度上的注意力分布以及在通道维度上的注意力分布;/n根据所述空间维度上的注意力分布以及通道维度上的注意力分布生成所述目标图像的图像描述。/n

【技术特征摘要】
1.一种图像描述生成方法,其特征在于,包括:
获取目标图像中的图像区域特征,并对所述图像区域特征进行平均池化处理得到当前输入向量;
对所述当前输入向量以及所述图像区域特征进行线性融合得到所述图像区域特征的外积向量;
根据所述图像区域特征的外积向量计算所述图像区域特征在空间维度上的注意力分布以及在通道维度上的注意力分布;
根据所述空间维度上的注意力分布以及通道维度上的注意力分布生成所述目标图像的图像描述。


2.根据权利要求1所述的图像描述生成方法,其特征在于,获取目标图像中的图像区域特征包括:
对所述目标图像进行检测得到所述目标图像中所包括的物体以及与所述物体对应的图像区域特征。


3.根据权利要求1所述的图像描述生成方法,其特征在于,根据所述图像区域特征的外积向量计算所述图像区域特征在空间维度上的注意力分布以及在通道维度上的注意力分布包括:
对所述图像区域特征的外积向量进行映射得到所述图像区域特征在空间维度上的注意力分布;
对所述图像区域特征的外积向量进行压缩-激发处理得到所述图像区域特征在通道维度上的注意力分布。


4.根据权利要求3所述的图像描述生成方法,其特征在于,对所述图像区域特征的外积向量进行映射得到所述图像区域特征在空间维度上的注意力分布包括:
对所述图像区域特征的外积向量进行映射得到所述图像区域特征中包括的每一个图像区域对应的注意力权重;
对所述图像区域特征中包括的每一个图像区域对应的注意力权重进行归一化处理,得到所述图像区域特征在空间维度上的注意力分布。


5.根据权利要求3所述的图像描述生成方法,其特征在于,对所述图像区域特征的外积向量进行压缩-激发处理得到所述图像区域特征在通道维度上的注意力分布包括:
在空间维度上对所述图像区域特征的外积向量进行融合,得到压缩后的通道表达;
对所述压缩后的通道表达进行激发处理,得到所述图像区域特征在通道维度上的注意力权重;
对所述图像区域特征在每一个通道维度上的注意力权重进行正则化处理,得到所述图像区域特征在通道维度上的注意力分布。


6.根据权利要求1所述的图像描述生成方法,其特征在于,根据所述空间维度上的注意力分布以及通道维度上的注意力分布生成所述目标图像的图像描述包括:
根据所述空间维度上的注意力分布对所述图像区域特征以及所述图像区域特征的外积向量进行融合,得到当前聚合特征;
根据所述通道维度上的注意力分布对所述当前聚合特征进行融合,得到目标聚合特征;

【专利技术属性】
技术研发人员:潘滢炜李业豪姚霆梅涛
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1