图像描述生成方法、装置、系统、介质及电子设备制造方法及图纸

技术编号：25891189 阅读：20 留言：0更新日期：2020-10-09 23:33

本发明专利技术实施例是关于一种图像描述生成方法、装置、系统、介质及电子设备，涉及图像处理技术领域，该方法包括：获取目标图像中的图像区域特征，并对所述图像区域特征进行平均池化处理得到当前输入向量；对所述当前输入向量以及所述图像区域特征进行线性融合得到所述图像区域特征的外积向量；根据所述图像区域特征的外积向量计算所述图像区域特征在空间维度上的注意力分布以及在通道维度上的注意力分布；根据所述空间维度上的注意力分布以及通道维度上的注意力分布生成所述目标图像的图像描述。本发明专利技术实施例提高了生成的图像描述的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
图像描述生成方法、装置、系统、介质及电子设备
本专利技术实施例涉及图像处理
，具体而言，涉及一种图像描述生成方法、图像描述生成装置、图像描述生成系统、计算机可读存储介质以及电子设备。
技术介绍
随着图像识别技术的发展，通过算法就能将图像的内容信息转化为图像的文字描述。图像描述自动生成任务旨在让机器具有像人一样看图说话的能力，即对图像内容进行深层次的理解并自动生成和图像内容相关的描述语句。现有的图像描述方案中，首先基于解码器的状态来找寻图像中经过编码后最为相关的区域特征，然后通过给每个编码后的图像区域特征赋予不同的注意力权重来实现图像级别特征聚合，聚合后的图像级别特征可以通入解码器中来指导描述文本的解码过程。但是，上述方案存在如下缺陷：传统的注意力模块通常利用单线性融合来进行跨模态的特征交互学习，本质上只挖掘了不同模态间一阶的特征交互，因此会使得生成的图像描述的准确率较低。因此，需要提供一种新的图像描述生成方法及装置。需要说明的是，在上述
技术介绍
部分专利技术的信息仅用于加强对本专利技术的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术的目的在于提供一种图像描述生成方法、图像描述生成装置、图像描述生成系统、计算机可读存储介质以及电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的生成的图像描述的准确率较低的问题。根据本公开的一个方面，提供一种图像描述生成方法，包括：获取目标图像中的图像区域特征，并对所...

【技术保护点】
1.一种图像描述生成方法，其特征在于，包括：/n获取目标图像中的图像区域特征，并对所述图像区域特征进行平均池化处理得到当前输入向量；/n对所述当前输入向量以及所述图像区域特征进行线性融合得到所述图像区域特征的外积向量；/n根据所述图像区域特征的外积向量计算所述图像区域特征在空间维度上的注意力分布以及在通道维度上的注意力分布；/n根据所述空间维度上的注意力分布以及通道维度上的注意力分布生成所述目标图像的图像描述。/n

【技术特征摘要】
1.一种图像描述生成方法，其特征在于，包括：
获取目标图像中的图像区域特征，并对所述图像区域特征进行平均池化处理得到当前输入向量；
对所述当前输入向量以及所述图像区域特征进行线性融合得到所述图像区域特征的外积向量；
根据所述图像区域特征的外积向量计算所述图像区域特征在空间维度上的注意力分布以及在通道维度上的注意力分布；
根据所述空间维度上的注意力分布以及通道维度上的注意力分布生成所述目标图像的图像描述。

2.根据权利要求1所述的图像描述生成方法，其特征在于，获取目标图像中的图像区域特征包括：
对所述目标图像进行检测得到所述目标图像中所包括的物体以及与所述物体对应的图像区域特征。

3.根据权利要求1所述的图像描述生成方法，其特征在于，根据所述图像区域特征的外积向量计算所述图像区域特征在空间维度上的注意力分布以及在通道维度上的注意力分布包括：
对所述图像区域特征的外积向量进行映射得到所述图像区域特征在空间维度上的注意力分布；
对所述图像区域特征的外积向量进行压缩-激发处理得到所述图像区域特征在通道维度上的注意力分布。

4.根据权利要求3所述的图像描述生成方法，其特征在于，对所述图像区域特征的外积向量进行映射得到所述图像区域特征在空间维度上的注意力分布包括：
对所述图像区域特征的外积向量进行映射得到所述图像区域特征中包括的每一个图像区域对应的注意力权重；
对所述图像区域特征中包括的每一个图像区域对应的注意力权重进行归一化处理，得到所述图像区域特征在空间维度上的注意力分布。

5.根据权利要求3所述的图像描述生成方法，其特征在于，对所述图像区域特征的外积向量进行压缩-激发处理得到所述图像区域特征在通道维度上的注意力分布包括：
在空间维度上对所述图像区域特征的外积向量进行融合，得到压缩后的通道表达；
对所述压缩后的通道表达进行激发处理，得到所述图像区域特征在通道维度上的注意力权重；
对所述图像区域特征在每一个通道维度上的注意力权重进行正则化处理，得到所述图像区域特征在通道维度上的注意力分布。

6.根据权利要求1所述的图像描述生成方法，其特征在于，根据所述空间维度上的注意力分布以及通道维度上的注意力分布生成所述目标图像的图像描述包括：
根据所述空间维度上的注意力分布对所述图像区域特征以及所述图像区域特征的外积向量进行融合，得到当前聚合特征；
根据所述通道维度上的注意力分布对所述当前聚合特征进行融合，得到目标聚合特征；

【专利技术属性】
技术研发人员：潘滢炜，李业豪，姚霆，梅涛，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人