一种基于空间注意力增强机制的自动图像描述方法技术

技术编号：28560322 阅读：49 留言：0更新日期：2021-05-25 17:55

本发明专利技术提供一种基于空间注意力增强机制的自动图像描述方法，包括提取图像中潜在的目标区域，将目标区域设定为待处理的图像区域，获取多个图像区域的空间特征和位置信息，提取各图像区域的图像特征；从提取出的图像区域中，根据实体数据集的信息选择富含定位信息的图像区域作为候选框，获得基于簇的注意力特征标签；根据已提取的图像特征计算每一时刻下图像候选区域的注意力强度；计算关于描述内容的交叉熵损失和基于簇的注意力特征标签的显著性损失，计算总损失；计算真实值标签和初始预测值之间的损失，并判定初始预测值与真实结果的差异，图像描述模型根据差异进行自学习，将图像特征输入完成自学习后的图像描述模型后，获得最终预测值。本发明专利技术能够提升自动图像描述方法的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于空间注意力增强机制的自动图像描述方法
本专利技术涉及图像描述的
，具体的，涉及一种基于空间注意力增强机制的自动图像描述方法。
技术介绍
图像描述生成是一个融合计算机视觉和自然语言处理的综合问题，图像描述任务对于人类来说非常容易，但是受限于不同模态数据的异构特性，要求机器理解图片的内容并用自然语言描述十分困难，不仅要求机器生成通顺且人类可理解的句子，还要求句子表现完整图像内容。受注意力机制在机器翻译中应用的启发，一些研究人员在传统的“编码-解码”框架引入了注意力机制，显著地提高了自动图像描述任务的性能。注意力机制专注于图像中关键的视觉内容，在图像上下文向量输入到“编码-解码”框架的过程中提供更具辨别力的视觉信息来指导句子生成过程。尽管注意力机制能有效提升自动图像描述方法的性能，但是目前方法仍然存在注意力不够准确等问题，导致图像描述中出现图像中未出现的物体描述。
技术实现思路
针对现有技术的不足，本专利技术提供一种提高注意力准确性的基于空间注意力增强机制的自动图像描述方法。为实现上述目的，本专利技术通过以下技术方案予以实现：一种基于空间注意力增强机制的自动图像描述方法，包括：获取待描述的图像后，提取图像中潜在的目标区域，将目标区域设定为待处理的图像区域，获取多个图像区域的空间特征和位置信息，并提取各图像区域的图像特征；从提取出的图像区域中，根据实体数据集的信息选择富含定位信息的图像区域作为候选框，获得基于簇的注意力特征标签；根据已提取的图像特征计算每一时刻下图像候选区域的...

【技术保护点】
1.一种基于空间注意力增强机制的自动图像描述方法，其特征在于，包括：/n获取待描述的图像后，提取图像中潜在的目标区域，将所述目标区域设定为待处理的图像区域，获取多个所述图像区域的空间特征和位置信息，并提取各图像区域的图像特征；/n从提取出的所述图像区域中，根据实体数据集的信息选择富含定位信息的图像区域作为候选框，获得基于簇的注意力特征标签；/n根据已提取的图像特征计算每一时刻下图像候选区域的注意力强度；/n计算关于描述内容的交叉熵损失和基于簇的注意力特征标签的显著性损失，并计算总损失；/n计算真实值标签和初始预测值之间的损失，并判定初始预测值与真实结果的差异，图像描述模型根据所述差异进行自学习，将所述图像特征输入完成自学习后的图像描述模型后，获得最终预测值。/n

【技术特征摘要】
1.一种基于空间注意力增强机制的自动图像描述方法，其特征在于，包括：
获取待描述的图像后，提取图像中潜在的目标区域，将所述目标区域设定为待处理的图像区域，获取多个所述图像区域的空间特征和位置信息，并提取各图像区域的图像特征；
从提取出的所述图像区域中，根据实体数据集的信息选择富含定位信息的图像区域作为候选框，获得基于簇的注意力特征标签；
根据已提取的图像特征计算每一时刻下图像候选区域的注意力强度；
计算关于描述内容的交叉熵损失和基于簇的注意力特征标签的显著性损失，并计算总损失；
计算真实值标签和初始预测值之间的损失，并判定初始预测值与真实结果的差异，图像描述模型根据所述差异进行自学习，将所述图像特征输入完成自学习后的图像描述模型后，获得最终预测值。

2.根据权利要求1所述的一种基于空间注意力增强机制的自动图像描述方法，其特征在于：
获取多个图像区域的空间特征和位置信息包括：
利用视觉基因数据集所预先训练的目标检测算法提取所述图像中自下而上的特征和相应的目标边界框在所述图像中的位置信息。

3.根据权利要求1所述的一种基于空间注意力增强机制的自动图像描述方法，其特征在于：
根据实体数据集的信息选择富含定位信息的图像区域作为候选框包括：
基于实体数据集的内容描述定位名词，将所述图像区域的空间特征和位置信息与所述实体数据集中的名词相匹配，使用簇类信息筛选方法选择出富含定位信息的候选框。

4.根据权利要求3所述的一种基于空间注意力增强机制的自动图像描述方法，其特征在于：
使用簇类信息筛选方法选择出富含定位信息的候选框包括：
使用簇类信息筛选方法将所述图像区域的空间特征和位置信息与所述实体数据集中的名词相结合，根据交并比准则和交叠比准则，选出富含定位信息的候选框。

5.根据权利要求4所述的一种基于空间注意力增强机制的自动图像描述方法，其特征在于：
根据交并比准则和交叠比准则，选出富含定位信息的候选框包括：

【专利技术属性】
技术研发人员：方玉明，朱旻炜，姜文晖，
申请(专利权)人：方玉明，
类型：发明
国别省市：江西;36

全部详细技术资料下载我是这个专利的主人