基于区域特征的图像描述模型注意力机制评价方法与系统技术方案

技术编号:33119865 阅读:51 留言:0更新日期:2022-04-17 00:16
本发明专利技术提出一种基于区域特征的图像描述模型注意力机制评价方法与系统,该方法包括:通过深度神经网络,利用感兴趣区域池化在潜在目标区域中提取得到对应的区域空间特征;将区域空间特征输入至图像描述模型中以生成单词序列,将语义特征与单词序列输入至注意力模块得到生成句子;将生成句子与真值句子进行匹配,以确定得到匹配名词;再将生成匹配名词时潜在目标区域对应的语义特征的权重加载到图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,得到局部注意力评价结果,进而得到全局注意力评价结果。本发明专利技术不仅能够针对基于区域特征的图像描述模型进行评价,并且与图像描述的性能指标具有更高一致性。一致性。一致性。

【技术实现步骤摘要】
基于区域特征的图像描述模型注意力机制评价方法与系统


[0001]本专利技术涉及计算机信息
,特别涉及一种基于区域特征的图像描述模型注意力机制评价方法与系统。

技术介绍

[0002]在计算机图像处理领域中,图像描述生成是一个融合计算机视觉与自然语言处理的综合问题。具体的,其要求对于任意的输入图像,能输出通顺且人类可理解的句子以完整描述图像内容。
[0003]当前主流的图像描述模型依赖于基于区域特征的注意力机制。具体的,区域特征以图像中关键区域的候选框为表示,描述该区域的语义特征。注意力机制专注于图像中关键的视觉内容,从区域特征中提取更具辨别力的视觉信息来指导句子生成。注意力机制极大程度地提高了图像描述模型的准确性。
[0004]然而,通过可视化分析发现注意力机制普遍存在“不聚焦”的问题。具体地,在生成描述的单词时,注意力机制有时会关注在物体不重要的区域,例如人的身体,从而错误预测人的性别;有时则关注于物体的背景,导致“幻想”出与目标相关但未实际出现的物体;有时则忽略了图像中的重要目标,导致描述中缺少重要信息。
[0005]如上所述,基于区域特征的注意力机制仍缺少可靠的量化分析方法,导致对图像描述模型性能的诊断变得十分困难。基于此,有必要提出一种基于区域特征的图像描述模型注意力机制评价方法与系统,以解决上述技术问题。

技术实现思路

[0006]鉴于上述状况,本专利技术的主要目的是为了提出一种基于区域特征的图像描述模型注意力机制评价方法与系统,以解决上述技术问题。
[0007]本专利技术实施例提供了一种基于区域特征的图像描述模型注意力机制评价方法,其中,所述方法包括如下步骤:步骤一、获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征;步骤二、将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重;步骤三、将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤;步骤四、将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载
到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量;步骤五、根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。
[0008]本专利技术提出一种基于区域特征的图像描述模型注意力机制评价方法,通过深度神经网络,利用感兴趣区域池化在潜在目标区域中提取得到对应的区域空间特征;然后将区域空间特征输入至图像描述模型中以生成单词序列,再将语义特征与单词序列输入至注意力模块,通过注意力模块得到生成句子;进而将生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以确定得到匹配名词;再将生成匹配名词时潜在目标区域对应的语义特征的权重加载到图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,进而得到局部注意力评价结果,最后根据局部注意力评价结果计算得到全局注意力评价结果。本专利技术提出一种基于区域特征的图像描述模型注意力机制评价方法,不仅能够针对基于区域特征的图像描述模型进行评价,并且与图像描述的性能指标具有更高一致性。
[0009]所述基于区域特征的图像描述模型注意力机制评价方法,其中,在所述步骤一中,所述区域空间特征表示为:其中,表示所述区域空间特征,表示单个特定区域的特征向量,表示特征的总数,表示特征的序号。
[0010]所述基于区域特征的图像描述模型注意力机制评价方法,其中,在所述步骤二中,在时间步骤处对应生成的边界框的注意力权重的计算公式表示为:的计算公式表示为:其中,表示用于将区域特征映射到统一映射空间的第一参数矩阵,表示用于将区域特征映射到统一映射空间的第二参数矩阵,表示映射空间的维度,表示未归一化的权重,表示矩阵转置操作,表示归一化操作。
[0011]所述基于区域特征的图像描述模型注意力机制评价方法,其中,在所述步骤四中,所述局部注意力评价结果的计算方法为:通过判断匹配名词的局部注意准确率是否大于预设阈值;当判断到所述匹配名词的局部注意准确率大于预设阈值,则判定图像描述模型在生成所述匹配名词时的注意力是正确的,以确定得到所述局部注意力评价结果。
[0012]所述基于区域特征的图像描述模型注意力机制评价方法,其中,所述局部注意力准确率的计算方法包括如下步骤:
获取时间步骤中边界框的注意力权重,以及边界框的位置;初始化空白图像,将边界框的注意力权重映射到空白图像内边界框内的对应位置,并通过累积以更新所述空白图像以得到映射图,其中所述映射图对应有多个映射图像素权重;将映射图上人工标注的边界框中所包含的所有映射图像素权重进行累加以得到匹配名词的局部注意力准确率。
[0013]所述基于区域特征的图像描述模型注意力机制评价方法,其中,所述映射图像素权重表示为:权重表示为:其中,表示所述映射图像素权重,表示归一化项,表示未归一化的像素权重值,表示示性函数,表示时间步骤中第个区域的权重值,表示区域的序号,表示像素坐标,表示区域的总数;其中,表示第个区域在图像中的位置。
[0014]所述基于区域特征的图像描述模型注意力机制评价方法,其中,匹配名词的局部注意力准确率表示为:其中,表示匹配名词的局部注意力准确率。
[0015]所述基于区域特征的图像描述模型注意力机制评价方法,其中,根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果的方法包括如下步骤:当忽略生成句子的语言误差时:根据所述被认定为正确匹配名词的数量,生成句子与真值句子匹配的名词数量、真值句子与生成句子匹配的名词数量计算得到第一准确率以及第一召回率;根据所述第一准确率以及所述第一召回率计算得到第一全局注意力准确率;当考虑生成句子的语言误差时:根据所述被认定为正确匹配名词的数量,生成句子中的名词数量、真值句子中的名词数量计算得到第二准确率以及第二召回率;根据所述第二准确率以及所述第二召回率计算得到第二全局注意力准确率;
其中,所述第一全局注意力准确率以及所述第二全局注意力准确率即为所述全局注意力评价结果。
[0016]所述基于区域特征的图像描述模型注意力机制评价方法,其中,所述第一全局注意力准确率表示为:所述第二全局注意力准确率表示为:其中,,,,,表示所述被认定为正确匹配名词的数量,表示生成句子中的名词数量,表示真值句子中的名词数量,表示生成句子与真值句子匹配的名词数量,表示真值句子与生成句子匹配的名词数量。
[0017]本专利技术还提出一种基于区域本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于区域特征的图像描述模型注意力机制评价方法,其特征在于,所述方法包括如下步骤:步骤一、获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征;步骤二、将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重;步骤三、将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤;步骤四、将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量;步骤五、根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。2.根据权利要求1所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,在所述步骤一中,所述区域空间特征表示为:其中,表示所述区域空间特征,表示单个特定区域的特征向量,表示特征的总数,表示特征的序号。3.根据权利要求2所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,在所述步骤二中,在时间步骤处对应生成的边界框的注意力权重的计算公式表示为:示为:其中,表示用于将区域特征映射到统一映射空间的第一参数矩阵,表示用于将区域特征映射到统一映射空间的第二参数矩阵,表示映射空间的维度,表示未归一化的权重,表示矩阵转置操作,表示归一化操作。4.根据权利要求3所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,在所述步骤四中,所述局部注意力评价结果的计算方法为:通过判断匹配名词的局部注意准确率是否大于预设阈值;
当判断到所述匹配名词的局部注意准确率大于预设阈值,则判定图像描述模型在生成所述匹配名词时的注意力是正确的,以确定得到所述局部注意力评价结果。5.根据权利要求4所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,所述局部注意力准确率的计算方法包括如下步骤:获取时间步骤中边界框的注意力权重,以及边界框的位置;初始化空白图像,将边界框的注意力权重映射到空白图像内边界框内的对应位置,并通过累积以更新所述空白图像以得到映射图,其中所述映射图对应有多个映射图像素权重;将映射图上人工标注的边界框中所包含的所有映射图像素权重进行累加以得到匹配名词的局部注意力准确率。6.根据权利要求5所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,所述映射图像素权重表示为:在于,所述映射图像素权重表...

【专利技术属性】
技术研发人员:姜文晖朱旻炜方玉明赵小伟刘扬
申请(专利权)人:江西财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1