一种基于重要性区分注意力机制的图像字幕生成算法制造技术

技术编号:39657113 阅读:13 留言:0更新日期:2023-12-09 11:26
本发明专利技术涉及图像算法技术领域,具体公开了一种基于重要性区分注意力机制的图像字幕生成算法,包括如下步骤:采用编码器和解码器并融入注意力机制的架构来生成图像字幕;通过三个输入量,查询向量

【技术实现步骤摘要】
一种基于重要性区分注意力机制的图像字幕生成算法


[0001]本专利技术涉及图像算法
,尤其涉及一种基于重要性区分注意力机制的图像字幕生成算法


技术介绍

[0002]目前,图像字幕生成算法的目的是让计算机自动地生成与输入图像内容相匹配的字幕,图像字幕生成的主流算法基本都采用基于编码器
+
解码器
+
注意力机制的结构,其中注意力机制的作用在于帮助解码器在生成图像字幕时关注相应的图像区域,或者优化从编码器中提取出来的图像特征

[0003]但现有技术中,图像字幕生成领域的注意力机制在处理视觉特征时,没有对不同区域与特征的重要性层次进行区分,导致在生成图像字幕过程中,会被非重要的区域与特征误导,导致模型生成的图像字幕不够细致,严重则会导致生成错误的图像字幕


技术实现思路

[0004]本专利技术的目的在于提供一种基于重要性区分注意力机制的图像字幕生成算法,旨在解决现有技术中的图像字幕生成领域的注意力机制在处理视觉特征时,没有对不同区域与特征的重要性层次进行区分,导致在生成图像字幕过程中,会被非重要的区域与特征误导,导致模型生成的图像字幕不够细致,严重则会导致生成错误的图像字幕的技术问题

[0005]为实现上述目的,本专利技术采用的一种基于重要性区分注意力机制的图像字幕生成算法,包括如下步骤:
[0006]采用编码器和解码器并融入注意力机制的架构来生成图像字幕;
[0007]通过三个输入量,查询向
Q、
关键词向量
K
和值向量
V
,查询向量
Q
与关键词向量
K
被用于计算两个向量之间的相识度,并得到注意力值或者注意力分数,分数越高则说明相似度越高,之后通过
softmax
归一化将注意力分数缩放到0到1之间,最后与一组值向量
V
相乘并加权求和,计算出注意力结果;
[0008]通过计算出的注意力结果对应生成图像字幕

[0009]其中,计算注意力的算法流程,包括如下步骤:
[0010]为每个
Q
中的向量
query
都随机采样部分的
key

K
中的向量,默认值为
c*lnL

c
为人为设置的参数,
L

key
的数量;
[0011]计算每个
query
的稀疏注意力分数;
[0012]选择稀疏性得分最高的
N

query

N
的值默认为
c*lnL

[0013]只计算这
N

query
和所有
key
的相似度,而其余的
L

N

query
与所有
key
的相似度使用均匀分布代替

[0014]其中,生成图像字幕的算法流程,包括如下步骤:
[0015]对图像进行预处理,首先对图像进行裁剪与缩放,将其大小处理为
224
×
224
,其次将其转换为深度学习框架
pytorch
所需的张量数据;
[0016]使用卷积神经网络
ConvNext
作为编码器,提取输入图像的视觉特征;
[0017]使用由重要性区分注意力机制搭建的特征优化模块优化从编码器中提取出的原始视觉特征;
[0018]使用长短时记忆单元
LSTM
并融入层次区分注意力机制作为解码器,逐词地生成图像字幕

[0019]其中,所述编码器为卷积神经网络
ConvNext。
[0020]本专利技术的一种基于重要性区分注意力机制的图像字幕生成算法的有益效果为:采用卷积神经网络
ConvNext
,相对于传统的卷积神经网络
ResNet

VGG

FasterR

CNN
,提取图像视觉特征的能力更强,能够准确的生产图像字幕

附图说明
[0021]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0022]图1是本专利技术的一种基于重要性区分注意力机制的图像字幕生成算法的步骤流程图

[0023]图2是本专利技术的计算注意力的算法的步骤流程图

[0024]图3是本专利技术的生成图像字幕的算法的步骤流程图

具体实施方式
[0025]请参阅图1至图3,本专利技术提供了一种基于重要性区分注意力机制的图像字幕生成算法,包括如下步骤:
[0026]S1
:采用编码器和解码器并融入注意力机制的架构来生成图像字幕;
[0027]S2
:通过三个输入量,查询向量
Q、
关键词向量
K
和值向量
V
,查询向量
Q
与关键词向量
K
被用于计算两个向量之间的相识度,并得到注意力值或者注意力分数,分数越高则说明相似度越高,之后通过
softmax
归一化将注意力分数缩放到0到1之间,最后与一组值向量
V
相乘并加权求和,计算出注意力结果;
[0028]S3
:通过计算出的注意力结果对应生成图像字幕

[0029]进一步地,计算注意力的算法流程,包括如下步骤:
[0030]S21
:为每个
Q
中的向量
query
都随机采样部分的
key

K
中的向量,默认值为
c*lnL

c
为人为设置的参数,
L

key
的数量;
[0031]S22
:计算每个
query
的稀疏注意力分数;
[0032]S23
:选择稀疏性得分最高的
N

query

N
的值默认为
c*lnL

[0033]S24
:只计算这
N

query
和所有
key
的相似度,而其余的
L

N

query...

【技术保护点】

【技术特征摘要】
1.
一种基于重要性区分注意力机制的图像字幕生成算法,其特征在于,包括如下步骤:采用编码器和解码器并融入注意力机制的架构来生成图像字幕;通过三个输入量,查询向量
Q、
关键词向量
K
和值向量
V
,查询向量
Q
与关键词向量
K
被用于计算两个向量之间的相识度,并得到注意力值或者注意力分数,分数越高则说明相似度越高,之后通过
softmax
归一化将注意力分数缩放到0到1之间,最后与一组值向量
V
相乘并加权求和,计算出注意力结果;通过计算出的注意力结果对应生成图像字幕
。2.
如权利要求1所述的一种基于重要性区分注意力机制的图像字幕生成算法,其特征在于,计算注意力的算法流程,包括如下步骤:为每个
Q
中的向量
query
都随机采样部分的
key

K
中的向量,默认值为
c*lnL

c
为人为设置的参数,
L

key
的数量;计算每个
query
的稀疏注意力分数;选择稀疏性得分最高的
N
...

【专利技术属性】
技术研发人员:梁磊燚向南朱丽芳李峻岩
申请(专利权)人:重庆嘉陵全域机动车辆有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1