一种基于重要性区分注意力机制的图像字幕生成算法制造技术

技术编号：39657113 阅读：13 留言：0更新日期：2023-12-09 11:26

本发明专利技术涉及图像算法技术领域，具体公开了一种基于重要性区分注意力机制的图像字幕生成算法，包括如下步骤：采用编码器和解码器并融入注意力机制的架构来生成图像字幕；通过三个输入量，查询向量

全部详细技术资料下载

【技术实现步骤摘要】
一种基于重要性区分注意力机制的图像字幕生成算法

[0001]本专利技术涉及图像算法
，尤其涉及一种基于重要性区分注意力机制的图像字幕生成算法
。

技术介绍

[0002]目前，图像字幕生成算法的目的是让计算机自动地生成与输入图像内容相匹配的字幕，图像字幕生成的主流算法基本都采用基于编码器
+
解码器
+
注意力机制的结构，其中注意力机制的作用在于帮助解码器在生成图像字幕时关注相应的图像区域，或者优化从编码器中提取出来的图像特征
。
[0003]但现有技术中，图像字幕生成领域的注意力机制在处理视觉特征时，没有对不同区域与特征的重要性层次进行区分，导致在生成图像字幕过程中，会被非重要的区域与特征误导，导致模型生成的图像字幕不够细致，严重则会导致生成错误的图像字幕
。

技术实现思路

[0004]本专利技术的目的在于提供一种基于重要性区分注意力机制的图像字幕生成算法，旨在解决现有技术中的图像字幕生成领域的注意力机制在处理视觉特征时，没有对不同区域与特征的重要性层次进行区分，导致在生成图像字幕过程中，会被非重要的区域与特征误导，导致模型生成的图像字幕不够细致，严重则会导致生成错误的图像字幕的技术问题
。
[0005]为实现上述目的，本专利技术采用的一种基于重要性区分注意力机制的图像字幕生成算法，包括如下步骤：
[0006]采用编码器和解码器并融入注意力机制的架构来生成图像字幕；
[0007]通过三个输入量，查询向

【技术保护点】

【技术特征摘要】
1.
一种基于重要性区分注意力机制的图像字幕生成算法，其特征在于，包括如下步骤：采用编码器和解码器并融入注意力机制的架构来生成图像字幕；通过三个输入量，查询向量
Q、
关键词向量
K
和值向量
V
，查询向量
Q
与关键词向量
K
被用于计算两个向量之间的相识度，并得到注意力值或者注意力分数，分数越高则说明相似度越高，之后通过
softmax
归一化将注意力分数缩放到0到1之间，最后与一组值向量
V
相乘并加权求和，计算出注意力结果；通过计算出的注意力结果对应生成图像字幕
。2.
如权利要求1所述的一种基于重要性区分注意力机制的图像字幕生成算法，其特征在于，计算注意力的算法流程，包括如下步骤：为每个
Q
中的向量
query
都随机采样部分的
key
，
K
中的向量，默认值为
c*lnL
，
c
为人为设置的参数，
L
为
key
的数量；计算每个
query
的稀疏注意力分数；选择稀疏性得分最高的
N
...

【专利技术属性】
技术研发人员：梁磊燚，向南，朱丽芳，李峻岩，
申请(专利权)人：重庆嘉陵全域机动车辆有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人