一种基于共同注意力机制的图像描述生成方法技术

技术编号:38222300 阅读:20 留言:0更新日期:2023-07-25 17:53
本发明专利技术公开了一种基于共同注意力机制的图像描述生成方法。该发明专利技术在图像描述算法的语义对齐上具有一定的有效性。针对生成描述与图像中区域不对齐问题,在编码器

【技术实现步骤摘要】
一种基于共同注意力机制的图像描述生成方法


[0001]本专利技术涉及深度学习中的图像描述生成领域,针对图像描述生成中图像与生成描述语义没有对齐的问题。

技术介绍

[0002]图像描述算法是一种人工智能技术,综合计算机视觉技术和自然语言处理技术的方法,旨在使机器能够根据给定的图像生成自然语言描述。该算法的应用包括图像搜索、自动图像注释、智能机器人等领域。
[0003]在实际应用场景中,图像描述算法已经被广泛应用。例如,在社交媒体中,图像描述算法可以帮助社交媒体平台自动生成图像描述,让用户更好地了解照片内容,增强用户体验。在搜索引擎中,图像描述算法可以帮助搜索引擎更好地理解图片内容,提高检索准确性,为用户提供更优质的搜索结果。在自动驾驶中,自动驾驶汽车需要通过图像识别技术来感知环境,图像描述算法可以帮助自动驾驶汽车更好地理解和预测路况。图像描述算法还可以应用于医学图像、无人机监控等多个领域,为实现智能化、自动化提供了有力的支撑。
[0004]图像描述算法主要采用注意力增强的编码器

解码器框架。注意力机制通过在每个本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于共同注意力机制的图像描述生成方法,其特征在于,包括以下步骤:步骤1:基于生成对抗网络的图像描述方法,网络模型分为生成器和判别器,前者是为了生成对应图像的描述;后者是为了评估文字描述对该图像的描述准确性;步骤2:步骤1中生成器采用编码器

解码器框架。结构为:编码器采用卷积神经网络,先知注意力机制,解码器采用循环神经网络,给定一幅图像I,生成器G输出图像描述步骤3:步骤2中的编码器采用Faster R

CNN,接受图像I,提取图像特征V={v1,...,v
k
}∈R
d
×
N
。步骤4:步骤2中的生成器解码器由初始层和先知注意力层组成。初始层为LSTM结构,经过一定的修改,可以对图像描述的生成进行控制。先知注意力层采用双向LSTM计算注意力权重,并对Self

Attention进行改进。注意力权重被分为现在和未来两个部分,其中未来部分的注意力权重是通过预测下一个单词的生成概率来计算的;步骤5:步骤1中判别器网络采用共...

【专利技术属性】
技术研发人员:贾海涛李玉琳李彧张洋张钰琪贾宇明任利
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1