一种基于多尺度多头信息聚合的图像描述方法技术

技术编号:41537342 阅读:26 留言:0更新日期:2024-06-03 23:16
本发明专利技术公开了一种基于多尺度多头信息聚合的图像描述方法,从多头注意力的角度引入多尺度视觉特征,提升编码器对图像特征进行高层次语义建模时捕获多样性信息的能力。具体来说,我们提出了一种尺度扩展算法来提取高尺度视觉特征,然后对于不同的注意力头引入不同的高尺度视觉特征,以捕获更加丰富的视觉信息。此外,对于编码器的浅层和深层,引入不同层级的高尺度视觉特征,进一步提升编码器的特征表示能力。本方法可以灵活的与现有的基于多头注意力机制的图像描述模型结合,帮助模型提取更加丰富的图像信息,提升图像描述的准确性。

【技术实现步骤摘要】

本专利技术涉及计算机视觉和自然语言处理两个领域,针对图像描述任务,设计了一种基于多尺度多头信息聚合的图像描述方法


技术介绍

1、图像描述作为把计算机视觉和自然语言处理相结合的跨模态跨领域的任务。一般地,它将输入的图片通过卷积神经网络提取图像特征并利用循环神经网络等方法生成一段文字的描述,这段描述要求和图片的内容高度相似。这要求计算机利用模型来提取图片内的特征以及一些高层语义信息,然后利用自然语言处理的方法表达图片中的内容。相关研究能推动聊天机器人、医学报告自动生成和幼儿早期教育等信息服务领域的发展,因此该任务具有广泛的科学价值和应用前景。

2、最初,传统的图像描述算法是通过模板填充的方法来生成图像描述,它主要是通过局部二值模式、尺度不变特征转换或者方向梯度直方图等算法提取图像的视觉特征,并根据这些特征检测对应目标、动作及属性对应的单词词汇,最后将这些单词填入到模板中。这样的方法虽然能够保证句型语法的正确性,也有着很大的局限性,由于使用的模板是固定的,它也依赖于硬解码的视觉概念影响,这样生成的语句格式相对固定且形式单一,应用的场景也很局限。还有本文档来自技高网...

【技术保护点】

1.一种基于多尺度多头信息聚合的图像描述方法,其特征在于,包括如下步骤,(1)对自然图像和文本描述数据集进行预处理;(2)构建特征提取器提取视觉特征G=[g1,g2,…gi,…gN],其中N表示图像I由N个栅格视觉特征组成;(3)构建高尺度视觉特征提取模块:多头注意力模块的输入是一维序列,重构输入图像特征序列的二维几何关系,然后基于原始的低尺度视觉信息提取高尺度的视觉特征;(4)构建多尺度特征融合模块:将提取到的高尺度视觉特征与原始特征融合以增强特征表征能力;(5)构建尺度扩展注意力模块:为每个注意力头都引入不同层级的高尺度视觉特征信息。

2.根据权利要求1所述的一种基于多尺...

【技术特征摘要】

1.一种基于多尺度多头信息聚合的图像描述方法,其特征在于,包括如下步骤,(1)对自然图像和文本描述数据集进行预处理;(2)构建特征提取器提取视觉特征g=[g1,g2,…gi,…gn],其中n表示图像i由n个栅格视觉特征组成;(3)构建高尺度视觉特征提取模块:多头注意力模块的输入是一维序列,重构输入图像特征序列的二维几何关系,然后基于原始的低尺度视觉信息提取高尺度的视觉特征;(4)构建多尺度特征融合模块:将提取到的高尺度视觉特征与原始特征融合以增强特征表征能力;(5)构建尺度扩展注意力模块:为每个注意力头都引入不同层级的高尺度视觉特征信息。

2.根据权利要求1所述的一种基于多尺度多头信息聚合的图像描述方法,其特征在于:对自然图像和文本描述数据集进行预处理过程如下,

3.根据权利要求1所述的一种基于多尺度...

【专利技术属性】
技术研发人员:张晓丹贾奥哲
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1