一种图像描述的混合位置编码方法技术

技术编号:41976490 阅读:19 留言:0更新日期:2024-07-12 12:09
一种图像描述的混合位置编码方法,包括如下步骤:S100:构建包括基于坐标的空间位置编码和基于对角线的位置编码的混合位置编码,其中,所述基于坐标的空间位置编码用于建立符合二维特征图形状的位置信息,所述基于对角线的位置编码用于强化特征图对角像素之间的位置联系;S200:将上述两种位置编码进行融合,加入图像描述模型中,获得符合图像内容的描述性语句。该方法达到从行,列,对角线方向多方位描述特征图的位置信息的目的,提高了图像描述的准确性。

【技术实现步骤摘要】

本公开属于图像处理和人工智能,特别涉及一种图像描述的混合位置编码方法


技术介绍

1、近年来,人工智能和深度学习技术迅速发展,计算机视觉逐渐成为重点研究方向之一。图像描述作为交叉任务横跨了计算机视觉和自然语言处理两大领域,近年来其研究热度不断提升。它的主要任务是使用描述性语言展示图像的内容,而且其实际应用非常广泛,如自动根据医学图像生成包含文字的医学报告,为盲人阐述图像中的内容并将自然语言转化为盲文,根据某图像生成自然语言并至少基于该自然语言进行图像检索等。对人类来说,“描述一张图片”的任务很容易,但对计算机来说却很难,尤其是图像信息与文字的对接非常难以把握。

2、早期的图像描述多采用嵌入模板的模式,即生成句子模板,然后嵌入图像中目标对应的描述性词汇,这种方式过于依赖模板的流畅性。近年来得益于卷积神经网络(cnn)和循环神经网络(rnn)的发展,cnn+rnn(或长短期记忆lstm)的模型架构提升了描述的准确性。2017年,谷歌提出transformer,在自然语言处理领域中取得重大突破。它使用注意力机制替代了卷积、池化等结构,并采用并行计算模本文档来自技高网...

【技术保护点】

1.一种图像描述的混合位置编码方法,包括如下步骤:

2.根据权利要求1所述的方法,所述建立符合二维特征图形状的位置信息的具体步骤如下:优选的,

3.根据权利要求2所述的方法,所述步骤S111具体为:根据ResNet101提取的特征图F的形状建立位置标记,为每一行分别赋予行位置标记,再为每一列分别赋予列位置标记。

4.根据权利要求2所述的方法,所述步骤S112中的向量化方法是硬式和训练式。

5.根据权利要求2所述的方法,所述步骤S113具体为:将经过向量化的行位置特征维度和列位置特征维度被拓展到[W,H,C/2],再使用Concat函数将行位...

【技术特征摘要】

1.一种图像描述的混合位置编码方法,包括如下步骤:

2.根据权利要求1所述的方法,所述建立符合二维特征图形状的位置信息的具体步骤如下:优选的,

3.根据权利要求2所述的方法,所述步骤s111具体为:根据resnet101提取的特征图f的形状建立位置标记,为每一行分别赋予行位置标记,再为每一列分别赋予列位置标记。

4.根据权利要求2所述的方法,所述步骤s112中的向量化方法是硬式和训练式。

5.根据权利要求2所述的方法,所述步骤s113具体为:将经过向量化的行位置特征维度和列位置特征维度被拓展到[w,h,c/2],再使用conca...

【专利技术属性】
技术研发人员:杨小宝贺帅杨洋田茜
申请(专利权)人:西安邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1