【技术实现步骤摘要】
本公开属于图像处理和人工智能,特别涉及一种图像描述的混合位置编码方法。
技术介绍
1、近年来,人工智能和深度学习技术迅速发展,计算机视觉逐渐成为重点研究方向之一。图像描述作为交叉任务横跨了计算机视觉和自然语言处理两大领域,近年来其研究热度不断提升。它的主要任务是使用描述性语言展示图像的内容,而且其实际应用非常广泛,如自动根据医学图像生成包含文字的医学报告,为盲人阐述图像中的内容并将自然语言转化为盲文,根据某图像生成自然语言并至少基于该自然语言进行图像检索等。对人类来说,“描述一张图片”的任务很容易,但对计算机来说却很难,尤其是图像信息与文字的对接非常难以把握。
2、早期的图像描述多采用嵌入模板的模式,即生成句子模板,然后嵌入图像中目标对应的描述性词汇,这种方式过于依赖模板的流畅性。近年来得益于卷积神经网络(cnn)和循环神经网络(rnn)的发展,cnn+rnn(或长短期记忆lstm)的模型架构提升了描述的准确性。2017年,谷歌提出transformer,在自然语言处理领域中取得重大突破。它使用注意力机制替代了卷积、池化等结
...【技术保护点】
1.一种图像描述的混合位置编码方法,包括如下步骤:
2.根据权利要求1所述的方法,所述建立符合二维特征图形状的位置信息的具体步骤如下:优选的,
3.根据权利要求2所述的方法,所述步骤S111具体为:根据ResNet101提取的特征图F的形状建立位置标记,为每一行分别赋予行位置标记,再为每一列分别赋予列位置标记。
4.根据权利要求2所述的方法,所述步骤S112中的向量化方法是硬式和训练式。
5.根据权利要求2所述的方法,所述步骤S113具体为:将经过向量化的行位置特征维度和列位置特征维度被拓展到[W,H,C/2],再使用C
...【技术特征摘要】
1.一种图像描述的混合位置编码方法,包括如下步骤:
2.根据权利要求1所述的方法,所述建立符合二维特征图形状的位置信息的具体步骤如下:优选的,
3.根据权利要求2所述的方法,所述步骤s111具体为:根据resnet101提取的特征图f的形状建立位置标记,为每一行分别赋予行位置标记,再为每一列分别赋予列位置标记。
4.根据权利要求2所述的方法,所述步骤s112中的向量化方法是硬式和训练式。
5.根据权利要求2所述的方法,所述步骤s113具体为:将经过向量化的行位置特征维度和列位置特征维度被拓展到[w,h,c/2],再使用conca...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。