一种基于关系约束自注意力的图像描述自动生成方法技术

技术编号:30143851 阅读:29 留言:0更新日期:2021-09-23 15:13
本发明专利技术采用的技术方案为一种基于关系约束自注意力的图像描述自动生成方法,涉及自然图像处理,计算机视觉和自然语言处理三个领域,所述方法具有以下特点:1)设计了一种基于视觉语义关系约束的自注意力机制(RCSA),约束自注意力更好的聚焦于与生成描述相关的区域,忽略无关区域,从而提高图像描述生成的准确性。2)RCSA包含两个子模块,RCSA

【技术实现步骤摘要】
一种基于关系约束自注意力的图像描述自动生成方法


[0001]本专利技术涉及自然图像处理,计算机视觉和自然语言处理三个领域,针对自然图像描述自动生成目标,设计了一种基于关系约束自注意力的图像描述自动生成方法。

技术介绍

[0002]图像描述,旨在自动为图像生成自然描述,是一个结合计算机视觉和自然语言处理的跨学科任务。其要求模型不仅要了解图像中的对象,场景及其交互,还需要生成自然语言序列。图像描述的研究与发展依赖于计算机视觉、自然语言处理技术的进步,也有助于带动计算机视觉、自然语言处理等相关领域的发展,更加有助于推动人工智能相关应用的实现,例如视觉障碍辅助、视觉语音导航、智能聊天机器人、幼儿教育以及医学报告自动生成等等。
[0003]随着深度神经网络的发展,大多数最近的图像描述方法遵循编码器

解码器(encoder

decoder)框架。其首先通过卷积神经网络(CNN)对图像进行编码,然后通过经循环神经网络(RNN)来解码视觉特征并生成描述。图像描述的难点是将视觉内容适当地对准语言描述,其中模型通常在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于关系约束自注意力RCSA的图像描述自动生成方法,其特征在于:该方法包括包含两个子模块:RCSA

E作用于编码器阶段;RCSA

D作用于解码器阶段,具体步骤如下:步骤(1)获取图像描述数据集并预处理,得到训练数据集,包括提取图像特征X,以及生成RCSA

E和RCSA

D分别所需的图像视觉关系图和语义关系对;步骤(2)构建RCSA

E作用于模型编码器,编码器用于对步骤(1)提取的图像特征X进行编码,输出编码后的图像特征编码器遵循标准Transformer编码器结构,是一种6层的栈式结构,每一层的结构相同,将每一层含有RCSA

E的编码层栈式累加,前一层的输出作为后一层的输入,累加6层后得到编码器输出步骤(3)构建RCSA

D作用于模型解码器,对进行解码。解码器遵循标准Transformer解码器结构,是一种6层的栈式结构,前一层的输出会作为下一层的输入,每一层的结构相同,解码器每一层的输入为两项:和ground truth标准描述数据将每一层含有RCSA

D的编码层栈式累加,前一层的输出作为后一层的输入,累加6层后得到解码器输出,即生成的描述Y,Y={y0,y1,

,y
T
},T为描述的最长时刻,即描述的最大长度;步骤(4)模型训练。基于生成的描述Y与ground truth标准描述数据计算交叉熵损失或者强化学习梯度损失,使用随机梯度下降算法对模型进行优化,得到最终模型;步骤(5)对于待描述的图像,使用与训练过程相同的特征提取方法,得到其图像特征后依次送入编码器和解码器中,便可得到相应的图像描述。2.根据权利要求1所述的一种基于关系约束自注意力的图像描述自动生成方法,进一步的,步骤(1)包括以下步骤:步骤(1.1)获取MS COCO图像描述数据集,包含图像数据I及其对应的ground truth标准描述数据步骤(1.2)对MS COCO中的ground truth标准描述数据进行预处理;步骤(1.3)使用特征提取器模型,完成MS COCO图像数据I的预编码,得到图像特征X;步骤(1.4)采用场景图生成方法获得图像的场景图G,随后通过G生成RCSA

E和RCSA

D分别所需的图像视觉关系图和语义关系对;图像视觉关系图是一种有向无环图结构,由有向边和各个节点组成,节点为每个物体,有向边用于表示两个物体之间的视觉或语义关系;语义关系对是一个三元组,其表示为<主语,关...

【专利技术属性】
技术研发人员:冀俊忠王鸣展张晓丹
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1