【技术实现步骤摘要】
一种基于关系约束自注意力的图像描述自动生成方法
[0001]本专利技术涉及自然图像处理,计算机视觉和自然语言处理三个领域,针对自然图像描述自动生成目标,设计了一种基于关系约束自注意力的图像描述自动生成方法。
技术介绍
[0002]图像描述,旨在自动为图像生成自然描述,是一个结合计算机视觉和自然语言处理的跨学科任务。其要求模型不仅要了解图像中的对象,场景及其交互,还需要生成自然语言序列。图像描述的研究与发展依赖于计算机视觉、自然语言处理技术的进步,也有助于带动计算机视觉、自然语言处理等相关领域的发展,更加有助于推动人工智能相关应用的实现,例如视觉障碍辅助、视觉语音导航、智能聊天机器人、幼儿教育以及医学报告自动生成等等。
[0003]随着深度神经网络的发展,大多数最近的图像描述方法遵循编码器
‑
解码器(encoder
‑
decoder)框架。其首先通过卷积神经网络(CNN)对图像进行编码,然后通过经循环神经网络(RNN)来解码视觉特征并生成描述。图像描述的难点是将视觉内容适当地对准语言 ...
【技术保护点】
【技术特征摘要】
1.一种基于关系约束自注意力RCSA的图像描述自动生成方法,其特征在于:该方法包括包含两个子模块:RCSA
‑
E作用于编码器阶段;RCSA
‑
D作用于解码器阶段,具体步骤如下:步骤(1)获取图像描述数据集并预处理,得到训练数据集,包括提取图像特征X,以及生成RCSA
‑
E和RCSA
‑
D分别所需的图像视觉关系图和语义关系对;步骤(2)构建RCSA
‑
E作用于模型编码器,编码器用于对步骤(1)提取的图像特征X进行编码,输出编码后的图像特征编码器遵循标准Transformer编码器结构,是一种6层的栈式结构,每一层的结构相同,将每一层含有RCSA
‑
E的编码层栈式累加,前一层的输出作为后一层的输入,累加6层后得到编码器输出步骤(3)构建RCSA
‑
D作用于模型解码器,对进行解码。解码器遵循标准Transformer解码器结构,是一种6层的栈式结构,前一层的输出会作为下一层的输入,每一层的结构相同,解码器每一层的输入为两项:和ground truth标准描述数据将每一层含有RCSA
‑
D的编码层栈式累加,前一层的输出作为后一层的输入,累加6层后得到解码器输出,即生成的描述Y,Y={y0,y1,
…
,y
T
},T为描述的最长时刻,即描述的最大长度;步骤(4)模型训练。基于生成的描述Y与ground truth标准描述数据计算交叉熵损失或者强化学习梯度损失,使用随机梯度下降算法对模型进行优化,得到最终模型;步骤(5)对于待描述的图像,使用与训练过程相同的特征提取方法,得到其图像特征后依次送入编码器和解码器中,便可得到相应的图像描述。2.根据权利要求1所述的一种基于关系约束自注意力的图像描述自动生成方法,进一步的,步骤(1)包括以下步骤:步骤(1.1)获取MS COCO图像描述数据集,包含图像数据I及其对应的ground truth标准描述数据步骤(1.2)对MS COCO中的ground truth标准描述数据进行预处理;步骤(1.3)使用特征提取器模型,完成MS COCO图像数据I的预编码,得到图像特征X;步骤(1.4)采用场景图生成方法获得图像的场景图G,随后通过G生成RCSA
‑
E和RCSA
‑
D分别所需的图像视觉关系图和语义关系对;图像视觉关系图是一种有向无环图结构,由有向边和各个节点组成,节点为每个物体,有向边用于表示两个物体之间的视觉或语义关系;语义关系对是一个三元组,其表示为<主语,关...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。