【技术实现步骤摘要】
一种基于关系编码和层次注意力机制的图像段落描述方法
[0001]本专利技术涉及图像处理
,尤其涉及一种基于关系编码和层次注意力机制的图像段落描述方法。
技术介绍
[0002]图像描述是为给定图像自动生成一个描述性句子的任务,也叫做图像单句描述。这项基本的跨模态任务可能有多种应用,如图像/视频检索、幼儿教育和帮助视力受损者理解图像内容。因此,这项任务引起了人工智能界的极大关注。
[0003]在过去的几年中,许多研究在生成一个句子的图像描述任务上取得了令人印象深刻的进步。然而,由于一句话描述一幅图像的局限性,一句话对概括一幅图像中的各种细节通常是不够的,因为“一图胜千言”。为了解决一句话描述图像的局限性,Li Fei
‑
Fei等人提出了图像段落描述的任务。一般来说,图像段落描述任务的目标是生成一个连贯的、细粒度的段落(通常包含四到六个句子)来描述给定的图像。
[0004]以往关于图像段落描述的研究工作可分为两类:层次的方法和非层次的方法。层次的方法通过显式推断生成句子主题,然后通过句子主题 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,包括关系编码过程和层次注意力解码过程;关系编码过程输入区域特征V、区域位置B和区域类别O,通过空间关系编码器和语义关系编码器分别生成空间关系编码特征V
P
和语义关系编码特征V
s
,在语义关系编码时,从外部数据中收集语义物体关系对进行监督,通过训练有监督的语义关系分类器来学习语义关系编码的先验知识;层次注意解码过程使用两个LSTM和一个层次注意力动态融合关系信息和物体区域信息,层次注意力由具有关系门和视觉门的层次注意力组成,层次注意力分为一层区域注意力和一层关系注意力,区域注意力负责在生成当前单词时关注一个显著的物体,关系注意力由空间关系注意力和语义关系注意力组成,用于提取与被注意对象可能相关的关系信息。2.根据权利要求1所述的基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,对于重叠物体对,空间关系编码器通过拼接其视觉特征和相对位置坐标嵌入表示来获取空间关系编码的特征向量。3.根据权利要求2所述的基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,空间关系编码过程的步骤为:首先,根据物体框的几何结构得到相对坐标信息嵌入特征表示;给定两个物体框,b
i
={x
i
,y
i
,w
i
,h
i
}和b
j
={x
j
,y
j
,w
j
,h
j
},它们的几何关系表示为四维向量λ(i,j),即:然后,使用一个线性层将λ(i,j)投影到一个高维空间中,该高维空间嵌入了两个物体框之间的相对坐标,如下式:E
b
(i,j)=ReLU(W
b
λ(i,j)+b
b
)其中和是可学习的参数;通过相对坐标编码,空间关系信息编码由下式得到:v
′
k
=ReLU(W
p
v
k
+b
p
)其中,和是可学习的权重,v
′
k
是物体区域特征向量v
k
的低维投影,可学习的非线性函数f
p
(
·
)在实践中设置为一个两层的MLP,MLP的第一层和第二层设置相同,均具有一个ReLU激活函数、一个批量规范化和一个Dropout层。4.根据权利要求1所述的基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,语义关系编码过程的步骤为:首先,两个物体o
i
和o
j
的E
o
(i,j)的类别嵌入表示定义为:E
o
(i,j)=ReLU(W
o
Concat(W
g
o
i
,W
g
o
j
)+b
o
)其中,和是可学习的权重和偏差,是一个固定的物体类别嵌入矩阵,该矩阵由GloVE向量初始化,在训练过程中保持不变;
然后,语义关系信息如下列公式所示:v
″
k
=ReLU(W
s
v
k
+b
s
)其中,和是可学习的权重和偏差;可学习的非线性函数f
p
(
·
)在实践中设置为一个两层的MLP,MLP的第一层具有一个ReLU激活函数、一个批量规范化和一个Dropout层,第二层只具有单独的线性投影层。5.根据权利要求1所述的基于关系编码和层次注意力机制的图像段落描述方法,其特征在于,语义关系分类器的步骤为:首先,从Visual Genome数据集的视觉关系标注中收集语义关系三元组数据,两个物体o
i
,o
技术研发人员:李睿凡,刘云,石祎晖,冯方向,马占宇,王小捷,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。