【技术实现步骤摘要】
一种基于短语关系传播的语义视觉定位方法及装置
本专利技术涉及计算机领域,尤其涉及一种基于短语关系传播的语义视觉定位方法及装置。
技术介绍
为了实现计算机理解人类行为以及高效、准确的人机交互,其关键在于使得计算机同时理解自然语言和视觉场景。为了精确理解语言元素与视觉元素的对应关系,需要将语言元素与视觉区域进行语义对齐。该问题定义为语义视觉定位,其主要目标是寻找与语句中名词短语对应的视觉区域。其与目标检测相似,但需要根据不受限制的名词短语检测对应的区域,而不仅仅是类别。其主要挑战在于:1.名词的定语会影响对应的物体;2.可能需要依赖语句中多个短语的相对关系选择物体。如句子“一个弹小提琴的络腮胡子男人站在另一个弹五弦琴的男人旁边”,检测小提琴位置可以辅助识别第一个人,“胡子”、“五弦琴”等元素对于检测对应的人也具有重要作用。现有的大部分工作仅仅考虑短语与物体的相关性,进行特征融合,而忽视了短语之间的相关性。仅少数工作考虑到短语上下文信息,但也仅关注部分或稀疏的上下文信息,而没有显式地表示语言关系,如引用关系、短语对、上下文反馈。因此,现有方法很难处理语义复杂、定语复杂或多重依赖关系,从而导致对于场景中物体的错误检测、错误匹配等问题。
技术实现思路
本专利技术旨在提供一种克服上述问题或者至少部分地解决上述问题的基于短语关系传播的语义视觉定位方法及装置。为达到上述目的,本专利技术的技术方案具体是这样实现的:本专利技术的一个方面提供了一种基于短语关系传播的语义视觉定位方法,包括:获取图
【技术保护点】
1.一种基于短语关系传播的语义视觉定位方法,其特征在于,包括:/n获取图像信息,利用深度CNN处理所述图像信息,在多个深度提取所述图像信息的多尺度特征;/n获取每个特征的位置信息;/n将所述多尺度特征与每个特征的位置信息进行融合,得到图像空间特征;/n获取文字描述信息,利用句法解析工具,生成语法图,其中,所述语法图包括节点和边,所述节点包括物体节点和主语节点,每个节点对应所述文字描述信息中的词序列,所述边包括物体节点边集合和主语节点边集合,每条边对应主语及物体之间的关系;/n将每个词编码为词嵌入向量,每个节点的初始短语嵌入特征设置为短语中所有单词的嵌入特征平均值,学习短语特征;/n将所述短语特征与所述图像空间特征进行融合,得到多模态特征,并学习短语增强的特征图;/n将所述多模态特征每条边的主语节点、物体节点和介词或动词合并为序列,将每个词的嵌入向量输入到双向LSTM中,通过拼接前向和反向LSTM的隐向量得到语义特征;/n将所述主语节点的语义特征和所述主语节点的多模态特征,以及所述物体节点的语义特征和所述物体节点的多模态特征,输入到关系传播模块,得到关系增强的特征图;/n对每个节点进行节 ...
【技术特征摘要】
1.一种基于短语关系传播的语义视觉定位方法,其特征在于,包括:
获取图像信息,利用深度CNN处理所述图像信息,在多个深度提取所述图像信息的多尺度特征;
获取每个特征的位置信息;
将所述多尺度特征与每个特征的位置信息进行融合,得到图像空间特征;
获取文字描述信息,利用句法解析工具,生成语法图,其中,所述语法图包括节点和边,所述节点包括物体节点和主语节点,每个节点对应所述文字描述信息中的词序列,所述边包括物体节点边集合和主语节点边集合,每条边对应主语及物体之间的关系;
将每个词编码为词嵌入向量,每个节点的初始短语嵌入特征设置为短语中所有单词的嵌入特征平均值,学习短语特征;
将所述短语特征与所述图像空间特征进行融合,得到多模态特征,并学习短语增强的特征图;
将所述多模态特征每条边的主语节点、物体节点和介词或动词合并为序列,将每个词的嵌入向量输入到双向LSTM中,通过拼接前向和反向LSTM的隐向量得到语义特征;
将所述主语节点的语义特征和所述主语节点的多模态特征,以及所述物体节点的语义特征和所述物体节点的多模态特征,输入到关系传播模块,得到关系增强的特征图;
对每个节点进行节点合并,得到最终的关系增强特征图;
对于所述最终的关系增强的特征图的每个空间位置,在多个尺度的特征图上匹配3个锚点框,并选择具有最高置信度的检测框作为输出,输出预测结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述主语节点的语义特征和所述主语节点的多模态特征,以及所述物体节点的语义特征和所述物体节点的多模态特征,输入到关系传播模块,得到关系增强的特征图包括:
通过如下公式计算主语节点的关系增强特征:
Rsub=Conv(γ(M′sub+Tile(gobj))),
通过如下公式计算物体节点的关系增强特征:
Robj=Conv(γ(M′obj+Tile(gsub))),
其中,vsub为主语节点、Msub为主语节点的多模态特征图、Ssub为主语节点短语增强的特征图、vobj物体节点、Mobj为物体节点的多模态特征图和Sobj为物体节点的短语增强的特征图、h为边的语义特征;Linear代表多层全连接层,AvgPool代表全局平均池化,°代表元素乘法,Conv代表卷积层,γ代表ReLU激活函数。
3.根据权利要求1所述的方法,其特征在于,所述对每个节点进行节点合并,得到最终的关系增强特征图包括:
结合所述主语节点边集合和所述物体节点边集合中的边生成的关系增强特征图,与所述短语增强的特征图进行结合,进行多次迭代,得到最终的关系增强特征图。
4.根据权利要求1所述的方法,其特征在于,
所述获取每个特征的位置信息包括:
在每个位置计算其所在长宽比例和长宽的倒数,将所有值组织成与所述多尺度特征相同的维度,得到所述每个特征的位置信息;
所述将所述多尺度特征与每个特征的位置信息进行融合,得到图像特征包括:
对所述多尺度特征进行归一化,并与所述每个特征的位置信息进行拼接。
5.一种基于短语关系传播的语义视觉定位装置,其特征在于,包括:
图像特征提取模块,用于获取图像信息,利用深度...
【专利技术属性】
技术研发人员:俞益洲,史业民,杨思蓓,吴子丰,
申请(专利权)人:北京深睿博联科技有限责任公司,杭州深睿博联科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。