【技术实现步骤摘要】
一种面向知识的指代表达理解方法、装置及存储介质
[0001]本专利技术涉及多模态
、
自然语言处理与计算机视觉
,尤其涉及一种面向知识的指代表达理解方法
、
装置及存储介质
。
技术介绍
[0002]指代表达理解是一种通过理解指代表达句子的意图,在图像中定位到所指代的视觉物体的技术
。
其中,指代表达句子采用人类自然语言的形式,因此该技术属于自然语言处理的范畴;同时,视觉物体以图像的形式存在,因此该技术还属于计算机视觉的范畴
。
指代表达理解是语言
‑
视觉这种多模态场景的基础技术,具有广泛的应用场景,可辅助于机器人操作
、
视觉智能问答
、
视觉语言导航等下游应用
。
[0003]面向知识的指代表达理解技术将传统指代表达理解技术扩展至知识领域
。
该技术通过理解指代表达句子中蕴含的知识,从而在图像中定位到所指代的视觉物体
。
其与传统指代表达理解技术的重要区别为,指代表达句子中提及视觉物体相关的功能属性等外部知识
。
这需要面向知识的指代表达理解技术能够检索相关知识并推理得到最终的指代对象
。
[0004]然而,现有的面向知识的指代表达理解技术在知识检索时,易受到指代表达句子中与知识无关的信息的干扰,从而导致检索得到与指代对象无关的知识;在推理知识进行物体定位时,易受到知识中无关信息的干扰,从而导致定位到错误的视
【技术保护点】
【技术特征摘要】
1.
一种面向知识的指代表达理解方法,其特征在于,包括以下步骤:构建面向知识的指代表达理解数据集;所述数据集中的每个样本由一张图像
、
一个涉及物体知识的指代表达句子
、
一组正确指代对象的边界框坐标与一个正确的知识相关的句子片段构成;将每个样本的指代表达句子输入到文本编码器中,输出对应的句子文本特征;将每个样本的图像输入到视觉编码器中,输出对应的图像视觉特征;计算图像视觉特征与句子文本特征的相关性,输出句子中每个单词的视觉相关得分;将视觉相关得分小于或等于第一预设阈值的单词拼接为知识相关的句子片段,将视觉相关得分大于第一预设阈值的单词拼接为视觉相关的句子片段;将知识相关的句子片段输入到知识检索模型,输出该知识相关的句子片段所描述的物体的类别名称;将该物体类别名称输入到文本编码器中,输出对应的物体类别名称文本特征;将视觉相关的句子片段与物体类别名称文本特征实施融合操作,将融合后的特征输入到视觉物体定位模型中,输出预测的指代对象的边界框坐标
。2.
根据权利要求1所述的一种面向知识的指代表达理解方法,其特征在于,所述文本编码器包括
RNN、RNN
的变体或者
BERT
系列;所述视觉编码器包括
ResNet
系列
、DarkNet
系列或者
DETR
系列;所述知识检索模型包括
RNN、RNN
的变体或者
BERT
系列;所述视觉物体定位模型包括
VLTVG、VLTVG
的变体
、Transformer
或者
Transformer
的变体
。3.
根据权利要求1所述的一种面向知识的指代表达理解方法,其特征在于,所述计算图像视觉特征与句子文本特征的相关性的步骤中,针对的计算对象包括全局图像视觉特征
、
局部图像视觉特征,以及全局句子文本特征
、
局部句子文本特征;其中,局部图像视觉特征包括图像中的区域
、
物体边界框的视觉特征,局部句子文本特征包括句子中的子句
、
单词的文本特征;采用的计算方式为欧式距离
、
余弦距离
、Jaccard
距离
、
矩阵乘法
、
矩阵乘法的变体
、
注意力机制或者注意力机制的变体中的任意一种;所述输出句子中每个单词的视觉相关得分,包括:获取相关性结果中的
softmax、
最大值
、
平均值
、
三分位数,作为句子中每个单词的视觉相关得分
。4.
根据权利要求1所述的一种面向知识的指代表达理解方法,其特征在于,所述计算图像视觉特征与句子文本特征的相关性,输出句子中每个单词的视觉相关得分,包括:迭代
T
轮将文本特征向量
x
分解为多个子句,得到子句文本特征向量
x
sub(T)
,具体表示为:
x
sub(T)
=
s
sub(T)
·
x,s
sub(T)
=
Conv(v
sub(T
‑
1)
·
x
·
s
sub(T
‑
1)
)
式中,
s
sub(T
‑
1)
是一个计算子句位置的得分向量,
Conv()
为卷积操作,第
T
轮的子句视觉特征向量为
v
sub(T)
,具体表示为:
v
sub(T)
=
ReLU(v
sub(T
‑
1)
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。