一种面向知识的指代表达理解方法技术

技术编号:39658767 阅读:14 留言:0更新日期:2023-12-09 11:27
本发明专利技术公开了一种面向知识的指代表达理解方法

【技术实现步骤摘要】
一种面向知识的指代表达理解方法、装置及存储介质


[0001]本专利技术涉及多模态

自然语言处理与计算机视觉
,尤其涉及一种面向知识的指代表达理解方法

装置及存储介质


技术介绍

[0002]指代表达理解是一种通过理解指代表达句子的意图,在图像中定位到所指代的视觉物体的技术

其中,指代表达句子采用人类自然语言的形式,因此该技术属于自然语言处理的范畴;同时,视觉物体以图像的形式存在,因此该技术还属于计算机视觉的范畴

指代表达理解是语言

视觉这种多模态场景的基础技术,具有广泛的应用场景,可辅助于机器人操作

视觉智能问答

视觉语言导航等下游应用

[0003]面向知识的指代表达理解技术将传统指代表达理解技术扩展至知识领域

该技术通过理解指代表达句子中蕴含的知识,从而在图像中定位到所指代的视觉物体

其与传统指代表达理解技术的重要区别为,指代表达句子中提及视觉物体相关的功能属性等外部知识

这需要面向知识的指代表达理解技术能够检索相关知识并推理得到最终的指代对象

[0004]然而,现有的面向知识的指代表达理解技术在知识检索时,易受到指代表达句子中与知识无关的信息的干扰,从而导致检索得到与指代对象无关的知识;在推理知识进行物体定位时,易受到知识中无关信息的干扰,从而导致定位到错误的视觉物体


技术实现思路

[0005]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种面向知识的指代表达理解方法

装置及存储介质

[0006]本专利技术所采用的技术方案是:
[0007]一种面向知识的指代表达理解方法,包括以下步骤:
[0008]构建面向知识的指代表达理解数据集;所述数据集中的每个样本由一张图像

一个涉及物体知识的指代表达句子

一组正确指代对象的边界框坐标与一个正确的知识相关的句子片段构成;
[0009]将每个样本的指代表达句子输入到文本编码器中,输出对应的句子文本特征;将每个样本的图像输入到视觉编码器中,输出对应的图像视觉特征;
[0010]计算图像视觉特征与句子文本特征的相关性,输出句子中每个单词的视觉相关得分;将视觉相关得分小于或等于第一预设阈值的单词拼接为知识相关的句子片段,将视觉相关得分大于第一预设阈值的单词拼接为视觉相关的句子片段;
[0011]将知识相关的句子片段输入到知识检索模型,输出该知识相关的句子片段所描述的物体的类别名称;将该物体类别名称输入到文本编码器中,输出对应的物体类别名称文本特征;
[0012]将视觉相关的句子片段与物体类别名称文本特征实施融合操作,将融合后的特征输入到视觉物体定位模型中,输出预测的指代对象的边界框坐标

[0013]进一步地,所述文本编码器包括
RNN、RNN
的变体或者
BERT
系列;
[0014]所述视觉编码器包括
ResNet
系列
、DarkNet
系列或者
DETR
系列;
[0015]所述知识检索模型包括
RNN、RNN
的变体或者
BERT
系列;
[0016]所述视觉物体定位模型包括
VLTVG、VLTVG
的变体
、Transformer
或者
Transformer
的变体

[0017]进一步地,所述计算图像视觉特征与句子文本特征的相关性的步骤中,针对的计算对象包括全局图像视觉特征

局部图像视觉特征,以及全局句子文本特征

局部句子文本特征;其中,局部图像视觉特征包括图像中的区域

物体边界框的视觉特征,局部句子文本特征包括句子中的子句

单词的文本特征;
[0018]采用的计算方式为欧式距离

余弦距离
、Jaccard
距离

矩阵乘法

矩阵乘法的变体

注意力机制或者注意力机制的变体中的任意一种;
[0019]所述输出句子中每个单词的视觉相关得分,包括:
[0020]获取相关性结果中的
softmax、
最大值

平均值

三分位数,作为句子中每个单词的视觉相关得分

[0021]进一步地,所述计算图像视觉特征与句子文本特征的相关性,输出句子中每个单词的视觉相关得分,包括:
[0022]迭代
T
轮将文本特征向量
x
分解为多个子句,得到子句文本特征向量
x
sub(T)
,具体表示为:
[0023]x
sub(T)

s
sub(T)
·
x

[0024]s
sub(T)

Conv(v
sub(T

1)
·
x
·
s
sub(T

1)
)
[0025]式中,
s
sub(T

1)
是一个计算子句位置的得分向量,
Conv()
为卷积操作,第
T
轮的子句视觉特征向量为
v
sub(T)
,具体表示为:
[0026]v
sub(T)

ReLU(v
sub(T

1)
·
Linear(x
sub(T)
)+Linear(x
sub(T)
))
[0027]式中,
ReLU()
为激活函数,
Linear()
为线性函数;
[0028]将
T
轮得到的子句文本特征向量和子句视觉特征向量合并,得到视觉特征向量
v
与文本特征向量
x
的相关性
x

sub
,具体表示为:
[0029][0030]将相关性
x

sub
映射到句子中每个单词的视觉相关得分
x
vi
,具体表示为:
[0031]x
vi

Softmax(Linear(x

sub
))
·
x+x。...

【技术保护点】

【技术特征摘要】
1.
一种面向知识的指代表达理解方法,其特征在于,包括以下步骤:构建面向知识的指代表达理解数据集;所述数据集中的每个样本由一张图像

一个涉及物体知识的指代表达句子

一组正确指代对象的边界框坐标与一个正确的知识相关的句子片段构成;将每个样本的指代表达句子输入到文本编码器中,输出对应的句子文本特征;将每个样本的图像输入到视觉编码器中,输出对应的图像视觉特征;计算图像视觉特征与句子文本特征的相关性,输出句子中每个单词的视觉相关得分;将视觉相关得分小于或等于第一预设阈值的单词拼接为知识相关的句子片段,将视觉相关得分大于第一预设阈值的单词拼接为视觉相关的句子片段;将知识相关的句子片段输入到知识检索模型,输出该知识相关的句子片段所描述的物体的类别名称;将该物体类别名称输入到文本编码器中,输出对应的物体类别名称文本特征;将视觉相关的句子片段与物体类别名称文本特征实施融合操作,将融合后的特征输入到视觉物体定位模型中,输出预测的指代对象的边界框坐标
。2.
根据权利要求1所述的一种面向知识的指代表达理解方法,其特征在于,所述文本编码器包括
RNN、RNN
的变体或者
BERT
系列;所述视觉编码器包括
ResNet
系列
、DarkNet
系列或者
DETR
系列;所述知识检索模型包括
RNN、RNN
的变体或者
BERT
系列;所述视觉物体定位模型包括
VLTVG、VLTVG
的变体
、Transformer
或者
Transformer
的变体
。3.
根据权利要求1所述的一种面向知识的指代表达理解方法,其特征在于,所述计算图像视觉特征与句子文本特征的相关性的步骤中,针对的计算对象包括全局图像视觉特征

局部图像视觉特征,以及全局句子文本特征

局部句子文本特征;其中,局部图像视觉特征包括图像中的区域

物体边界框的视觉特征,局部句子文本特征包括句子中的子句

单词的文本特征;采用的计算方式为欧式距离

余弦距离
、Jaccard
距离

矩阵乘法

矩阵乘法的变体

注意力机制或者注意力机制的变体中的任意一种;所述输出句子中每个单词的视觉相关得分,包括:获取相关性结果中的
softmax、
最大值

平均值

三分位数,作为句子中每个单词的视觉相关得分
。4.
根据权利要求1所述的一种面向知识的指代表达理解方法,其特征在于,所述计算图像视觉特征与句子文本特征的相关性,输出句子中每个单词的视觉相关得分,包括:迭代
T
轮将文本特征向量
x
分解为多个子句,得到子句文本特征向量
x
sub(T)
,具体表示为:
x
sub(T)

s
sub(T)
·
x,s
sub(T)

Conv(v
sub(T

1)
·
x
·
s
sub(T

1)
)
式中,
s
sub(T

1)
是一个计算子句位置的得分向量,
Conv()
为卷积操作,第
T
轮的子句视觉特征向量为
v
sub(T)
,具体表示为:
v
sub(T)

ReLU(v
sub(T

1)
...

【专利技术属性】
技术研发人员:蔡毅卜羽琦
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1