当前位置: 首页 > 专利查询>江苏大学专利>正文

基于多模态异构图注意力网络的深度视频理解知识图谱构建方法技术

技术编号:32663827 阅读:13 留言:0更新日期:2022-03-17 11:15
本发明专利技术提供了一种基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,将音频片段、每段音频对应的文本以及人物和物品送入人物/位置重识别系统,提取对齐后的人物、音频、文本、关键帧以及物品的特征;将提取的特征送入多模态异构图注意力网络,预测人物与人物以及人物与位置之间的关系,根据预测的关系生成知识图谱。本发明专利技术利用多模态异构图注意力网络预测人物与人物、人物与位置之间的关系,能显著提高预测关系的准确率。显著提高预测关系的准确率。显著提高预测关系的准确率。

【技术实现步骤摘要】
基于多模态异构图注意力网络的深度视频理解知识图谱构建方法


[0001]本专利技术属于视频语义理解
,具体涉及一种基于多模态异构图注意力网络的深度视频理解知识图谱构建方法。

技术介绍

[0002]随着网络、计算机以及摄影设备的普及与发展,视频在互联网中占有越来越大的比重,观看视频是人们娱乐的重要方式之一;然而视频的复杂性也限制其进一步的应用。视频语义理解,其目标是从视频中获取描述视频内容的容量小、易于理解的信息,如标签、视频标题、视频字幕和知识图谱等,从而增强人类、机器理解视频内容的能力,在人机交互、视频检索、推荐系统以及智慧公安等领域有着广泛的应用。
[0003]2015年,首个基于深度学习的视频描述模型LRCN被提出。2016年,微软公布大规模视频描述数据集MSR

VTT,为视频描述任务提供了很好的语料库;但使用自然语言描述视频存在诸多弊端,如:注释是特定于语言,很难定量测试性能,并且很难在后续的自动数据处理中使用。2018年,MovieGraphs中使用知识图谱描述视频语义;但其使用短的视频片段,不能理解不同角色之间的关系,也不能深入理解视频上下文。2020年至今,从长视频中抽取知识图谱(深度视频语义理解,DVU)的任务被提出;但目前的方法无法充分利用多模态的数据,也未利用关系间潜在的联系。

技术实现思路

[0004]针对现有技术中存在不足,本专利技术提供了一种基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,提高预测视频中人物与人物、人物与位置之间关系的准确率。
[0005]本专利技术是通过以下技术手段实现上述技术目的的。
[0006]基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,具体为:
[0007]音频片段、每段音频对应的文本以及人物和物品送入人物/位置重识别系统,将音频、文本、人物、关键帧根据基本事实进行对齐,提取对齐后的人物、音频、文本、关键帧以及物品的特征;
[0008]将提取的特征送入多模态异构图注意力网络,预测人物与人物以及人物与位置之间的关系,根据预测的关系生成知识图谱;
[0009]所述预测人物与人物以及人物与位置之间的关系,具体为:
[0010]若两个人物同时出现在一个关键帧中,生成关系对T=T
α
∪T
β
,其中T
α
表示人物

人物之间的关系,T
β
表示人物

位置之间的关系;
[0011]若两个人物没有同时出现在一个关键帧中,而人物所在背景中存在同类物品,对话涉及相同实体和主题,则认为人物

人物、人物

位置之间存在联系,生成异构图G={V,E},其中:V是节点集合,包括关系对、物品、实体和主题节点,E是边集合,若关系涉及到相同
的物品、主题或实体,则在关系对T

关系对T、关系对T

物品、关系对T

主题、关系对T

实体之间建立一条边;
[0012]所述异构图G按照特征传播规则进行特征传播,得到关系的特征,利用预测人物与人物、人物与位置之间的关系;
[0013]其中:B
s
表示关注矩阵,其第v行第v

列的元素为δ
vv

s
;H
(l)
表示第l层所有关系对T节点的特征,表示第l层属于语义s的节点的特征,是可训练的参数,σ是激活函数,s
r,k
是H中一个节点的特征,表示第k个场景中第r个关系对经多模态异构图注意力网络处理后的特征,p
r,k
表示预测得分,R表示关系的种类。
[0014]进一步的技术方案,所述关系对T所在视频片段的特征中包含多个物品,文本中有多条语句,使用模态内注意力机制挖掘不同物品和语句对关系对判断的贡献度,所述模态内注意力机制的计算方法为:
[0015][0016][0017][0018]其中:F
i
表示一个物品或一条语句的特征,c
a
、W
a
、b
a
是可训练的参数,tanh是激活函数,e
i
是F
i
的权重,N是物品或语句的数目,α
i
是标准化的权重,F
m
是物品或文本的整体特征。
[0019]进一步的技术方案,所述关系对T所在视频片段的特征由多种模态的特征组成,利用模态级注意力机制挖掘人物、物品、文本、关键帧、音频特征对关系对判断的贡献度,所述模态级注意力机制的计算方法为:
[0020][0021][0022][0023]其中:F
m
表示一种的特征,包括人物特征、关键帧特征、文本特征、音频特征和物品特征;c
b
、W
b
、b
b
是可训练的参数;tanh是激活函数;e
m
是F
m
的权重;M是特征的种类数;β
m
是标准化的权重;F
v
是一个关系对T的整体特征。
[0024]进一步的技术方案,使用语义级注意力机制对关系对T

实体、关系对T

物品、关系对T

主题赋予相应的权重,其中语义级注意力机制的计算方法为:
[0025][0026][0027][0028]其中:v是一个关系节点,v

是v的邻居节点集合N
v
中的一个元素,A

是对称规范化的邻接矩阵,F
v

是节点v

的特征,F
s
表示N
v
中节点特征之和,F
v
是节点v的特征,| |表示连接操作,σ是激活函数,μ
s
是可训练的参数,e
s
表示语义s的权重,γ
s
表示标准化的权重S表示不同的语义,包括物品、实体和主题三种不同的语义。
[0029]进一步的技术方案,使用节点注意力机制捕获不同邻居节点的重要性,并降低噪声节点的权重,节点级注意力机制的计算方法为:
[0030][0031][0032]其中:σ是激活函数,μ
n
是可训练的参数,e
vv

s
表示节点v

对v的权重,N1表示节点v的邻居节点数目,δ
vv

s
表示标准化的权重。
[0033]进一步的技术方案,所述多模态异构图注意力网络的损失函数为:
[0034][0035]其中:p
r,k
表示预测得分,R表示关系的种类,K表示视频片段的数量,y
k
表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于:音频片段、每段音频对应的文本以及人物和物品送入人物/位置重识别系统,将音频、文本、人物、关键帧根据基本事实进行对齐,提取对齐后的人物、音频、文本、关键帧以及物品的特征;将提取的特征送入多模态异构图注意力网络,预测人物与人物以及人物与位置之间的关系,根据预测的关系生成知识图谱;所述预测人物与人物以及人物与位置之间的关系,具体为:若两个人物同时出现在一个关键帧中,生成关系对T=T
α
∪T
β
,其中T
α
表示人物

人物之间的关系,T
β
表示人物

位置之间的关系;若两个人物没有同时出现在一个关键帧中,而人物所在背景中存在同类物品,对话涉及相同实体和主题,则认为人物

人物、人物

位置之间存在联系,生成异构图G={V,E},其中:V是节点集合,包括关系对T、物品、实体和主题节点,E是边集合,若关系涉及到相同物品、主题或实体,则在关系对T

关系对T、关系对T

物品、关系对T

主题、关系对T

实体之间建立一条边;所述异构图G按照特征传播规则进行特征传播,得到关系的特征,利用预测人物与人物、人物与位置之间的关系;其中:B
s
表示关注矩阵,其第v行第v

列的元素为δ
vv

s
;H
(l)
表示第1层所有关系对T节点的特征,表示第1层属于语义s的节点的特征,W
s(l)
是可训练的参数,σ是激活函数,s
r,k
是H中一个节点的特征,表示第k个场景中第r个关系对经多模态异构图注意力网络处理后的特征,p
r,k
表示预测得分,R表示关系的种类。2.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述关系对T所在视频片段的特征中包含多个物品,文本中有多条语句,使用模态内注意力机制挖掘不同物品和语句对关系对判断的贡献度,所述模态内注意力机制的计算方法为:制的计算方法为:制的计算方法为:其中:F
i
表示一个物品或一条语句的特征,c
a
、W
a
、b
a
是可训练的参数,tanh是激活函数,e
i
是F
i
的权重,N是物品或语句的数目,α
i
是标准化的权重,F
m
是物品或文本的整体特征。3.根据权利要求2所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述关系对T所在视频片段的特征由多种模态的特征组成,利用模态级注意力机制挖掘人物、物品、文本、关键帧、音频特征对关系对判断的贡献度,所述模态级注意力机制的计算方法为:
其中:F
m
表示一种的特征,包括人物特征、关键帧特征、文本特征、音频特征和物品特征;c
b
、W
b
、b
b
...

【专利技术属性】
技术研发人员:董文龙毛启容姚庆
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1