【技术实现步骤摘要】
基于多模态异构图注意力网络的深度视频理解知识图谱构建方法
[0001]本专利技术属于视频语义理解
,具体涉及一种基于多模态异构图注意力网络的深度视频理解知识图谱构建方法。
技术介绍
[0002]随着网络、计算机以及摄影设备的普及与发展,视频在互联网中占有越来越大的比重,观看视频是人们娱乐的重要方式之一;然而视频的复杂性也限制其进一步的应用。视频语义理解,其目标是从视频中获取描述视频内容的容量小、易于理解的信息,如标签、视频标题、视频字幕和知识图谱等,从而增强人类、机器理解视频内容的能力,在人机交互、视频检索、推荐系统以及智慧公安等领域有着广泛的应用。
[0003]2015年,首个基于深度学习的视频描述模型LRCN被提出。2016年,微软公布大规模视频描述数据集MSR
‑
VTT,为视频描述任务提供了很好的语料库;但使用自然语言描述视频存在诸多弊端,如:注释是特定于语言,很难定量测试性能,并且很难在后续的自动数据处理中使用。2018年,MovieGraphs中使用知识图谱描述视频语义;但其使用短的视频片段,不能理解不同角色之间的关系,也不能深入理解视频上下文。2020年至今,从长视频中抽取知识图谱(深度视频语义理解,DVU)的任务被提出;但目前的方法无法充分利用多模态的数据,也未利用关系间潜在的联系。
技术实现思路
[0004]针对现有技术中存在不足,本专利技术提供了一种基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,提高预测视频中人物与人物、人物与位置之间关系的 ...
【技术保护点】
【技术特征摘要】
1.基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于:音频片段、每段音频对应的文本以及人物和物品送入人物/位置重识别系统,将音频、文本、人物、关键帧根据基本事实进行对齐,提取对齐后的人物、音频、文本、关键帧以及物品的特征;将提取的特征送入多模态异构图注意力网络,预测人物与人物以及人物与位置之间的关系,根据预测的关系生成知识图谱;所述预测人物与人物以及人物与位置之间的关系,具体为:若两个人物同时出现在一个关键帧中,生成关系对T=T
α
∪T
β
,其中T
α
表示人物
‑
人物之间的关系,T
β
表示人物
‑
位置之间的关系;若两个人物没有同时出现在一个关键帧中,而人物所在背景中存在同类物品,对话涉及相同实体和主题,则认为人物
‑
人物、人物
‑
位置之间存在联系,生成异构图G={V,E},其中:V是节点集合,包括关系对T、物品、实体和主题节点,E是边集合,若关系涉及到相同物品、主题或实体,则在关系对T
‑
关系对T、关系对T
‑
物品、关系对T
‑
主题、关系对T
‑
实体之间建立一条边;所述异构图G按照特征传播规则进行特征传播,得到关系的特征,利用预测人物与人物、人物与位置之间的关系;其中:B
s
表示关注矩阵,其第v行第v
′
列的元素为δ
vv
′
s
;H
(l)
表示第1层所有关系对T节点的特征,表示第1层属于语义s的节点的特征,W
s(l)
是可训练的参数,σ是激活函数,s
r,k
是H中一个节点的特征,表示第k个场景中第r个关系对经多模态异构图注意力网络处理后的特征,p
r,k
表示预测得分,R表示关系的种类。2.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述关系对T所在视频片段的特征中包含多个物品,文本中有多条语句,使用模态内注意力机制挖掘不同物品和语句对关系对判断的贡献度,所述模态内注意力机制的计算方法为:制的计算方法为:制的计算方法为:其中:F
i
表示一个物品或一条语句的特征,c
a
、W
a
、b
a
是可训练的参数,tanh是激活函数,e
i
是F
i
的权重,N是物品或语句的数目,α
i
是标准化的权重,F
m
是物品或文本的整体特征。3.根据权利要求2所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述关系对T所在视频片段的特征由多种模态的特征组成,利用模态级注意力机制挖掘人物、物品、文本、关键帧、音频特征对关系对判断的贡献度,所述模态级注意力机制的计算方法为:
其中:F
m
表示一种的特征,包括人物特征、关键帧特征、文本特征、音频特征和物品特征;c
b
、W
b
、b
b
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。