当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于多模态特征融合的视频深度关系分析方法技术

技术编号:26971578 阅读:33 留言:0更新日期:2021-01-06 00:02
一种基于多模态特征融合的视频深度关系分析方法,基于视频分幕和场景、人物识别的视觉、声音和文字特征融合网络,首先将输入视频根据场景、视觉和声音模型分为多个幕,并在每个幕上提取对应的声音和文字特征,然后根据输入的场景截图和人物截图识别出现在各幕中的位置,并对场景和人物提取对应的实体视觉特征,同时对每两个实体对计算联合区域的视觉特征;对于每个实体对,将幕特征、实体特征和实体对特征连接后通过小样本学习结合零样本学习预测每幕实体对间的关系,通过合并视频每幕上的实体关系,构建整个视频上的实体关系图。本发明专利技术利用实体关系图可以回答知识图填充、问题回答和实体关系路径三类深度视频分析问题。

【技术实现步骤摘要】
一种基于多模态特征融合的视频深度关系分析方法
本专利技术属于计算机视觉
,涉及视频中实体关系检测,具体为一种基于多模态特征融合的视频深度关系分析方法。
技术介绍
长视频上不同实体间的深度关系分析有助于长视频的深度理解,这往往需要根据已知信息推断隐藏的信息。长视频上的深度关系分析致力于构建场景和人物两类实体间的关系图。通过实体关系图,可以回答对视频深度分析的各种问题。类似的关于视频理解的工作包括视频归纳、行为识别、视觉关系检测和社交关系识别,但是这些工作一般适用于短视频,且缺少对不同实体间关系转变的深度分析,对于长视频分析,仍然存在以下问题:1)短视频内容相对较少,往往只有一个场景,人物不多,用于短视频分析的现有技术不能解决多个实体,包括人物、场景间的关系预测;2)对短视频的分析难以进行合并,对未同框实体间的关系无法预测。同时,现有技术的分析方法大多适用于有足够训练样本的情况,而长视频的深度关系分析任务则有部分关系不存在训练样本。因此现有的技术不能解决长视频上的深度关系分析。专利技术内容本专利本文档来自技高网...

【技术保护点】
1.一种基于多模态特征融合的视频深度关系分析方法,其特征是建立多模态特征融合网络,用于识别视频中的实体关系图,网络输入包括视频、场景截图及场景名称和人物截图及人物名称,输出为对应场景和人物间的关系图;所述多模态特征融合网络的实现为:首先将输入视频根据场景、视觉和声音模型分为多个片段,每个片段为一个幕,并在每个幕中提取声音和文字特征作为幕特征,然后根据给定的场景截图和人物截图识别它们出现在各幕中的位置,并对场景和人物提取对应的实体特征,同时对每两个实体计算实体对特征,对于每个实体对,将幕特征、实体特征和实体对特征连接后,通过小样本学习结合零样本学习预测每幕实体对间的关系,合并视频每幕上的实体对关...

【技术特征摘要】
1.一种基于多模态特征融合的视频深度关系分析方法,其特征是建立多模态特征融合网络,用于识别视频中的实体关系图,网络输入包括视频、场景截图及场景名称和人物截图及人物名称,输出为对应场景和人物间的关系图;所述多模态特征融合网络的实现为:首先将输入视频根据场景、视觉和声音模型分为多个片段,每个片段为一个幕,并在每个幕中提取声音和文字特征作为幕特征,然后根据给定的场景截图和人物截图识别它们出现在各幕中的位置,并对场景和人物提取对应的实体特征,同时对每两个实体计算实体对特征,对于每个实体对,将幕特征、实体特征和实体对特征连接后,通过小样本学习结合零样本学习预测每幕实体对间的关系,合并视频每幕上的实体对关系,得到整个视频中的实体关系图作为网络输出。


2.根据权利要求1所述的一种基于多模态特征融合的视频深度关系分析方法,其特征是多模态特征融合网络的实现包括以下步骤:
1)采用多模态幕分割方法将输入的视频分割为多个片段,每个片段为一个幕,一个幕对应一个场景;
2)根据给定的场景截图,在步骤1)分割出的每个幕中采用SURF特征匹配将场景截图与帧进行匹配,各个幕选取匹配点总数最高的场景为幕所对应的场景,场景的轨迹在时间上为整个片段,在空间上是片段中每个帧的画面区域;
3)根据给定的人物截图,在步骤1)分割出的每个幕中采用人体跟踪方法和人脸检测识别方法进行人物的识别和跟踪,并且通过SURF特征匹配将人物截图与帧进行匹配作为人脸识别的补充,得到人物实体包围框及其在幕中的轨迹;
4)在步骤1)分割出的每个幕中对音频提取梅尔频率倒谱系数MFCC和对数梅尔能量LMFE特征,并计算MFCC特征和LMFE特征的一阶差分和二阶差分,得到每个幕的声音特征;
5)对输入视频自动生成字幕,并根据时间轴对应到步骤1)分割出的每个幕上,采用BERT网络生成幕的文字特征;
6)根据步骤2)和步骤3)中的场景轨迹和人物实体包围框轨迹通过预训练的C3D网络计算实体的视觉特征,得到实体特征,并根据每两个实体的联合包围框轨迹同样计算实体对的视觉特征,得到实体对特征;
7)对每个实体对,将与实体对相关的幕的声音特征、文字特征、实体的视觉特征和实体对的视觉特征连接起来并转换到语义空间,结合由BERT模型对关系谓语生成的语义特征,通过小样本学习结合零样本学习的方式预测幕上该实体对的关系;
8)根据步骤7)预测的每幕上每个实体对间的关系,...

【专利技术属性】
技术研发人员:任桐炜武港山于凡王丹丹张贝贝
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1