【技术实现步骤摘要】
深度视频理解方法、装置、设备及可读存储介质
[0001]本申请涉及视频理解
,特别涉及一种深度视频理解方法、装置、设备及可读存储介质。
技术介绍
[0002]视频理解是给定一段视频后能够自动识别视频中的地点、人物身份、交互以及关系等属性的技术。其中,深度视频理解算法的发展有利于许多领域的发展,如为视障人群生成电影的音频描述、视频的智能快进以及相关人物的情节聚类等。
[0003]由于影视作品的深度视频理解是一个综合性的问题,因此需要对以人物为中心的关系和互动进行预测。不过,影视作品关系中人物的动作往往存在很多重合的部分,比如一起吃饭、谈话、运动的两个人,可能是朋友,也可能是父母子女,还有可能是配偶,而相关技术中往往仅凭视觉特征来对人物之间的关系、交互等进行预测,以致预测得到的结果准确性较低。
技术实现思路
[0004]本申请提供一种深度视频理解方法、装置、设备及可读存储介质,以解决相关技术中仅通过视觉特征进行关系、交互等的预测而导致的预测结果准确性低的问题。
[0005]第一方面,提供了一 ...
【技术保护点】
【技术特征摘要】
1.一种深度视频理解方法,其特征在于,包括以下步骤:获取待理解视频中每个切片对应的文本特征;对每个切片进行特征提取,得到每个切片对应的切片整体特征;对每个切片中的人物进行人脸检测与追踪,生成追踪序列视频,并对追踪序列视频进行特征提取,得到人物追踪视频特征;基于残差网络和切片整体特征确定每个切片对应的地点类型;基于人物追踪视频特征和地点类型对每个切片中的人物和地点进行随机组合,得到每个切片对应的目标特征,所述目标特征包括人物
‑
人物对特征和人物
‑
地点对特征;将每个切片对应的文本特征、切片整体特征以及目标特征进行拼接,得到每个切片对应的多模态特征;根据所述多模态特征对待理解视频中的人物与人物和/或人物与地点之间的交互及关系进行预测,得到预测结果。2.如权利要求1所述的深度视频理解方法,其特征在于,所述切片与待理解视频中的各个场景之间具有映射关系,所述根据所述多模态特征对待理解视频中的人物与人物和/或人物与地点之间的交互及关系进行预测,得到预测结果,包括:根据所述映射关系将目标切片所在的目标场景中的所有切片的多模态特征进行平均池化处理,得到目标场景拼接特征;基于所述目标场景拼接特征对目标场景中的人物与人物和/或人物与地点之间的关系进行预测,得到关系预测结果;根据目标切片对应的目标多模态特征和所述目标场景拼接特征对目标切片中的人物与人物和/或人物与地点之间的交互进行预测,得到交互预测结果。3.如权利要求2所述的深度视频理解方法,其特征在于,所述基于所述目标场景拼接特征对目标场景中的人物与人物和/或人物与地点之间的关系进行预测,得到关系预测结果,包括:将目标场景拼接特征代入第一计算公式,得到目标场景中的人物与人物或人物与地点之间的关系得分;将最高的关系得分对应的目标关系作为目标场景的关系预测结果;所述第一计算公式为:式中,s
R
(V,r)表示人物
‑
人物对p或人物
‑
地点对p在目标场景下对于关系r的关系得分,V表示目标场景对应的切片集,Φ
R
表示目标场景拼接特征,与均表示网络参数,σ
r
表示激活函数。4.如权利要求2所述的深度视频理解方法,其特征在于,所述根据目标切片对应的目标多模态特征和所述目标场景拼接特征对目标切片中的人物与人物和/或人物与地点之间的交互进行预测,得到交互预测结果,包括:将目标切片对应的目标多模态特征和目标场景拼接特征代入第二计算公式,得到目标切片中的人物与人物或人物与地点之间的交互得分;将最高的交互得分对应的交互关系作为目标切片的交互预测结果;
所述第二计算公式为:式中,s
I
(v,V,a)表示人物
‑
人物对p或人物
‑
地点对p在目标切片v上对于互动a的互动得分,Φ
【专利技术属性】
技术研发人员:梁超,郭佳昊,鲁安康,赵匡益,孙莺菲,李睿哲,
申请(专利权)人:武汉大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。