基于知识蒸馏的视频多线索社交关系抽取方法及装置制造方法及图纸

技术编号:34768757 阅读:21 留言:0更新日期:2022-08-31 19:25
本发明专利技术提出一种基于知识蒸馏的视频多线索社交关系抽取方法及装置,其中方法包括,获取待训练无约束场景视频的视频帧序列;将视频帧序列通过预先训练好的教师模型进行预处理,提取软目标;将视频帧序列输入到学生模型中,获取场景特征和语义特征,同时通过余弦损失函数进行同步训练以拉近场景特征和语义特征与软目标的距离;其中,所述学生模型包括场景识别模型和语义分析模型;将场景特征和语义特征通过多层注意力网络以及卷积层和池化层进行特征提取并进行融合,将融合后的特征、场景特征、语义特征进行分段并作为三类节点进行构图;将构图后的节点特征通过图卷积网络作聚合,并经过分类器作分类,生成视频多线索社交关系提取框架。关系提取框架。关系提取框架。

【技术实现步骤摘要】
基于知识蒸馏的视频多线索社交关系抽取方法及装置


[0001]本专利技术属于计算机应用领域。

技术介绍

[0002]随着网络社交平台和多媒体技术的蓬勃发展,丰富的视频内容吸引了大量用户观看,视频也在逐渐成为人们记录生活、传播生活的主流模式,交互类型的视频数据数量因此大规模增长。当今时代,以视频为代表的动态多媒体已经占据了互联网流量的主导地位。视频语义分析和内容理解在实际应用中需求迫切,因而逐渐成为计算机应用领域的一个研究热点。视频数据提供了更丰富的时间序列以及多模态线索。与静态图片相比,多媒体数据在形式上多源异构,语义上相互关联,对人工智能、深度学习算法带来了新的挑战。如何抽取视频人物关系和理解视频内容,已经成为推动社会智能化发展的一个方向,也是研究者们关注的热点之一。
[0003]作为多媒体内容理解中的一个关键问题,视频中的人物社交关系提取任务对于进一步的人物关系分析,如人物行为和情感分析等至关重要。它在公共安全监控、视频内容理解、社会网络分析和视觉质量保证等领域具有巨大的社会和商业价值。因此,如何高效抽取视频中的社交关系是一个十分关键的问题。
[0004]我们人类可以比较容易地通过一些综合线索来识别人物或推断他们之间的社交关系,例如他们的外貌、互动、对话、服装风格和背景,但对于人工智能来说,通过学习视频的众多线索来自动捕捉人物的社交关系仍然是一项具有挑战性的任务。为了解决这个艰巨的任务,人们在关系提取方面做了大量工作,其动机各不相同。大多数的工作关注视频的时空特征,通过对特征的融合关注到不同的视频语义信息,关系抽取的效果依赖于特征的优劣。还有一些工作通过构图建模人物之间的联系,但是大多只关注到单层次的视觉线索,并且处理过程及整体模型十分复杂,对于应用来说并不友好。
[0005]此外,目前的工作主要集中在提取整个视频片段的社交关系。例如,一些工作旨在标记视频片段中的一般关系,将一个片段中许多人物的关系视为相同。在这种情况下,视频中多个人物之间不同的关系或随时间变化的复杂关系可能被忽略。与社交关系最相关的视频语义信息,通常需要借助人工标注的相关信息和大规模模型才能获得最好的效果,然而,大多数视频可能存在频繁变化的人物和场景以及复杂的关系描述形式,对于人工预处理和计算资源是一个极其沉重的负担。因此,迫切需要在无约束场景的视频数据下更加通用并简单的解决方案,以提供更丰富的语义线索来增强视觉信息,从而更好地实现现实世界的应用。

技术实现思路

[0006]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0007]为此,本专利技术的第一个目的在于提出一种基于知识蒸馏的视频多线索社交关系抽取方法,用于在无约束场景的视频数据下提供更丰富的语义线索来增强视觉信息。
[0008]本专利技术的第二个目的在于提出一种基于知识蒸馏的视频多线索社交关系抽取装置。
[0009]为达上述目的,本专利技术第一方面实施例提出了一种基于知识蒸馏的视频多线索社交关系抽取方法,包括:
[0010]获取待训练无约束场景视频的视频帧序列;
[0011]将所述视频帧序列通过预先训练好的教师模型进行预处理,提取软目标;
[0012]将所述视频帧序列输入到学生模型中,获取场景特征和语义特征,同时通过余弦损失函数进行同步训练以拉近所述场景特征和语义特征与所述软目标的距离;其中,所述学生模型包括场景识别模型和语义分析模型;
[0013]将所述场景特征和语义特征通过多层注意力网络以及卷积层和池化层进行特征提取并进行融合,将融合后的特征、所述场景特征、所述语义特征进行分段并作为三类节点进行构图;
[0014]将构图后的节点特征通过图卷积网络作聚合,并经过分类器作分类,生成视频多线索社交关系提取框架。
[0015]另外,根据本专利技术上述实施例的基于知识蒸馏的视频多线索社交关系抽取方法还可以具有以下附加的技术特征:
[0016]进一步地,在本专利技术的一个实施例中,在生成视频多线索社交关系提取框架后,还包括:
[0017]获取待分析无约束场景视频的视频帧序列;
[0018]将所述待分析无约束场景视频的视频帧序列输入所述待分析视频多线索社交关系提取框架;
[0019]基于视频多线索社交关系提取框架提取所述无约束场景视频中的社交关系。
[0020]进一步地,在本专利技术的一个实施例中,所述通过余弦损失函数进行同步训练以拉近所述场景特征和语义特征与所述软目标的距离,包括:
[0021]通过池化将所述场景特征和语义特征与教师模型输出的所述软目标映射到同一个特征空间,再使用所述余弦损失函数拉近所述软目标与所述场景特征和语义特征的距离。
[0022]进一步地,在本专利技术的一个实施例中,所述将融合后的特征、所述场景特征、所述语义特征进行分段并作为三类节点进行构图,包括:
[0023]将所述场景特征和语义特征通过多层注意力网络以及卷积层和池化层提取出调整自身权重的特征并经过映射,得到对应整个所述视频帧的特征序列,选取特征的前半部分,中间半部分和后半部分分别作为三个节点,然后将所述融合后的特征、所述语义特征和所述场景特征作为三类节点,所述融合后的特征节点与所述语义特征节点和所述场景特征节点进行全连接,从而进行构图。
[0024]进一步地,在本专利技术的一个实施例中,在经过分类器作分类之后,还包括:
[0025]通过将所述场景特征和语义特征的余弦损失函数以及分类损失函数进行加权融合对所述学生模型进行训练。
[0026]为达上述目的,本专利技术第二方面实施例提出了一种基于知识蒸馏的视频多线索社交关系抽取装置,包括:
[0027]获取模块,用于获取待训练无约束场景视频的视频帧序列;
[0028]预处理模块,用于将所述视频帧序列通过预先训练好的教师模型进行预处理,提取软目标;
[0029]蒸馏模块,用于将所述视频帧序列输入到学生模型中,获取场景特征和语义特征,同时通过余弦损失函数进行同步训练以拉近所述场景特征和语义特征与所述软目标的距离;其中,所述学生模型包括场景识别模型和语义分析模型;
[0030]构图模块,用于将所述场景特征和语义特征通过多层注意力网络以及卷积层和池化层进行特征提取并进行融合,将融合后的特征、所述场景特征、所述语义特征进行分段并作为三类节点进行构图;
[0031]生成模块,用于将构图后的节点特征通过图卷积网络作聚合,并经过分类器作分类,生成视频多线索社交关系提取框架。
[0032]进一步地,在本专利技术的一个实施例中,还包括提取模块,用于:
[0033]获取待分析无约束场景视频的视频帧序列;
[0034]将所述待分析无约束场景视频的视频帧序列输入所述待分析视频多线索社交关系提取框架;
[0035]基于视频多线索社交关系提取框架提取所述无约束场景视频中的社交关系。
[0036]进一步地,在本专利技术的一个实施例中,所述蒸馏模块,还用于:
[0037]通过池化将所述场景本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏的视频多线索社交关系抽取方法,其特征在于,包括以下步骤:获取待训练无约束场景视频的视频帧序列;将所述视频帧序列通过预先训练好的教师模型进行预处理,提取软目标;将所述视频帧序列输入到学生模型中,获取场景特征和语义特征,同时通过余弦损失函数进行同步训练以拉近所述场景特征和语义特征与所述软目标的距离;其中,所述学生模型包括场景识别模型和语义分析模型;将所述场景特征和语义特征通过多层注意力网络以及卷积层和池化层进行特征提取并进行融合,将融合后的特征、所述场景特征、所述语义特征进行分段并作为三类节点进行构图;将构图后的节点特征通过图卷积网络作聚合,并经过分类器作分类,生成视频多线索社交关系提取框架。2.根据权利要求1所述的方法,其特征在于,在生成视频多线索社交关系提取框架后,还包括:获取待分析无约束场景视频的视频帧序列;将所述待分析无约束场景视频的视频帧序列输入所述待分析视频多线索社交关系提取框架;基于视频多线索社交关系提取框架提取所述无约束场景视频中的社交关系。3.根据权利要求1所述的方法,其特征在于,所述通过余弦损失函数进行同步训练以拉近所述场景特征和语义特征与所述软目标的距离,包括:通过池化将所述场景特征和语义特征与教师模型输出的所述软目标映射到同一个特征空间,再使用所述余弦损失函数拉近所述软目标与所述场景特征和语义特征的距离。4.根据权利要求1所述的方法,其特征在于,所述将融合后的特征、所述场景特征、所述语义特征进行分段并作为三类节点进行构图,包括:将所述场景特征和语义特征通过多层注意力网络以及卷积层和池化层提取出调整自身权重的特征并经过映射,得到对应整个所述视频帧的特征序列,选取特征的前半部分,中间半部分和后半部分分别作为三个节点,然后将所述融合后的特征、所述语义特征和所述场景特征作为三类节点,所述融合后的特征节点与所述语义特征节点和所述场景特征节点进行全连接,从而进行构图。5.根据权利要求1所述的方法,其特征在于,在经过分类器作分类之后,还包括:通过将所述场景特征和语义特征的余弦损失函数以及分类损失函数进行加权融合对所述学生模型...

【专利技术属性】
技术研发人员:曹晨雨吴斌王柏
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1