基于显著信息和标签相关性挖掘的视频社交关系识别方法、系统技术方案

技术编号：40386006 阅读：6 留言：0更新日期：2024-02-20 22:20

本发明专利技术公开了一种基于显著信息和标签相关性挖掘的视频社交关系识别方法、系统，第一阶段：经预处理和特征提取得到多模态的社交关系和标签文本特征，输入神经网络中生成多示例特征，并输出初步识别的社交关系类别；第二阶段：联合优化多示例分类器和多标签分类器，挖掘社交关系间的潜在相关性；输入待识别的视频，使用第二阶段的输出作为视频社交关系识别的结果。本发明专利技术挖掘社交视频中有价值时刻的信息，且考虑多个角色之间潜在相关的社交关系，从而获取更有效的社交关系。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于视频处理，具体涉及一种基于显著信息和标签相关性挖掘的视频社交关系识别方法、系统。

技术介绍

1、社交关系是指角色互动和联系，描述了个体或群体之间的相互作用和联系方式。社交关系对个体的心理和情感健康、社会适应性和幸福感都具有重要影响。从视频数据中识别角色间的社交关系，将会促进多媒体内容理解、知识图谱构建、公共安全等领域的发展。

2、早期学者们使用人工特征，后来逐渐使用深度神经网络来识别图像中的社交关系。北京邮电大学在2018年公布了第一个用于社交关系识别的视频数据集sriv，推动了视频社交关系识别的研究。2018年起，考虑视频的多模态信息和时序信息，相较于针对静态图像的方法，取得很大的进展。2019年至今，挖掘视频中的细粒度特征，如视频帧中的身体、人脸和语义物体，并利用场景图来描述角色间的社交状态，进一步提高了模型的性能。

3、尽管如此，现有研究平等对待社交视频中各个时刻的信息，且仅考虑任意两角色之间的社会关系。但实际上，该做法严重影响与社会关系相关信息的提取，且忽略了实际场景中多个角色之间还存在潜在相关的社交关系。

技术实现思路

1、针对现有技术中存在不足，本专利技术提供了一种基于显著信息和标签相关性挖掘的视频社交关系识别方法，挖掘社交视频中有价值时刻的信息，且考虑多个角色之间潜在相关的社交关系。

2、本专利技术是通过以下技术手段实现上述技术目的的。

3、基于显著信息和标签相关性挖掘的视频社交关系识别方法：

4、(1)第一阶段

5、读取待分析视频的视频帧，提取视频帧中角色身体姿态特征hb、面部特征hf、背景特征hg和文本特征ht，将所述特征hb、hf、hg和ht分为k组，再将分组后的特征生成片段子图；

6、将生成的片段子图送入动态图卷积网络，以在节点间传播信息，并增强角色的表示；

7、捕获节点特征、全局的动作特征和全局的音频特征的时序信息，并对时序处理后的全局的动作特征和全局的音频特征进行平均池化，再将每个关系对在同一片段中时序处理后的节点特征以及平均池化后的全局特征拼接，生成片段级示例；将同一关系对的所有片段级示例平均池化，得到视频级示例；

8、训练多示例分类器，计算标签的文本特征和示例的相似度，识别社交关系的类别；

9、单层的动态图卷积网络为：

10、计算源节点与其邻居节点之间的分数，为邻居节点分配不同的权重：

11、

12、其中：表示第l层经处理后的邻接矩阵，w和b表示可学习的参数，[||]表示拼接操作，和表示第l层中节点m1、m2的特征，表示加权后的邻接矩阵；

13、处理的过程包括删除边：

14、

15、其中：τu表示阈值；

16、(2)第二阶段

17、将归一化后的标签文本特征和标签的相关性矩阵送入动态图卷积网络，捕获社交关系的潜在相关性；

18、将一个视频中所有关系对的视频级示例进行平均池化，获得多标签示例；

19、多标签分类器计算蕴含社交关系潜在相关性的标签文本特征和归一化后的多标签示例的点积，作为多标签示例和标签特征的相似度，并取最大值作为多标签预测分数；

20、(3)联合训练多示例分类器和多标签分类器，输入待识别的视频，仅使用第二阶段的输出作为视频社交关系识别的结果。

21、上述技术方案中，所述片段子图包括将特征hb、hf、hg和ht映射后的节点特征以及基于节点共现生成的邻接矩阵u。

22、上述技术方案中，节点的特征根据下式进行更新：

23、

24、其中，wl是第l层的线性变换矩阵，σ是激活函数，和表示第l层和第l+1层的节点特征，表示矩阵的度矩阵，且：

25、

26、其中，m1、m2表示图中的节点。

27、上述技术方案中，训练多示例分类器时，采用如下损失函数：

28、

29、其中，β表示缩放因子，γ表示边界，α表示两向量之间的夹角，u表示关系对p的类别，c表示类别的数量，p表示第p个由角色i和角色j构成的关系对，p表示关系对的数量，表示将关系对的片段级示例、视频级示例特征向量映射并进行归一化处理，表示标签文本特征向量映射并进行归一化处理。

30、上述技术方案中，通过动态图卷积网络增强角色的表示：

31、h″b,h″f,h″g,h″t＝ψ1(u,h'b,h′f,h′g,h′t)

32、其中，ψ1表示用于传递场景图中节点信息的动态图卷积网络，h′b、h′f、h′g、h′t表示映射后的节点特征。

33、上述技术方案中，所述标签相关性矩阵为：

34、

35、其中，表示当标签出现时，标签出现的概率，q表示文本特征的数量。

36、上述技术方案中，所述标签相关性矩阵采用如下方式进行更新：

37、

38、其中，表示第l层经处理后的邻接矩阵，和表示第l层中不同的节点特征，表示加权后的邻接矩阵；

39、过滤相关性较小的标签之间的边：

40、

41、其中τv表示阈值；

42、节点特征根据下式进行更新：

43、

44、其中，和表示第l层和第l+1层的特征；

45、且：

46、上述技术方案中，所述蕴含社交关系潜在相关性的标签文本特征为：

47、

48、其中，ψ2表示用于传递标签节点信息的动态图卷积网络。

49、上述技术方案中，联合优化多示例分类器和多标签分类器时，采用一致性损失约束分类结果的一致性：

50、

51、其中：表示第n个视频样本中，第r个关系对的多示例分类结果，表示第n个视频样本中多标签分类结果；λ用于判断预测结果是否相符，若存在于则否则n表示样本数量，r表示一个视频中社交关系的数量。

52、一种基于显著信息和标签相关性挖掘的视频社交关系识别的系统，包括：

53、社交关系多示例识别模块，经特征提取预处理和得到多模态的社交关系和标签的文本特征，输入神经网络中生成多示例特征，并输出初步识别的社交关系类别；

54、社交关系相关性挖掘模块，联合优化多示例分类器和多标签分类器，挖掘社交关系间的潜在相关性；

55、预测模块，输入待识别的视频，使用联合训练后的多示例输出作为视频社交关系识别的结果。

56、本专利技术的有益效果为：

57、(1)本专利技术使用动态图卷积网络捕捉场景中的角色交互，并生成关系对的片段级示例和视频级示例，挖掘视频中与社交关系更为相关的角色互动，避免转场等信息对社交关系识别的影响；同时提取标签的多个文本特征作为中心向量，最大化分类界限并降低噪声样本的影响，从而获取更有效的社交关系特征。

58、(2)本专利技术利用标本文档来自技高网...

【技术保护点】

1.基于显著信息和标签相关性挖掘的视频社交关系识别方法，其特征在于：

2.根据权利要求1所述的基于显著信息和标签相关性挖掘的视频社交关系识别方法，其特征在于，所述片段子图包括将特征Hb、Hf、Hg和Ht映射后的节点特征以及基于节点共现生成的邻接矩阵U。

3.根据权利要求1所述的基于显著信息和标签相关性挖掘的视频社交关系识别方法，其特征在于，节点的特征根据下式进行更新：

4.根据权利要求1所述的基于显著信息和标签相关性挖掘的视频社交关系识别方法，其特征在于，训练多示例分类器时，采用如下损失函数：

5.根据权利要求1所述的基于显著信息和标签相关性挖掘的视频社交关系识别方法，其特征在于，通过动态图卷积网络增强角色的表示：

6.根据权利要求3所述的基于显著信息和标签相关性挖掘的视频社交关系识别方法，其特征在于，所述标签相关性矩阵为：

7.根据权利要求6所述的基于显著信息和标签相关性挖掘的视频社交关系识别方法，其特征在于，所述标签相关性矩阵采用如下方式进行更新：

8.根据权利要求7所述的基于显著信息和标签相

9.根据权利要求1所述的基于显著信息和标签相关性挖掘的视频社交关系识别方法，其特征在于，联合优化多示例分类器和多标签分类器时，采用一致性损失约束分类结果的一致性：

10.一种实现权利要求1-9任一项所述的基于显著信息和标签相关性挖掘的视频社交关系识别方法的系统，其特征在于，包括：

...

【技术特征摘要】

1.基于显著信息和标签相关性挖掘的视频社交关系识别方法，其特征在于：

2.根据权利要求1所述的基于显著信息和标签相关性挖掘的视频社交关系识别方法，其特征在于，所述片段子图包括将特征hb、hf、hg和ht映射后的节点特征以及基于节点共现生成的邻接矩阵u。

3.根据权利要求1所述的基于显著信息和标签相关性挖掘的视频社交关系识别方法，其特征在于，节点的特征根据下式进行更新：

4.根据权利要求1所述的基于显著信息和标签相关性挖掘的视频社交关系识别方法，其特征在于，训练多示例分类器时，采用如下损失函数：

5.根据权利要求1所述的基于显著信息和标签相关性挖掘的视频社交关系识别方法，其特征在于，通过动态图卷积网络增强角色的表示：

6.根据权...

【专利技术属性】
技术研发人员：毛启容，董文龙，朱青，詹永照，
申请(专利权)人：江苏大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人