System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于视频时空场景图融合推理的视频描述生成方法及系统技术方案_技高网

基于视频时空场景图融合推理的视频描述生成方法及系统技术方案

技术编号:40067420 阅读:6 留言:0更新日期:2024-01-16 23:38
本发明专利技术公开了一种基于视频时空场景图融合推理的视频描述生成方法及系统,属于计算机视觉技术领域,包括:S1:获得代表视频全局时序状态的表观特征和动态特征;S2:获得代表视频局部细粒度视觉信息的视频场景图特征;S3:使用视频时空场景图特征联合视频全局时序特征进行视频语义推理;S4:对视频的跨模态表征进行解码生成单词,进而对视频发生的主要事件进行描述,并计算误差损失、语义评估,帮助训练网络。本发明专利技术在两种异构特征信息融合方面,利用知识蒸馏机制将局部的视觉细节知识注入到全局的时序推理中,能够充分挖掘视频信息和潜在语义关系,兼顾整体语义和细节语义的对应,显著提高视频任务描述的准确性。

【技术实现步骤摘要】

本专利技术属于计算机视觉,尤其涉及一种基于视频时空场景图融合推理的视频描述生成方法及系统


技术介绍

1、视频描述生成是一项典型的跨领域任务,涉及计算机视觉和自然语言处理的研究,对于各种实际应用起着重要作用,如视频检索、辅助视觉障碍人士以及人机交互。不仅需要直观地理解视频的主要内容,还需要自动生成有意义的句子。近年来,视频描述生成领域已经取得了令人瞩目的进展,但这依旧是一项极富挑战性的任务。

2、与对图像描述不同的是,视频包含有大量不断变化的时空信息,如何高效获取有用的信息进行准确的视频描述是计算机视觉领域一个重大的挑战。近年的视频描述生成技术通常结合了受图像描述启发的编码器-解码器框架。基本的算法使用卷积神经网络(cnn)或循环神经网络(rnn)对视频进行编码,并使用rnn将输出解码为自然语言。随着计算机视觉的发展,研究人员试图从视觉信息中发现更多的语义信息,并将它们整合到模型中,以获得更好的描述能力。yao等人提出了一种时间注意力机制来动态总结视觉特征。wang等人尝试通过从解码隐藏状态中再现帧特征来提高视频描述的质量。近期,研究人员探索出了一些关于对象信息的研究方法。zhang等人使用双向时间图来捕获视频中显著对象详细的时间动态。hu等人使用两层堆叠的lstm作为编码器,依次构建视频帧级和对象级的时间结构。

3、以上编码技术存在一个问题,即将陌生场景的视频输入到目标检测网络时,返回结果仅包含一些显著的对象。近期的方法虽然尝试融合了视频的语义信息,但主要针对于显著对象的全局信息和时间结构,仍没有考虑帧之间每个对象之间的交互关系,对视频的理解能力不足。

4、因此,亟需提供一种基于视频时空场景图融合推理的视频描述生成方法及系统,以解决上述问题。


技术实现思路

1、针对现有技术的缺陷,本专利技术提供一种基于光伏组件发电特性的火灾早期探测预警方法及系统,在全局层面上利用对齐注意力机制实现对视频视觉内容时序变化的正确推理,在局部层面上,构造出视频中对象关系属性的视频细粒度特征信息;在两种异构特征信息融合方面,利用知识蒸馏机制将局部的视觉细节知识注入到全局的时序推理中,能够充分挖掘视频信息和潜在语义关系,兼顾整体语义和细节语义的对应,显著提高视频任务描述的准确性,从而完成了本专利技术。

2、本专利技术所采用的具体技术方案为:

3、本专利的第一专利技术目的是提供一种基于视频时空场景图融合推理的视频描述生成方法,包括:

4、s1:获得代表视频全局时序状态的表观特征和动态特征;具体为:

5、s1-1,获得最初始视频的帧特征和c3d运动特征;

6、s1-2,将帧特征与c3d运动特征拼接分别送入双向lstm网络,获得表观特征和动态特征,将两特征拼接嵌入到同一向量空间,代表视频全局时序特征;

7、s2:获得代表视频局部细粒度视觉信息的视频场景图特征;具体为:

8、s2-1,获取视频关键帧的场景图特征;

9、s2-2,对关键帧的场景图特征进行时间和空间上的聚合,获得视频时空场景图特征;

10、s3:使用视频时空场景图特征联合视频全局时序特征进行视频语义推理;具体为:

11、s3-1:对视频全局时序特征进行注意力推理,获得理解全局视频的跨模态表征;

12、s3-2:利用图神经网络对视频时空场景图特征进行特征增强,获得细粒度的实体关系表征;

13、s3-3:利用视频时空场景图特征对视频全局时序特征进行蒸馏,获得融合局部与全局信息的视频重要表征;

14、s4:对视频的跨模态表征进行解码生成单词,进而对视频发生的主要事件进行描述,并计算误差损失、语义评估,帮助训练网络。

15、优选地,在s2-1中,通过预训练的检测网络提取关键帧的目标关系特征,对目标关系特征进行编码,获得视频帧级场景图特征,具体为:

16、s2-11:通过场景图生成器生成给定视频的目标关系三元组<ox,rxy,oy>;其中ox和oy分别代表目标x和目标y,rxy代表目标x和目标y之间的关系;

17、s2-12:设定阈值,筛除置信度小于阈值的目标和关系;

18、s2-13:根据(ox,rxy)和(rxy,oy)建立边的关系,获得邻接矩阵af;

19、s2-14:利用独热编码和全连接层建立结点特征fn;

20、s2-15:将邻接矩阵af和结点特征fn送入图注意力网络获得视频帧级场景图特征:

21、

22、其中,p代表关系三元组的数量,n代表帧的数量,代表第i个关键帧的帧级场景图。

23、优选地,在s2-2中,根据场景图结点之间的交并比和余弦相似度对帧级场景图进行聚合,从而得到视频场景图特征具体为:

24、

25、其中,表示时间步长为t的第i个和第j个目标结点之间的空间连通性,σtij表示两个目标之间的交并比,nt代表第t帧中的目标总数量;

26、

27、其中,表示第t时刻和第t+1时刻下,第i个和第j个目标结点之间的时间连通性,表示两个特征向量之间的余弦相似度,表示第t帧中的第i个目标,nt+1代表了第t+1帧中的目标总数量;

28、通过设定阈值,筛选出置信度高的视频时空场景图gv,聚合邻接矩阵af得到视频级实体关系矩阵au。

29、优选地,在s3-1中,采用注意力机制来查询全局的语义组特征,其中语义组特征定义为与部分描述对齐的视觉特征将语义组特征与文本特征拼接与编码,得到全局的跨模态表征cm,表示为:

30、

31、其中,l代表了单词总长度,每个时刻生成一个单词。ci代表第i时刻跨模态表征,表示第i时刻对齐后的视觉特征,表示第i时刻的文本上下文特征,[*,*]代表拼接操作。

32、优选地,在s3-1中,利用注意力机制学习每一时刻产生的部分描述的文本上下文特征将文本上下文特征作为query送入对齐注意力查询当前时刻对齐的视觉特征;

33、基本的构建模块是多头注意力,每个多头被定义为一个缩放的点积:

34、

35、其中,分别表示打包的查询和键值对;wi是线性变换的参数,dl是查询向量的数量,dk=dh/n是每个注意力头的大小,n是头的数量,dh是隐藏层大小,n个注意力头的输出然后被拼接和嵌入为最后的表征:

36、

37、多头注意力之后是一系列的快捷连接、dropout和归一化操作,表示为*表示网络的输入;

38、在每个生成时间步,上一个时间步的输入描述的单词x首先关注之前生成的所有单词x,以获得上下文信息

39、

40、将文本上下文信息作为查询,全局时序视觉特征fg作为键值对送入对齐注意力网络,得到相关的视觉语义特征vt,对齐注意力由下述方法实现:

41、

42、

4本文档来自技高网...

【技术保护点】

1.一种基于视频时空场景图融合推理的视频描述生成方法,其特征在于,包括:

2.根据权利要求1所述基于视频时空场景图融合推理的视频描述生成方法,其特征在于,在S2-1中,通过预训练的检测网络提取关键帧的目标关系特征,对目标关系特征进行编码,获得视频帧级场景图特征,具体为:

3.根据权利要求1所述基于视频时空场景图融合推理的视频描述生成方法,其特征在于,在S2-2中,根据场景图结点之间的交并比和余弦相似度对帧级场景图进行聚合,从而得到视频场景图特征具体为:

4.根据权利要求1所述基于视频时空场景图融合推理的视频描述生成方法,其特征在于,在S3-1中,采用注意力机制来查询全局的语义组特征,其中语义组特征定义为与部分描述对齐的视觉特征将语义组特征与文本特征拼接与编码,得到全局的跨模态表征Cm,表示为:

5.根据权利要求1所述基于视频时空场景图融合推理的视频描述生成方法,其特征在于,在S3-1中,利用注意力机制学习每一时刻产生的部分描述的文本上下文特征将文本上下文特征作为query送入对齐注意力查询当前时刻对齐的视觉特征;

6.根据权利要求1所述基于视频时空场景图融合推理的视频描述生成方法,其特征在于,在S3-2中,动态地连接节点,使得推理模型可以不断地更新节点特征,利用图卷积网络动态聚合细粒度场景图特征,表示为:

7.根据权利要求1所述基于视频时空场景图融合推理的视频描述生成方法,其特征在于,S3-3中,采用知识蒸馏机制对获得最终的局部-全局的视觉语义特征进行后期融合;具体地,通过最小化两个分支的单词概率分布之间的KL散度,来实现将场景图的细节知识注入到全局时序视觉语义特征中,表示为:

8.一种基于视频时空场景图融合推理的视频描述生成系统,其特征在于,包括:

9.一种实现权利要求1-7任一项所述基于视频时空场景图融合推理的视频描述生成方法的信息数据处理终端。

10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-7任一项所述的基于视频时空场景图融合推理的视频描述生成方法。

...

【技术特征摘要】

1.一种基于视频时空场景图融合推理的视频描述生成方法,其特征在于,包括:

2.根据权利要求1所述基于视频时空场景图融合推理的视频描述生成方法,其特征在于,在s2-1中,通过预训练的检测网络提取关键帧的目标关系特征,对目标关系特征进行编码,获得视频帧级场景图特征,具体为:

3.根据权利要求1所述基于视频时空场景图融合推理的视频描述生成方法,其特征在于,在s2-2中,根据场景图结点之间的交并比和余弦相似度对帧级场景图进行聚合,从而得到视频场景图特征具体为:

4.根据权利要求1所述基于视频时空场景图融合推理的视频描述生成方法,其特征在于,在s3-1中,采用注意力机制来查询全局的语义组特征,其中语义组特征定义为与部分描述对齐的视觉特征将语义组特征与文本特征拼接与编码,得到全局的跨模态表征cm,表示为:

5.根据权利要求1所述基于视频时空场景图融合推理的视频描述生成方法,其特征在于,在s3-1中,利用注意力机制学习每一时刻产生的部分描述的文本上下文特征将文本上下文特征...

【专利技术属性】
技术研发人员:刘才华马逍逸徐涛
申请(专利权)人:中国民航大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1