一种基于模态内间协同多线性池化的视频时序定位方法技术

技术编号:24758032 阅读:34 留言:0更新日期:2020-07-04 09:34
本发明专利技术公开了一种基于模态内间协同多线性池化的视频时序定位方法。本发明专利技术包括以下步骤:1、对视频和文本数据进行数据预处理,提取特征。2、通过模态内间协同多线性池化模块或泛化的模态内间协同多线性池化模块将视频和文本进行特征融合。3、基于视频时序定位任务的神经网络结构。4、模型训练,将多任务损失函数放入优化器,通过反向传播算法对网络参数进行梯度回传和更新。本发明专利技术提出一种针对视频时序定位的深度神经网络,特别是提出一种对视频‑文本的数据进行跨模态融合的模块,充分利用各模态的深层次特征,由此模块延伸出一种同时对视频时序信息的交互方法,提高了扩模态特征的表达能力,并且在视频时序定位领域中的获得较好效果。

A video timing localization method based on intra modal collaborative multi linear pooling

【技术实现步骤摘要】
一种基于模态内间协同多线性池化的视频时序定位方法
本专利技术提出一种基于模态内间协同多线性池化(Intra-andInter-modalMultilinearPooling)的视频时序定位方法(VideoTemporalGrounding)。
技术介绍
视频时序定位(VideoTemporalGrounding)是一项多媒体领域的新兴任务,该任务旨在根据提供的文本描述,对某个给定视频进行时序定位。具体来讲是输入一句话和一个视频文件,通过模型后定位出这句话对应出现在该视频的时序位置(起始帧和终止帧)。例如,视频内容为一个人在厨房取出洋葱并把它切成丝,其中可能包含有“取出案板”“拿出洋葱”“冲洗洋葱”“切洋葱”“冲洗案板”“放回案板”等文本描述信息。当给出一个具体文本时,例如“拿出洋葱”,视频时序定位模型需要输出该文本发生在视频中的时间。为了得到更准确的预测,机器需要理解给定视频和文本,并在此基础上对两者的信息进行合适的跨模态融合以最大程度地消除语义鸿沟。对比图像,视频可以被理解为具有时序连贯性的图像,如何利用好视频中的时序信息,在时间维度进行建模也是研究视频领域的关键。深度学习自2006年产生之后就受到科研机构、工业界的高度关注,发展至今已收获诸多优秀的网络模型和各种有效的训练方法。单一模态的丰富研究支撑起跨模态的研究,使得跨模态任务逐渐成为一个主流研究方向。同时跨模态更符合真实的生活场景,具有丰富的研究意义和实际价值。视频作为近几年来逐渐兴起的研究媒体,结合自然语言,形成了视频-文本的跨模态研究方向,其中视频时序定位是其中一个较为丰富的方向,在检索的同时完成精准定位,让计算机根据输入的文本在视频种自动预测出正确的时序位置是一个值得深入探索的研究问题。多年来,在跨媒体研究领域中已经认识到获取模态间关联关系的重要性,并使用注意力机制尝试挖掘模态间丰富的关联关系。也有部分研究开始注意到模态内信息的交互,在融合前对模态内特征通过自注意力机制,或是经过不同的线性层获取深层致或对象之间的关联关系。由于跨媒体理解需要建立在对单个模态内部信息充分利用的基础上,无论是图像文本或者视频,都存在更多值得挖掘的有效信息,对模态内的建模无疑有助于加深单模态的理解进而增强最终融合特征的表达能力。在实际应用方面,视频时序定位算法具有广泛的应用场景。在娱乐场景下,如YouTube,爱奇艺,腾讯视频等视频软件中,用户输入自己想观看内容的文本描述,可以快速查找到感兴趣的视频片段。在安保系统中,在根据监控视频查找犯罪证据及嫌疑人时也可大大节省人力及时间成本,具有十分良好的研究前景及重要的研究意义。综上所述,视频时序定位是一个值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的视频时序定位系统。自然语言的描述一般来自不同的标注者,具有较高的自由度,不具备统一固定的句子结构。同时,自然场景下的视频载体主题多样,内容复杂富于变化,帧与帧间可能具有较高的相似性和冗余度,而这使得视频时序定位面临巨大的挑战。具体而言,主要存在如下两方面的难点:(1)如何对视频-文本的跨媒体信息进行处理和理解并对得到的跨媒体特征进行融合:视频相邻帧之间一般具有较高的相似性和冗余度,该问题主要通过各种采样策略进行处理,得到稀疏且有效的视频表达。跨模态特征融合一直是跨媒体领域中一个必不可少的环节,通过特征融合将两种或多种模态的信息进行交互,得到可有效表达多种模态关联关系的融合特征,参与多模态任务的结果预测。基于深度学习理论提出了一系列的融合方式包括线性融合、双线性融合和基于此的注意力机制等。因此,如何让算法自动学习到视频和文本中关联关系,生成更有效的跨媒体表达特征,是视频时序定位算法中的难点,也是影响结果性能的根本原因。(2)如何对视频中时间维度进行建模,使时序信息得到充分利用:视频区别于图像,在于多了时间的维度,一种处理视频方法是将视频看成连续的多幅图像,采用VGG16网络提取图像特征,并用某种采样机制或Pooling操作描述某一视频段的特征。主流的方法依然是使用C3D,将某段连续的视频放入网络通过卷积建立时序联系。由于视频时序定位的输出是一个时序上的区间,因此该任务对视频的时序信息更加敏感,对时序的建模依赖性更高。
技术实现思路
本专利技术提供了一种基于模态内间协同多线性池化的视频时序定位方法。本专利技术主要包含两点:1、将视频和文本的特征同时进行模态内和模态间的建模,充分发掘模态内的信息,并协同模态间关联关系,得到更有效的特征表达。2、提出泛化的多线性池化方法,将中心视频段和上下文视频段分别作为特征融合模块的输入,充分理解视频的上下文信息和时序相关性,得到包含视频时序关联的视频和文本的融合特征。本专利技术解决其技术问题所采用的的技术方案包括如下步骤:步骤(1)、数据预处理,对视频和文本数据提取特征首先,对视频V进行预处理和特征提取:用多个尺度的滑动窗将一整个视频V以段与段间80%的重叠率密集地切分为N个视频段。对每一个视频段,同时保留它们同尺度下相邻的前一个和后一个的视频段作为上下文特征,用来理解视频的全局信息,使用训练好的C3D网络对视频段进行特征提取,得到视频段的表征。其次,提取文本信息的特征:对于给定的句子S,放入文本提取模型Skip-thought中即可获得整个句子S的特征表达。该文本提取模型Skip-thought由两个GRU网络组成,将这两个网络的输出进行拼接即可得到句子的表征Fs。步骤(2)、通过模态内间协同多线性池化模块进行特征融合:如图1所示,当输入表征为Fv和Fs时,N为2,X1为Fv,X2为Fs,即为标准的IIM模块。在视频时序定位任务下,输入带有时序信息的和Fs,N为4,将这四种特征作为GIIM模块的输入。以下将以GIIM模块为例阐述融合过程。首先将输入的N个特征通过2N个线性层,这里将每个模态都输入进两个不同参数的线性层,获得同个模态下的两种不同的深层次特征;其次对2N个线性层的输出进行对应元素的乘法操作,得到的各个元素的哈达马积(Hadamardproduct)通过加和池化层(Sumpooling)建立维度间的相互关系并降低数据维度,在提升结果的同时极大地减小了计算量和模型负责度。由于上述的乘法操作可能会使一些位置上的原本较大或较小的数值变得更大或更小,这里我们使用幂规范化(PowerNormalization)对得到的数据对绝对值求平方根并保留原本的正负号,使其在某种程度上抵消了乘法操作造成的数据值激增或者下降的影响,平衡了网络中的数据分布。在IIM和GIIM模型中也都使用了dropout和L2正则化,减小部分网络参数的权重,提升模型的学习能力增强网络的鲁棒性。步骤(3)、构建视频时序定位的深度学习网络框架其结构如图2所示,首先将视频用不同尺度的滑动窗口取出一个视频段,该视频段的前后段也会被取出作为上下文信息。其次将这些视频段放入C3D网络中获取视频特征Fv。同本文档来自技高网
...

【技术保护点】
1.一种基于模态内间协同多线性池化的视频时序定位方法,其特征在于包括如下步骤:/n步骤(1)、数据预处理,对视频和文本数据提取特征;/n首先是对视频V进行预处理和特征提取:/n用多个尺度的滑动窗将整个视频以段与段间80%的重叠率密集地切分为N个视频段:

【技术特征摘要】
1.一种基于模态内间协同多线性池化的视频时序定位方法,其特征在于包括如下步骤:
步骤(1)、数据预处理,对视频和文本数据提取特征;
首先是对视频V进行预处理和特征提取:
用多个尺度的滑动窗将整个视频以段与段间80%的重叠率密集地切分为N个视频段:Ci表示第i个视频段,表示该段的起始时间,表示为终止时间;对每个当前视频段,同时保留其相邻的同尺度下前一个和后一个的视频段和作为上下文特征,用来理解视频的全局信息;对于Ci,将当前视频段Ci、前一个视频段和后一个视频段输入到训练好的C3D网络中,分别提取出视频段的特征和并将特征和拼接在一起得到的包含上下文信息的特征作为当前视频段Ci的特征Fv;
其次是提取文本信息的特征:
对于给定的句子S,放入文本提取模型Skip-thought中即可获得整个句子S的特征表达;该文本提取模型Skip-thought由两个GRU网络组成,将这两个网络的输出进行拼接即可得到句子的特征Fs;
步骤(2)、通过模态内间协同多线性池化模块进行特征融合:
当输入特征为Fv和Fs时,N为2,X1为Fv,X2为Fs,即为标准的IIM模块;在视频时序定位任务下,输入带有时序信息的和Fs,N为4,将这四种特征作为GIIM模块的输入;IIM模块和GIIM模块融合过程相同,具体如下:
首先将输入的N个特征通过2N个线性层,将每个模态都输入进两个不同参数的线性层,获得同个模态下的两种不同的深层次特征;
其次,对2N个线性层的输出进行对应元素的乘法操作,得到的各个元素的哈达马积通过加和池化层建立维度间的相互关系并降低数据维度;
然后使用幂规范化对得到的数据对绝对值求平方根并保留原本的正负号;在IIM和GIIM模型中也都使用了dropout和L2正则化,减小部分网络参数的权重,提升模型的学习能力增强网络的鲁棒性;
步骤(3)、构建视频时序定位的深度学习网络框架
首先将视频用不同尺度的滑动窗口取出一个视频段,该视频段的前后段也会被取出作为上下文信息;其次将这些视频段放入C3D网络中获取视频特征Fv;同时将输入的句子通过Skip-thought网络获取文本特征Fs,将文本特征和视频特征放入IIM或GIIM特征融合模块中,获取视频域和文本域的跨模态特征表达Fvs;
将融合特征经过线性层后得到两个部分的输出,第一部分表示当前视频段与句子的匹配程度,第二部分用来对当前输入视频段的时序边界进行微调;
在模型的训练阶段,由于输出分为两个部分的内容,因此采用多任务损失函数,Align_loss用来对预测的视频段-文本匹配程度计算损失,Reg_loss用来对预测的视频段边界的调整值计算损失,通过调节超参数平衡两个损失函数的权重,通过计算损失得到各个参数对应的梯度值,进而对模型进行优化;
在模型的测试阶段,将一整个视频中的各个视频段逐个与句子进行特征融合后预测出当前视频段与句子的匹配程度和时序边界的调整值,通过匹配程度,对各个视频段进行排序,即可得到最优的时序定位,再根据输出的调整值对最优视频段的时序边界进行微调,得到的时序位置即为最终预测出给定文本在视频中的时序定位;
步骤(4)、模型训练
根据输入每个候选视频段的时序位置与句子实际时序定位的差异得到两个部分loss对应的真实值;第一部分的匹配程度由两个时序区间的IoU值决定,第二部分的调整值可通过计算实际时序位置与当前视频段时序位置的起始时间和终止时间的差产生;将真实值与预测值放入对应的损失函数中,用不同的函数评估两者间的差异,并利用反向传播算法得到步骤(3)中神经网络的模型的各个参数进行梯度回传,不断优化,直至整个网络模型收敛。


2.根据权利要求1所述的一种基于模态内间协同多线性池化的视频时序定位方法,其特征在于步骤于步骤(2)所述的基于模态内间协同多线性池化,具体公式如下:



IIM模块公式如公式(1)所示,输入特征为Fv和Fs,分别代表视频特征和语言特征;



GIIM模块如公式(2)所示,输入特征x1到xn依次为和Fs,分别代表前序视频段特征,中心视频段特征,后序视频段特征和语言特征;
2-1.将每个模态都输入进两个不同参数的线性层,获得同个模态下的两种不同的深层次特征;其具体公式如下:






……



其中对于输入...

【专利技术属性】
技术研发人员:余宙俞俊宋怡君
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1