【技术实现步骤摘要】
一种基于模态内间协同多线性池化的视频时序定位方法
本专利技术提出一种基于模态内间协同多线性池化(Intra-andInter-modalMultilinearPooling)的视频时序定位方法(VideoTemporalGrounding)。
技术介绍
视频时序定位(VideoTemporalGrounding)是一项多媒体领域的新兴任务,该任务旨在根据提供的文本描述,对某个给定视频进行时序定位。具体来讲是输入一句话和一个视频文件,通过模型后定位出这句话对应出现在该视频的时序位置(起始帧和终止帧)。例如,视频内容为一个人在厨房取出洋葱并把它切成丝,其中可能包含有“取出案板”“拿出洋葱”“冲洗洋葱”“切洋葱”“冲洗案板”“放回案板”等文本描述信息。当给出一个具体文本时,例如“拿出洋葱”,视频时序定位模型需要输出该文本发生在视频中的时间。为了得到更准确的预测,机器需要理解给定视频和文本,并在此基础上对两者的信息进行合适的跨模态融合以最大程度地消除语义鸿沟。对比图像,视频可以被理解为具有时序连贯性的图像,如何利用好视频中的时序信息,在时间维度进行建模也是研究视频领域的关键。深度学习自2006年产生之后就受到科研机构、工业界的高度关注,发展至今已收获诸多优秀的网络模型和各种有效的训练方法。单一模态的丰富研究支撑起跨模态的研究,使得跨模态任务逐渐成为一个主流研究方向。同时跨模态更符合真实的生活场景,具有丰富的研究意义和实际价值。视频作为近几年来逐渐兴起的研究媒体,结合自然语言,形成了视频-文本的跨模态研究方向,其中视频 ...
【技术保护点】
1.一种基于模态内间协同多线性池化的视频时序定位方法,其特征在于包括如下步骤:/n步骤(1)、数据预处理,对视频和文本数据提取特征;/n首先是对视频V进行预处理和特征提取:/n用多个尺度的滑动窗将整个视频以段与段间80%的重叠率密集地切分为N个视频段:
【技术特征摘要】
1.一种基于模态内间协同多线性池化的视频时序定位方法,其特征在于包括如下步骤:
步骤(1)、数据预处理,对视频和文本数据提取特征;
首先是对视频V进行预处理和特征提取:
用多个尺度的滑动窗将整个视频以段与段间80%的重叠率密集地切分为N个视频段:Ci表示第i个视频段,表示该段的起始时间,表示为终止时间;对每个当前视频段,同时保留其相邻的同尺度下前一个和后一个的视频段和作为上下文特征,用来理解视频的全局信息;对于Ci,将当前视频段Ci、前一个视频段和后一个视频段输入到训练好的C3D网络中,分别提取出视频段的特征和并将特征和拼接在一起得到的包含上下文信息的特征作为当前视频段Ci的特征Fv;
其次是提取文本信息的特征:
对于给定的句子S,放入文本提取模型Skip-thought中即可获得整个句子S的特征表达;该文本提取模型Skip-thought由两个GRU网络组成,将这两个网络的输出进行拼接即可得到句子的特征Fs;
步骤(2)、通过模态内间协同多线性池化模块进行特征融合:
当输入特征为Fv和Fs时,N为2,X1为Fv,X2为Fs,即为标准的IIM模块;在视频时序定位任务下,输入带有时序信息的和Fs,N为4,将这四种特征作为GIIM模块的输入;IIM模块和GIIM模块融合过程相同,具体如下:
首先将输入的N个特征通过2N个线性层,将每个模态都输入进两个不同参数的线性层,获得同个模态下的两种不同的深层次特征;
其次,对2N个线性层的输出进行对应元素的乘法操作,得到的各个元素的哈达马积通过加和池化层建立维度间的相互关系并降低数据维度;
然后使用幂规范化对得到的数据对绝对值求平方根并保留原本的正负号;在IIM和GIIM模型中也都使用了dropout和L2正则化,减小部分网络参数的权重,提升模型的学习能力增强网络的鲁棒性;
步骤(3)、构建视频时序定位的深度学习网络框架
首先将视频用不同尺度的滑动窗口取出一个视频段,该视频段的前后段也会被取出作为上下文信息;其次将这些视频段放入C3D网络中获取视频特征Fv;同时将输入的句子通过Skip-thought网络获取文本特征Fs,将文本特征和视频特征放入IIM或GIIM特征融合模块中,获取视频域和文本域的跨模态特征表达Fvs;
将融合特征经过线性层后得到两个部分的输出,第一部分表示当前视频段与句子的匹配程度,第二部分用来对当前输入视频段的时序边界进行微调;
在模型的训练阶段,由于输出分为两个部分的内容,因此采用多任务损失函数,Align_loss用来对预测的视频段-文本匹配程度计算损失,Reg_loss用来对预测的视频段边界的调整值计算损失,通过调节超参数平衡两个损失函数的权重,通过计算损失得到各个参数对应的梯度值,进而对模型进行优化;
在模型的测试阶段,将一整个视频中的各个视频段逐个与句子进行特征融合后预测出当前视频段与句子的匹配程度和时序边界的调整值,通过匹配程度,对各个视频段进行排序,即可得到最优的时序定位,再根据输出的调整值对最优视频段的时序边界进行微调,得到的时序位置即为最终预测出给定文本在视频中的时序定位;
步骤(4)、模型训练
根据输入每个候选视频段的时序位置与句子实际时序定位的差异得到两个部分loss对应的真实值;第一部分的匹配程度由两个时序区间的IoU值决定,第二部分的调整值可通过计算实际时序位置与当前视频段时序位置的起始时间和终止时间的差产生;将真实值与预测值放入对应的损失函数中,用不同的函数评估两者间的差异,并利用反向传播算法得到步骤(3)中神经网络的模型的各个参数进行梯度回传,不断优化,直至整个网络模型收敛。
2.根据权利要求1所述的一种基于模态内间协同多线性池化的视频时序定位方法,其特征在于步骤于步骤(2)所述的基于模态内间协同多线性池化,具体公式如下:
IIM模块公式如公式(1)所示,输入特征为Fv和Fs,分别代表视频特征和语言特征;
GIIM模块如公式(2)所示,输入特征x1到xn依次为和Fs,分别代表前序视频段特征,中心视频段特征,后序视频段特征和语言特征;
2-1.将每个模态都输入进两个不同参数的线性层,获得同个模态下的两种不同的深层次特征;其具体公式如下:
……
其中对于输入...
【专利技术属性】
技术研发人员:余宙,俞俊,宋怡君,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。