当前位置: 首页 > 专利查询>浙江大学专利>正文

一种使用语义补全神经网络来解决视频时序定位问题的方法技术

技术编号:24353720 阅读:53 留言:0更新日期:2020-06-03 02:07
本发明专利技术公开了一种使用语义补全神经网络来解决视频时序定位问题的方法。主要包括如下步骤:1)针对于一个视频和一段自然语言描述,通过一个候选产生模块来生成候选的视频片段及对应的置信度,并使用特定的算法从中挑选出K个优先级最高的候选视频片段。2)通过语义补全模块计算K个候选视频片段的激励,并反馈给候选产生模块。3)重复以上步骤对整个网络进行训练,得到良好的视频时序定位的网络。相比于传统的视频时序定位的学习方法,本发明专利技术的学习方法是弱监督的学习方法,仅仅需要粗粒度的视频级别的标注数据集,可以节省昂贵的数据集标注成本。

A method to solve the problem of video timing location using semantic completion neural network

【技术实现步骤摘要】
一种使用语义补全神经网络来解决视频时序定位问题的方法
本专利技术涉及视频时序定位的学习,尤其涉及种使用语义补全神经网络来解决视频时序定位问题的方法。
技术介绍
视频时序定位指的是根据一段自然语言描述从给定的视频中提取出符合这段描述的特定视频片段,这是信息提取和计算机视觉中的一个重要主题,在最近几年吸引了越来越多的关注。该技术可以高效地提取出视频中的信息,帮助用户更快地定位到视频中的特定片段。现有的视频时序定位的方法中,有使用一个滑动窗口选择视频,并将窗口内片段与自然语言描述粗融合进行语义相关性判断的(Gaoetal.2017;Hendricksetal.2017;2018),有使用交互器逐帧挑选出置信度最高的视频片段的(Chenetal.2018),也有使用强化学习方式来进行时序定位的(Wang,Huang,andWang2019),它们都取得了不错的效果。但是,现有的这些方法大多数是采用完全监督学习的方式,在数据集中,对于每个自然语言查询,都需要标注对应视频的起始时间和终止时间。这种完全监督学习的方法需要大量的人力成本和数据集标注时间,甚至在有些时候,如果原始视频还没有经过裁剪,视频片段的起始时间和终止时间就更加难以被确定。相反地,如果采用半监督学习的方法,数据集只需要输入一个视频和对应的自然语言描述,就可以高效、低成本地获取数据集。
技术实现思路
为了克服现有技术中对数据集的数量要求较高,训练成本昂贵的问题,本专利技术提出了一种新颖的视频时序定位的弱监督学习方法来解决视频时序定位问题,这个方法训练时仅仅需要粒度较粗的视频级别的标注数据集。本专利技术将首先使用一个候选产生模块,用于结合给定的自然语言文本,生成每个时间点对应的候选视频片段以及每个视频片段的置信度;然后设计一种特定的算法来从这些生成的候选视频片段中挑选出K个优先级最高的候选视频片段;接下来使用一个语义补全模块来计算挑选出来的候选视频片段与给定的自然语言描述之间的匹配程度,然后根据匹配程度计算激励,反馈给候选产生模块,使候选产生模块调整置信度计算的参数。在经过足够的训练之后,将会生成一个有效的候选产生模块。本专利技术在ActivityCaptions数据集和Charades-STA数据集上都取得了优异的效果。本专利技术所采用的具体技术方案是:一种使用语义补全神经网络来解决视频时序定位问题的方法,包含如下步骤:1.构建语义补全神经网络,包括候选产生模块和语义补全模块;所述的候选产生模块包括C3D模块、文本编码器和图像解码器,文本编码器和图像解码器均包括若干个多头注意力层以及一个全连接的反馈神经网络层;所述的语义补全模块包括C3D模块、图像编码器和文本解码器;2.针对于一个视频和一段自然语言描述,通过候选产生模块生成候选视频片段集合及每一个候选视频片段对应的置信度;3.设计一种挑选算法,从步骤2所述的候选视频片段集合中挑选出K个优先级最高的候选视频片段;4.通过语义补全模块计算步骤3挑选出来的K个优先级最高的候选视频片段与给定的自然语言描述之间的匹配程度,根据匹配程度计算对应于每一个候选视频片段的激励,并反馈给候选产生模块;5.重复步骤2-步骤4,不断地输入对应的一个视频和一段自然语言描述,对整个神经网络进行训练,最终得到训练好的语义补全神经网络;6.将待处理的一个视频和一段自然语言描述输入到步骤5)得到的训练好的语义补全神经网络中,输出自然语言描述相关的特定视频片段对应的起始帧下标和结束帧下标。本专利技术具备的有益效果是:本专利技术提出一个候选产生模块,可以使用一个文本编码器和图像解码器,来获取一个视频中各个视频片段对应给定的自然语言描述的置信度;提出一种基于非极大值抑制的挑选算法,挑选出K个候选视频片段,这个算法可以同时考虑视频的全局特征和局部特征;提出一个语义补全模块,可以使用一个文本解码器和图像编码器,来通过一个视频片段来补全一段被遮掩的自然语言描述。本专利技术使用的数据集中,每个视频只需要标注对应的一段自然语言描述,不需要为这段自然语言描述标注对应的视频片段的起始下标和结束下标,可以大大地节省数据集标注的成本。附图说明图1是语义补全神经网络的整体架构;图2是文本/图像编码器的网络结构;图3是文本/图像解码器的网络结构。具体实施方式下面结合附图和具体实施方式对本专利技术做进一步阐述和说明。图1为本专利技术的语义补全神经网络的整体架构,使用语义补全神经网络来解决视频时序定位问题,具体实施方案如下:步骤一、针对于一个视频和一段自然语言描述,通过一个结合文本编码器Encq和图像解码器Decv组成的候选产生模块来生成候选的视频片段及对应的置信度。在本专利技术的一个具体实施中,给定一个未修剪的视频其中nv是这个视频的帧的总数,vi是视频第i帧对应的特征向量;给定一个对应的自然语言描述其中qi是这段描述中第i个单词对应的特征向量;视频时序定位问题是为了从视频中提取出与这段自然语言描述相关性最高的视频片段其中分别是这段视频片段对应的起始帧下标和结束帧下标;采用文本编码器Encq获取的文本描述Encq(q),将Encq(q)和v输入图像解码器Decv,得到视频和文本的交叉描述公式如下所示:c=Decv(v,Encq(q))所述的文本编码器Encq和图像解码器Decv均包括若干个多头注意力层以及一个全连接的反馈神经网络层;定义每个时间点对应的候选视频片段Ct,计算公式如下:其中,rk是第k个候选视频片段对应的长度比例,rk∈(0,1);nk是第t个时间点对应的候选视频片段的数量;(t-rk*nv)和t分别是第t时间点第k个候选视频片段的起始帧下标和结束帧下标;进一步得到整个视频的候选视频片段集合nv是这个视频的帧的总数;将得到的视频和文本的交叉描述通过一个全连接层,以及用sigmoid激活函数去线性化后,得到中每一时间点对应的候选视频片段集合Ct的置信度,计算公式如下:SCt=σ(Ws*ct+bs)其中,表示选视频片段集合Ct中包含的nk个候选视频片段的置信度的向量。步骤二、使用结合随机化算法,并考虑非极大值抑制的算法,从这些生成的候选视频片段中挑选出K个优先级最高的候选视频片段。在本专利技术的一个具体实施中,设计一种挑选算法,所述挑选算法同时考虑全局特征和局部特征;采用所述挑选算法从候选视频片段集合中挑选出K个优先级最高的候选视频片段对应K个置信度其中Sk表示候选视频片段Gk的置信度,Gk=(sk,ek),代表候选视频片段Gk的起始帧下标和结束帧下标;所述挑选算法具体为:每次挑选候选视频片段时,有1-p的概率会挑选剩余置信度最高的候选视频片段,有p的概率会从剩余所有的候选视频片段中随机挑选一个,p的计算公式如下所示:p=λ1*exp(-nupdate/λ2)其中,λ1,λ2是超参数,用于调节这个衰减函数,nupdate本文档来自技高网...

【技术保护点】
1.一种使用语义补全神经网络来解决视频时序定位问题的方法,其特征在于,包括如下步骤:/n1)构建语义补全神经网络,包括候选产生模块和语义补全模块;所述的候选产生模块包括C3D模块、文本编码器和图像解码器,文本编码器和图像解码器均包括若干个多头注意力层以及一个全连接的反馈神经网络层;所述的语义补全模块包括C3D模块、图像编码器和文本解码器;/n2)针对于一个视频和一段自然语言描述,通过候选产生模块生成候选视频片段集合及每一个候选视频片段对应的置信度;/n3)设计一种挑选算法,从步骤2)所述的候选视频片段集合中挑选出K个优先级最高的候选视频片段;/n4)通过语义补全模块计算步骤3)挑选出来的K个优先级最高的候选视频片段与给定的自然语言描述之间的匹配程度,根据匹配程度计算对应于每一个候选视频片段的激励,并反馈给候选产生模块;/n5)重复步骤2)-步骤4),不断地输入对应的一个视频和一段自然语言描述,对整个神经网络进行训练,最终得到训练好的语义补全神经网络;/n6)将待处理的一个视频和一段自然语言描述输入到步骤5)得到的训练好的语义补全神经网络中,输出自然语言描述相关的特定视频片段对应的起始帧下标和结束帧下标。/n...

【技术特征摘要】
1.一种使用语义补全神经网络来解决视频时序定位问题的方法,其特征在于,包括如下步骤:
1)构建语义补全神经网络,包括候选产生模块和语义补全模块;所述的候选产生模块包括C3D模块、文本编码器和图像解码器,文本编码器和图像解码器均包括若干个多头注意力层以及一个全连接的反馈神经网络层;所述的语义补全模块包括C3D模块、图像编码器和文本解码器;
2)针对于一个视频和一段自然语言描述,通过候选产生模块生成候选视频片段集合及每一个候选视频片段对应的置信度;
3)设计一种挑选算法,从步骤2)所述的候选视频片段集合中挑选出K个优先级最高的候选视频片段;
4)通过语义补全模块计算步骤3)挑选出来的K个优先级最高的候选视频片段与给定的自然语言描述之间的匹配程度,根据匹配程度计算对应于每一个候选视频片段的激励,并反馈给候选产生模块;
5)重复步骤2)-步骤4),不断地输入对应的一个视频和一段自然语言描述,对整个神经网络进行训练,最终得到训练好的语义补全神经网络;
6)将待处理的一个视频和一段自然语言描述输入到步骤5)得到的训练好的语义补全神经网络中,输出自然语言描述相关的特定视频片段对应的起始帧下标和结束帧下标。


2.根据权利要求1所述的一种使用语义补全神经网络来解决视频时序定位问题的方法,其特征在于,所述的步骤2)具体为:
2.1)给定一个未修剪的视频其中nv是这个视频的帧的总数,vi是视频第i帧对应的特征向量;
给定一个对应的自然语言描述其中qi是这段描述中第i个单词对应的特征向量;
视频时序定位问题是为了从视频中提取出与这段自然语言描述相关性最高的视频片段其中分别是这段视频片段对应的起始帧下标和结束帧下标;
2.2)采用文本编码器Encq获取的文本描述Encq(q),将Encq(q)和v输入图像解码器Decv,得到视频和文本的交叉描述公式如下所示:
c=Decv(v,Encq(q))
所述的文本编码器Encq和图像解码器Decv均包括若干个多头注意力层以及一个全连接的反馈神经网络层;
2.3)定义每个时间点对应的候选视频片段Ct,计算公式如下:



其中,rk是第k个候选视频片段对应的长度比例,rk∈(0,1);nk是第t个时间点对应的候选视频片段的数量;(t-rk*nv)和t分别是第t时间点第k个候选视频片段的起始帧下标和结束帧下标;
进一步得到整个视频的候选视频片段集合nv是这个视频的帧的总数;
将步骤2.2)得到的视频和文本的交叉描述通过一个全连接层,以及用sigmoid激活函数去线性化后,得到中每一时间点对应的候选视频片段集合Ct的置信度,计算公式如下:
SCt=σ(Ws*ct+bs)
其中,表示选视频片段集合Ct中包含的nk个候选视频片段的置信度的向量。


3.根据权利要求1所述的一种使用语义补全神经网络来解决视频时序定位问题的方法,其特征在于,所述的步骤3)具体为:
设计一种挑选算法,所述挑选算法同时考虑全局特征和局部特征;采用所述挑选算法从步骤2)获得的候选视频片段集合中挑选出K个优先级最高的候选视频片段对应K个置信度其中Sk表示候选视频...

【专利技术属性】
技术研发人员:赵洲黄启涵林志杰
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1