一种使用语义补全神经网络来解决视频时序定位问题的方法技术

技术编号：24353720 阅读：53 留言：0更新日期：2020-06-03 02:07

本发明专利技术公开了一种使用语义补全神经网络来解决视频时序定位问题的方法。主要包括如下步骤：1)针对于一个视频和一段自然语言描述，通过一个候选产生模块来生成候选的视频片段及对应的置信度，并使用特定的算法从中挑选出K个优先级最高的候选视频片段。2)通过语义补全模块计算K个候选视频片段的激励，并反馈给候选产生模块。3)重复以上步骤对整个网络进行训练，得到良好的视频时序定位的网络。相比于传统的视频时序定位的学习方法，本发明专利技术的学习方法是弱监督的学习方法，仅仅需要粗粒度的视频级别的标注数据集，可以节省昂贵的数据集标注成本。

A method to solve the problem of video timing location using semantic completion neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种使用语义补全神经网络来解决视频时序定位问题的方法
本专利技术涉及视频时序定位的学习，尤其涉及种使用语义补全神经网络来解决视频时序定位问题的方法。
技术介绍
视频时序定位指的是根据一段自然语言描述从给定的视频中提取出符合这段描述的特定视频片段，这是信息提取和计算机视觉中的一个重要主题，在最近几年吸引了越来越多的关注。该技术可以高效地提取出视频中的信息，帮助用户更快地定位到视频中的特定片段。现有的视频时序定位的方法中，有使用一个滑动窗口选择视频，并将窗口内片段与自然语言描述粗融合进行语义相关性判断的(Gaoetal.2017；Hendricksetal.2017；2018)，有使用交互器逐帧挑选出置信度最高的视频片段的(Chenetal.2018)，也有使用强化学习方式来进行时序定位的(Wang,Huang,andWang2019)，它们都取得了不错的效果。但是，现有的这些方法大多数是采用完全监督学习的方式，在数据集中，对于每个自然语言查询，都需要标注对应视频的起始时间和终止时间。这种完全监督学习的方法需要大量的人力成本和数据集标注时间，甚至在有些时候，如果原始视频还没有经过裁剪，视频片段的起始时间和终止时间就更加难以被确定。相反地，如果采用半监督学习的方法，数据集只需要输入一个视频和对应的自然语言描述，就可以高效、低成本地获取数据集。
技术实现思路
为了克服现有技术中对数据集的数量要求较高，训练成本昂贵的问题，本专利技术提出了一种新颖的视频时序定位的弱监督学习方法来解决视频时序定位问题，...

【技术保护点】
1.一种使用语义补全神经网络来解决视频时序定位问题的方法，其特征在于，包括如下步骤：/n1)构建语义补全神经网络，包括候选产生模块和语义补全模块；所述的候选产生模块包括C3D模块、文本编码器和图像解码器，文本编码器和图像解码器均包括若干个多头注意力层以及一个全连接的反馈神经网络层；所述的语义补全模块包括C3D模块、图像编码器和文本解码器；/n2)针对于一个视频和一段自然语言描述，通过候选产生模块生成候选视频片段集合及每一个候选视频片段对应的置信度；/n3)设计一种挑选算法，从步骤2)所述的候选视频片段集合中挑选出K个优先级最高的候选视频片段；/n4)通过语义补全模块计算步骤3)挑选出来的K个优先级最高的候选视频片段与给定的自然语言描述之间的匹配程度，根据匹配程度计算对应于每一个候选视频片段的激励，并反馈给候选产生模块；/n5)重复步骤2)-步骤4)，不断地输入对应的一个视频和一段自然语言描述，对整个神经网络进行训练，最终得到训练好的语义补全神经网络；/n6)将待处理的一个视频和一段自然语言描述输入到步骤5)得到的训练好的语义补全神经网络中，输出自然语言描述相关的特定视频片段对应的起始帧下标和结束帧下标。/n...

【技术特征摘要】
1.一种使用语义补全神经网络来解决视频时序定位问题的方法，其特征在于，包括如下步骤：
1)构建语义补全神经网络，包括候选产生模块和语义补全模块；所述的候选产生模块包括C3D模块、文本编码器和图像解码器，文本编码器和图像解码器均包括若干个多头注意力层以及一个全连接的反馈神经网络层；所述的语义补全模块包括C3D模块、图像编码器和文本解码器；
2)针对于一个视频和一段自然语言描述，通过候选产生模块生成候选视频片段集合及每一个候选视频片段对应的置信度；
3)设计一种挑选算法，从步骤2)所述的候选视频片段集合中挑选出K个优先级最高的候选视频片段；
4)通过语义补全模块计算步骤3)挑选出来的K个优先级最高的候选视频片段与给定的自然语言描述之间的匹配程度，根据匹配程度计算对应于每一个候选视频片段的激励，并反馈给候选产生模块；
5)重复步骤2)-步骤4)，不断地输入对应的一个视频和一段自然语言描述，对整个神经网络进行训练，最终得到训练好的语义补全神经网络；
6)将待处理的一个视频和一段自然语言描述输入到步骤5)得到的训练好的语义补全神经网络中，输出自然语言描述相关的特定视频片段对应的起始帧下标和结束帧下标。

2.根据权利要求1所述的一种使用语义补全神经网络来解决视频时序定位问题的方法，其特征在于，所述的步骤2)具体为：
2.1)给定一个未修剪的视频其中nv是这个视频的帧的总数，vi是视频第i帧对应的特征向量；
给定一个对应的自然语言描述其中qi是这段描述中第i个单词对应的特征向量；
视频时序定位问题是为了从视频中提取出与这段自然语言描述相关性最高的视频片段其中分别是这段视频片段对应的起始帧下标和结束帧下标；
2.2)采用文本编码器Encq获取的文本描述Encq(q)，将Encq(q)和v输入图像解码器Decv，得到视频和文本的交叉描述公式如下所示：
c＝Decv(v,Encq(q))
所述的文本编码器Encq和图像解码器Decv均包括若干个多头注意力层以及一个全连接的反馈神经网络层；
2.3)定义每个时间点对应的候选视频片段Ct，计算公式如下：

其中，rk是第k个候选视频片段对应的长度比例，rk∈(0,1)；nk是第t个时间点对应的候选视频片段的数量；(t-rk*nv)和t分别是第t时间点第k个候选视频片段的起始帧下标和结束帧下标；
进一步得到整个视频的候选视频片段集合nv是这个视频的帧的总数；
将步骤2.2)得到的视频和文本的交叉描述通过一个全连接层，以及用sigmoid激活函数去线性化后，得到中每一时间点对应的候选视频片段集合Ct的置信度，计算公式如下：
SCt＝σ(Ws*ct+bs)
其中，表示选视频片段集合Ct中包含的nk个候选视频片段的置信度的向量。

3.根据权利要求1所述的一种使用语义补全神经网络来解决视频时序定位问题的方法，其特征在于，所述的步骤3)具体为：
设计一种挑选算法，所述挑选算法同时考虑全局特征和局部特征；采用所述挑选算法从步骤2)获得的候选视频片段集合中挑选出K个优先级最高的候选视频片段对应K个置信度其中Sk表示候选视频...

【专利技术属性】
技术研发人员：赵洲，黄启涵，林志杰，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人