一种视频时序定位方法、装置、存储介质及电子设备制造方法及图纸

技术编号:34894548 阅读:17 留言:0更新日期:2022-09-10 13:54
在本说明书提供的视频时序定位方法中,会将获取到的待定位视频和目标文本输入时序定位模型中,提取待定位视频中每一视频帧的图像特征,同时,将待定位视频划分为若干视频片段;根据视频帧的图像特征确定视频片段的视频特征,根据视频特征确定各视频片段与目标文本之间的相关值和划分质量,再根据相关值和划分质量确定视频片段与目标文本之间的匹配值,最终根据匹配值确定出与目标文本匹配的视频片段。采用本说明书提供的视频时序定位方法时,视频片段的视频特征是由视频片段中每一帧的图像特征的序列组成的,在使用的过程中不会忽略视频中的任何特征,避免了网络在计算过程中丢失部分特征的情况,能够为目标文本匹配到更准确的视频片段。的视频片段。的视频片段。

【技术实现步骤摘要】
一种视频时序定位方法、装置、存储介质及电子设备


[0001]本说明书涉及计算机
,尤其涉及一种视频时序定位方法、装置、存储介质及电子设备。

技术介绍

[0002]视频时序定位是一种根据给定的文本,在给定的视频中确定出视频内容与这段文本所表达的内容相匹配的视频片段的技术,在视频直播、监控等场景中有着较为频繁的应用。
[0003]现有技术在实现视频时序定位时,通常会将视频分割为若干视频片段后,利用神经网络提取每个视频片段的视频特征以及文本的文本特征,并利用提取出的特征计算文本与各视频片段之间的匹配程度,最终将与文本的匹配程度最高的视频片段作为定位到的视频片段。
[0004]但由于神经网络的特性,在处理视频特征时通常会重点关注特征更丰富的部分,也就是视频内容较为丰富、突出的部分;而相对应的,神经网络会常常会忽略特征不明显的部分,比如视频内容较为平淡的部分或视频片段的开头和结尾部分等。换句话说,现有的视频时序定位方法只能有效利用部分视频特征,其对于视频内容与文本的匹配结果的准确度仍有待提高。

技术实现思路

[0005]本说明书提供一种视频时序定位方法、装置、存储介质及电子设备,以至少部分地解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:
[0007]本说明书提供了一种视频时序定位方法,包括:
[0008]获取待定位视频和目标文本;
[0009]将所述待定位视频划分为若干个视频片段;并,将所述待定位视频和所述目标文本输入预先训练的时序定位模型中,以通过所述时序定位模型确定所述待定位视频中每一视频帧的图像特征,其中,一个视频帧的图像特征是根据该视频帧和所述目标文本得到的;
[0010]针对每个视频片段,将该视频片段中包含的所有视频帧的图像特征的序列作为该视频片段的视频特征;
[0011]根据该视频片段的视频特征确定该视频片段与所述目标文本之间的相关值,以及该视频片段的划分质量;
[0012]根据各视频片段与所述目标文本之间的相关值以及各视频片段的划分质量确定各视频片段与所述目标文本之间的匹配值;
[0013]根据各视频片段与所述目标文本之间的匹配值确定与所述目标文本匹配的视频片段。
[0014]可选的,将所述待定位视频划分为若干个视频片段,具体包括:
[0015]遍历各预设的窗口宽度和滑动步长的组合,采用下述方式将所述待定位视频划分为若干个视频片段:
[0016]针对指定窗口宽度和指定滑动步长,采用指定窗口宽度的窗口在所述待定位视频的时间轴上以所述指定滑动步长滑动,将每次滑动后窗口中包含的视频作为一个视频片段。
[0017]可选的,根据该视频片段的视频特征确定该视频片段的划分质量,具体包括:
[0018]根据该视频片段的起始帧的图像特征和结束帧的图像特征,确定该视频片段的起始帧和结束帧是所述待定位视频的语义分割点的概率;
[0019]根据该视频片段的起始帧和结束帧是语义分割点的概率,确定该视频片段的划分质量。
[0020]可选的,所述时序定位模型为多任务模型;
[0021]所述时序定位模型包括:特征提取层、第一任务输出层、第二任务输出层;
[0022]预先训练时序定位模型,具体包括:
[0023]获取样本文本和样本视频;
[0024]将所述样本视频划分为若干个样本视频片段,并将所述样本文本和所述样本视频输入待训练的时序定位模型中,以通过所述时序定位模型中的特征提取层确定所述样本视频中每一视频帧的待优化图像特征,其中,一个视频帧的待优化图像特征是根据各视频帧和所述样本文本得到的;
[0025]针对每个样本视频片段,将该样本视频片段中包含的所有视频帧的图像特征的序列作为该样本视频片段的待优化视频特征;
[0026]将该样本视频片段的视频特征分别输入第一任务输出层和第二任务输出层,得到第一任务输出层输出的该样本视频片段与所述样本文本之间的待优化相关值,以及第二任务输出层输出的该样本视频片段的待优化划分质量;
[0027]以所述样本视频片段与所述样本文本之间的所述待优化相关值和标注相关值之间的差异最小为优化目标,调整所述特征提取层和所述第一任务输出层的模型参数,以所述样本视频片段的待优化划分质量和标注划分质量之间的差异最小为优化目标,调整所述特征提取层和所述第二任务输出层的模型参数,其中,所述标注相关值是根据该样本视频片段的视频内容标注的,所述标注划分质量是根据所述样本视频的时间轴标注的。
[0028]可选的,获取样本文本和样本视频,具体包括:
[0029]获取第一文本、第二文本,以及与第一文本匹配的第一视频和与第二文本匹配的第二视频;
[0030]将所述第一文本、第二本文作为样本文本;
[0031]在所述第二视频中截取指定长度的视频片段;
[0032]采用在所述第二视频中截取的视频片段替换第一视频中指定长度的视频片段,将被替换后的第一视频作为样本视频。
[0033]可选的,根据该样本视频片段的视频内容标注该样本视频片段与所述样本文本之间的标注相关值,具体包括:
[0034]根据该样本视频片段中与所述样本文本匹配的视频在所述样本视频片段中的占比,标注该样本视频片段与所述样本文本之间的标注相关值。
[0035]可选的,根据所述样本视频的时间轴对标注划分质量进行标注,具体包括:
[0036]将所述第一视频中被替换的视频片段的起始位置和结束位置作为所述样本视频的拼接位置;
[0037]将所述样本视频的起始位置、拼接位置、结束位置作为所述样本视频的语义分割点;
[0038]根据所述样本拼接视频的语义分割点对标注划分质量进行标注。
[0039]可选的,所述模型还包括第三任务输出层;
[0040]在确定所述样本视频中每一视频帧与所述样本文本相关的待优化图像特征之后,还包括:
[0041]将与所述样本文本匹配的视频在所述样本视频中的占比,作为所述样本文本对所述样本视频的标注占比;
[0042]将所述样本视频中各视频帧的待优化图像特征输入所述第三任务输出层,得到第三任务输出层输出的所述样本文本匹配的视频的视频内容在所述样本视频的视频内容中的待优化占比;
[0043]以所述待优化占比和所述标注占比之间的差异最小为优化目标,调整所述特征提取层的模型参数。
[0044]可选的,所述模型还包括第四任务输出层;
[0045]在获取样本文本和样本视频之后,所述方法还包括:
[0046]对所述样本文本进行加扰,得到加扰文本,并确定所述样本文本中被加扰的原始词;
[0047]确定所述加扰文本的待优化文本特征,所述待优化文本特征是根据所述加扰文本和所述样本视频得到的;
[0048]将所述待优化文本特征输入所述第四任务输出层,得到第四任务输出层输出的所述加扰文本中被加扰的词;
[0049]以确定出的所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频时序定位方法,其特征在于,包括:获取待定位视频和目标文本;将所述待定位视频划分为若干个视频片段;并,将所述待定位视频和所述目标文本输入预先训练的时序定位模型中,以通过所述时序定位模型确定所述待定位视频中每一视频帧的图像特征,其中,一个视频帧的图像特征是根据该视频帧和所述目标文本得到的;针对每个视频片段,将该视频片段中包含的所有视频帧的图像特征的序列作为该视频片段的视频特征;根据该视频片段的视频特征确定该视频片段与所述目标文本之间的相关值,以及该视频片段的划分质量;根据各视频片段与所述目标文本之间的相关值以及各视频片段的划分质量确定各视频片段与所述目标文本之间的匹配值;根据各视频片段与所述目标文本之间的匹配值确定与所述目标文本匹配的视频片段。2.如权利要求1所述的方法,其特征在于,将所述待定位视频划分为若干个视频片段,具体包括:遍历各预设的窗口宽度和滑动步长的组合,采用下述方式将所述待定位视频划分为若干个视频片段:针对指定窗口宽度和指定滑动步长,采用指定窗口宽度的窗口在所述待定位视频的时间轴上以所述指定滑动步长滑动,将每次滑动后窗口中包含的视频作为一个视频片段。3.如权利要求1所述的方法,其特征在于,根据该视频片段的视频特征确定该视频片段的划分质量,具体包括:根据该视频片段的起始帧的图像特征和结束帧的图像特征,确定该视频片段的起始帧和结束帧是所述待定位视频的语义分割点的概率;根据该视频片段的起始帧和结束帧是语义分割点的概率,确定该视频片段的划分质量。4.如权利要求1所述的方法,其特征在于,所述时序定位模型为多任务模型;所述时序定位模型包括:特征提取层、第一任务输出层、第二任务输出层;预先训练时序定位模型,具体包括:获取样本文本和样本视频;将所述样本视频划分为若干个样本视频片段,并将所述样本文本和所述样本视频输入待训练的时序定位模型中,以通过所述时序定位模型中的特征提取层确定所述样本视频中每一视频帧的待优化图像特征,其中,一个视频帧的待优化图像特征是根据该视频帧和所述样本文本得到的;针对每个样本视频片段,将该样本视频片段中包含的所有视频帧的图像特征的序列作为该样本视频片段的待优化视频特征;将该样本视频片段的视频特征分别输入第一任务输出层和第二任务输出层,得到第一任务输出层输出的该样本视频片段与所述样本文本之间的待优化相关值,以及第二任务输出层输出的该样本视频片段的待优化划分质量;以所述样本视频片段与所述样本文本之间的所述待优化相关值和标注相关值之间的差异最小为优化目标,调整所述特征提取层和所述第一任务输出层的模型参数,以所述样本视频片段的待优化划分质量和标注划分质量之间的差异最小为优化目标,调整所述特征
提取层和所述第二任务输出层的模型参数,其中,所述标注相关值是根据该样本视频片段的视频内容标注的,所述标注划分质量是根据所述样本视频的时间轴标注的。5.如权利要求4所述的方法,其特征在于,获取样本文本和样本视频,具体包括:获取第一文本、第二文本,以及与第一文本匹配的第一视频和与第二文本匹配的第二视频;将所述第一文本、第二本文作为样本文本;在所述第二视频中截取指定长度的视频片段;采用在所述第二视频中截取的...

【专利技术属性】
技术研发人员:陈佳铭马林罗伟鑫张伟
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1