视频数据处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:39280318 阅读:11 留言:0更新日期:2023-11-07 10:54
本申请提供了一种视频数据处理方法、装置、设备及计算机可读存储介质;方法包括:获取训练数据和预设的视频片段识别模型;根据高斯分布确定多个训练候选视频片段的高斯权重,并确定各个训练候选视频片段与训练文本之间的语义相似权重,基于各个训练候选视频片段的高斯权重和各个训练候选视频片段对应的语义相似权重确定各个训练候选视频片段的先验权重;从多个训练候选视频片段中确定正样本数据,并确定负样本数据,正样本数据中包括标注帧,负样本数据中不包括标注帧;利用正样本数据、正样本数据的先验权重和负样本数据对视频片段识别模型进行训练,得到训练好的视频片段识别模型。通过本申请,能够得到可以缓解标注偏置的视频片段识别模型。的视频片段识别模型。的视频片段识别模型。

【技术实现步骤摘要】
视频数据处理方法、装置、设备及计算机可读存储介质


[0001]本申请涉及人工智能技术,尤其涉及一种视频数据处理方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]基于文本的视频片段定位(Temporal Sentence Grounding,TSG),在网络视频播放平台具有广泛的应用前景。用户可以根据自己的偏好,快速从长视频中快速寻找到自己感兴趣的片段,极大提升用户的体验感。TSG旨在学习一个文本和视频语义对齐的特征空间,即最大化给定文本描述与对应的视频片段之间的相似度而最小化该文本与不相关的视频片段之间的相似度。用于进行视频片段定位的神经网络模型早期主要是聚焦于全监督模式,在该模式下需要完整的标注信息,因此需要耗费大量的人力和时间成本。弱监督模式,只需要视频和文本对的标注。然而,由于视频级的标注和片段级的任务存在着较大的不一致,利用弱监督方法训练得到的模型性能较差。

技术实现思路

[0003]本申请实施例提供一种视频数据处理方法、装置及计算机可读存储介质,能够得到可以缓解标注偏置的视频片段识别模型,从而提高视频片段识别的准确性。
[0004]本申请实施例的技术方案是这样实现的:
[0005]本申请实施例提供一种视频数据处理方法,所述方法包括:
[0006]获取训练数据和预设的视频片段识别模型,所述训练数据包括训练文本、所述训练文本对应的训练视频数据和所述训练视频数据的标注帧信息,所述训练视频数据划分成的N个初始视频片段中的训练视频帧与标注帧所在初始视频片段之间的相关性采用高斯分布表示;
[0007]根据所述高斯分布确定多个训练候选视频片段的高斯权重,并确定各个训练候选视频片段与所述训练文本之间的语义相似权重,所述训练候选视频片段是由所述训练视频数据划分成的N个初始视频片段中至少一个构成的连续视频片段,所述高斯权重表征所述训练候选视频片段与标注帧所在初始视频片段之间的相关性;
[0008]基于所述各个训练候选视频片段的高斯权重和所述各个训练候选视频片段对应的语义相似权重确定所述各个训练候选视频片段的先验权重;
[0009]从所述多个训练候选视频片段中确定正样本数据,并确定负样本数据,所述正样本数据中包括所述标注帧,所述负样本数据中不包括所述标注帧;
[0010]利用所述正样本数据、所述正样本数据的先验权重和所述负样本数据对所述视频片段识别模型进行训练,得到训练好的视频片段识别模型。
[0011]本申请实施例提供一种视频数据处理装置,包括:
[0012]第一获取模块,用于获取训练数据和预设的视频片段识别模型,所述训练数据包括训练文本、所述训练文本对应的训练视频数据和所述训练视频数据的标注帧信息,所述
训练视频数据划分成的N个初始视频片段中的训练视频帧与标注帧所在初始视频片段之间的相关性采用高斯分布表示;
[0013]第一确定模块,用于根据所述高斯分布确定多个训练候选视频片段的高斯权重,并确定各个训练候选视频片段与所述训练文本之间的语义相似权重,所述训练候选视频片段是由所述训练视频数据划分成的N个初始视频片段中至少一个构成的连续视频片段,所述高斯权重表征所述训练候选视频片段与标注帧所在初始视频片段之间的相关性;
[0014]第二确定模块,用于基于所述各个训练候选视频片段的高斯权重和所述各个训练候选视频片段对应的语义相似权重确定所述各个训练候选视频片段的先验权重;
[0015]第三确定模块,用于从所述多个训练候选视频片段中确定正样本数据,并确定负样本数据,所述正样本数据中包括所述标注帧,所述负样本数据中不包括所述标注帧;
[0016]模型训练模块,用于利用所述正样本数据、所述正样本数据的先验权重和所述负样本数据对所述视频片段识别模型进行训练,得到训练好的视频片段识别模型。
[0017]本申请实施例提供一种计算机设备,所述计算机设备包括:
[0018]存储器,用于存储计算机可执行指令;
[0019]处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的视频数据处理方法。
[0020]本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的视频数据处理方法。
[0021]本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,述计算机程序或计算机可执行指令被处理器执行时,实现本申请实施例提供的视频数据处理方法。
[0022]本申请实施例具有以下有益效果:
[0023]首先获取包括训练文本、所述训练文本对应的训练视频数据和所述训练视频数据的标注帧信息的训练数据和预设的视频片段识别模型,训练视频数据划分成的N个初始视频片段中的训练视频帧与标注帧所在初始视频片段之间的相关性采用高斯分布表示;进而根据高斯分布确定多个训练候选视频片段的高斯权重,并确定各个训练候选视频片段与所述训练文本之间的语义相似权重,其中,训练候选视频片段是由所述训练视频数据划分成的N个初始视频片段中至少一个构成的连续视频片段,因此多个训练候选视频片段具有不同的时长,高斯权重表征训练候选视频片段与标注帧所在初始视频片段之间的相关性,然后基于所述各个训练候选视频片段的高斯权重和所述各个训练候选视频片段对应的语义相似权重确定所述各个训练候选视频片段的先验权重,也就是说在本申请实施例中通过语义相似权重对高斯权重进行校准,从而能够弥补单帧标注引起的标注偏置问题,然后再从所述多个训练候选视频片段中确定正样本数据,并确定负样本数据,并利用所述正样本数据、所述正样本数据的先验权重和所述负样本数据对所述视频片段识别模型进行训练,得到训练好的视频片段识别模型,从而提高利用训练好的视频片段识别模型进行视频片段识别和定位的准确性。
附图说明
[0024]图1是本申请实施例提供的视频数据处理系统架构的结构示意图;
[0025]图2是本申请实施例提供的服务器的结构示意图;
[0026]图3A是本申请实施例提供的视频数据处理方法的一种实现流程示意图;
[0027]图3B是本申请实施例提供的各个训练候选视频片段与所述训练文本之间的高斯权重和语义相似权重的实现流程示意图;
[0028]图3C是本申请实施例提供的确定各个训练候选视频片段的起始位置信息、结束位置信息和中间位置信息的实现流程示意图;
[0029]图3D是本申请实施例提供的确定各个训练候选视频片段对应的起始权重的一种实现流程示意图;
[0030]图3E是本申请实施例提供的确定各个训练候选视频片段对应的起始权重的另一种实现流程示意图;
[0031]图4是本申请实施例提供的确定各个训练候选视频片段的候选视频特征的实现流程示意图;
[0032]图5是本申请实施例提供的视频数据处理方法的另一种实现流程示意图;
[0033]图6是本申请实施例提供的单帧标注和动态高斯先验的视频片段定位的网络框架示意图。
具体实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频数据处理方法,其特征在于,所述方法包括:获取训练数据和预设的视频片段识别模型,所述训练数据包括训练文本、所述训练文本对应的训练视频数据和所述训练视频数据的标注帧信息,所述训练视频数据划分成的N个初始视频片段中的训练视频帧与标注帧所在初始视频片段之间的相关性采用高斯分布表示;根据所述高斯分布确定多个训练候选视频片段的高斯权重,并确定各个训练候选视频片段与所述训练文本之间的语义相似权重,所述训练候选视频片段是由所述训练视频数据划分成的N个初始视频片段中至少一个构成的连续视频片段,所述高斯权重表征所述训练候选视频片段与标注帧所在初始视频片段之间的相关性;基于所述各个训练候选视频片段的高斯权重和所述各个训练候选视频片段对应的语义相似权重确定所述各个训练候选视频片段的先验权重;从所述多个训练候选视频片段中确定正样本数据,并确定负样本数据,所述正样本数据中包括所述标注帧,所述负样本数据中不包括所述标注帧;利用所述正样本数据、所述正样本数据的先验权重和所述负样本数据对所述视频片段识别模型进行训练,得到训练好的视频片段识别模型。2.根据权利要求1中所述的方法,其特征在于,所述根据所述高斯分布确定多个训练候选视频片段的高斯权重,包括:确定各个训练候选视频片段的起始帧在所述训练视频数据中的起始位置信息、结束帧在所述训练视频数据中的结束位置信息和中间帧在所述训练视频数据中的中间位置信息;基于所述高斯分布、所述各个训练候选视频片段的起始位置信息和所述标注帧信息确定所述各个训练候选视频片段对应的起始权重;基于所述高斯分布、所述各个训练候选视频片段的结束位置信息和所述标注帧信息确定所述各个训练候选视频片段对应的结束权重;基于所述高斯分布、各个训练候选视频片段的中间位置信息和所述标注帧信息确定所述各个训练候选视频片段对应的中间权重;基于所述各个训练候选视频片段分别对应的所述起始权重和所述结束权重的至少一者,以及所述中间权重确定所述各个训练候选视频片段的高斯权重。3.根据权利要求2中所述的方法,其特征在于,所述基于所述高斯分布、所述各个训练候选视频片段的起始位置信息和所述标注帧信息确定所述各个训练候选视频片段对应的起始权重,包括:基于所述标注帧信息确定标注位置信息;将所述标注位置信息确定为用于表征所述高斯分布的高斯函数的第一期望值;基于所述高斯函数、所述第一期望值和所述各个训练候选视频片段的起始位置信息,确定所述各个训练候选视频片段对应的起始权重,所述起始权重表示训练候选视频片段中的起始帧与所述标注帧所在初始视频片段之间的相关性。4.根据权利要求2中所述的方法,其特征在于,所述基于所述高斯分布、所述各个训练候选视频片段的起始位置信息和所述标注帧信息确定所述各个训练候选视频片段对应的起始权重,包括:确定所述N个初始视频片段和所述标注帧所在的初始视频片段之间的相关性系数;
将相关性系数大于或者等于预设系数阈值的初始视频片段确定为参考标注片段;基于所述参考标注片段、所述各个训练候选视频片段的起始位置信息和所述高斯函数,确定所述各个训练候选视频片段对应的第一参考权重;基于所述各个训练候选视频片段对应的第一参考权重确定各个训练候选视频片段对应的起始权重。5.根据权利要求4中所述的方法,其特征在于,所述确定所述N个初始视频片段和所述标注帧所在的初始视频片段之间的相关性系数,包括:获取各个初始视频片段的初始片段特征;基于所述各个初始视频片段的初始片段特征和所述标注帧所在的初始视频片段的初始片段特征确定所述各个初始视频片段和所述标注帧所在的初始视频片段之间的相关性系数。6.根据权利要求4中所述的方法,其特征在于,所述基于所述参考标注片段、所述各个训练候选视频片段的起始位置信息和所述高斯函数,确定所述各个训练候选视频片段对应的第一参考权重,包括:获取所述参考标注片段对应的参考标注位置信息;将所述参考标注位置信息确定为用于表征所述高斯分布的高斯函数的第二期望值;基于所述各个训练候选视频片段的起始位置信息、所述高斯函数和所述第二期望值,确定所述各个训练候选视频片段对应的第一参考权重。7.根据权利要求4中所述的方法,其特征在于,所述基于所述高斯分布、各个训练候选视频片段的中间位置信息和...

【专利技术属性】
技术研发人员:李汉俊舒秀军谯睿智
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1