【技术实现步骤摘要】
视频数据处理方法、装置、设备及计算机可读存储介质
[0001]本申请涉及人工智能技术,尤其涉及一种视频数据处理方法、装置、设备及计算机可读存储介质。
技术介绍
[0002]基于文本的视频片段定位(Temporal Sentence Grounding,TSG),在网络视频播放平台具有广泛的应用前景。用户可以根据自己的偏好,快速从长视频中快速寻找到自己感兴趣的片段,极大提升用户的体验感。TSG旨在学习一个文本和视频语义对齐的特征空间,即最大化给定文本描述与对应的视频片段之间的相似度而最小化该文本与不相关的视频片段之间的相似度。用于进行视频片段定位的神经网络模型早期主要是聚焦于全监督模式,在该模式下需要完整的标注信息,因此需要耗费大量的人力和时间成本。弱监督模式,只需要视频和文本对的标注。然而,由于视频级的标注和片段级的任务存在着较大的不一致,利用弱监督方法训练得到的模型性能较差。
技术实现思路
[0003]本申请实施例提供一种视频数据处理方法、装置及计算机可读存储介质,能够得到可以缓解标注偏置的视频片段识别模型,从而提高视频片段识别的准确性。
[0004]本申请实施例的技术方案是这样实现的:
[0005]本申请实施例提供一种视频数据处理方法,所述方法包括:
[0006]获取训练数据和预设的视频片段识别模型,所述训练数据包括训练文本、所述训练文本对应的训练视频数据和所述训练视频数据的标注帧信息,所述训练视频数据划分成的N个初始视频片段中的训练视频帧与标注帧所在初始视频片段之间的相关 ...
【技术保护点】
【技术特征摘要】
1.一种视频数据处理方法,其特征在于,所述方法包括:获取训练数据和预设的视频片段识别模型,所述训练数据包括训练文本、所述训练文本对应的训练视频数据和所述训练视频数据的标注帧信息,所述训练视频数据划分成的N个初始视频片段中的训练视频帧与标注帧所在初始视频片段之间的相关性采用高斯分布表示;根据所述高斯分布确定多个训练候选视频片段的高斯权重,并确定各个训练候选视频片段与所述训练文本之间的语义相似权重,所述训练候选视频片段是由所述训练视频数据划分成的N个初始视频片段中至少一个构成的连续视频片段,所述高斯权重表征所述训练候选视频片段与标注帧所在初始视频片段之间的相关性;基于所述各个训练候选视频片段的高斯权重和所述各个训练候选视频片段对应的语义相似权重确定所述各个训练候选视频片段的先验权重;从所述多个训练候选视频片段中确定正样本数据,并确定负样本数据,所述正样本数据中包括所述标注帧,所述负样本数据中不包括所述标注帧;利用所述正样本数据、所述正样本数据的先验权重和所述负样本数据对所述视频片段识别模型进行训练,得到训练好的视频片段识别模型。2.根据权利要求1中所述的方法,其特征在于,所述根据所述高斯分布确定多个训练候选视频片段的高斯权重,包括:确定各个训练候选视频片段的起始帧在所述训练视频数据中的起始位置信息、结束帧在所述训练视频数据中的结束位置信息和中间帧在所述训练视频数据中的中间位置信息;基于所述高斯分布、所述各个训练候选视频片段的起始位置信息和所述标注帧信息确定所述各个训练候选视频片段对应的起始权重;基于所述高斯分布、所述各个训练候选视频片段的结束位置信息和所述标注帧信息确定所述各个训练候选视频片段对应的结束权重;基于所述高斯分布、各个训练候选视频片段的中间位置信息和所述标注帧信息确定所述各个训练候选视频片段对应的中间权重;基于所述各个训练候选视频片段分别对应的所述起始权重和所述结束权重的至少一者,以及所述中间权重确定所述各个训练候选视频片段的高斯权重。3.根据权利要求2中所述的方法,其特征在于,所述基于所述高斯分布、所述各个训练候选视频片段的起始位置信息和所述标注帧信息确定所述各个训练候选视频片段对应的起始权重,包括:基于所述标注帧信息确定标注位置信息;将所述标注位置信息确定为用于表征所述高斯分布的高斯函数的第一期望值;基于所述高斯函数、所述第一期望值和所述各个训练候选视频片段的起始位置信息,确定所述各个训练候选视频片段对应的起始权重,所述起始权重表示训练候选视频片段中的起始帧与所述标注帧所在初始视频片段之间的相关性。4.根据权利要求2中所述的方法,其特征在于,所述基于所述高斯分布、所述各个训练候选视频片段的起始位置信息和所述标注帧信息确定所述各个训练候选视频片段对应的起始权重,包括:确定所述N个初始视频片段和所述标注帧所在的初始视频片段之间的相关性系数;
将相关性系数大于或者等于预设系数阈值的初始视频片段确定为参考标注片段;基于所述参考标注片段、所述各个训练候选视频片段的起始位置信息和所述高斯函数,确定所述各个训练候选视频片段对应的第一参考权重;基于所述各个训练候选视频片段对应的第一参考权重确定各个训练候选视频片段对应的起始权重。5.根据权利要求4中所述的方法,其特征在于,所述确定所述N个初始视频片段和所述标注帧所在的初始视频片段之间的相关性系数,包括:获取各个初始视频片段的初始片段特征;基于所述各个初始视频片段的初始片段特征和所述标注帧所在的初始视频片段的初始片段特征确定所述各个初始视频片段和所述标注帧所在的初始视频片段之间的相关性系数。6.根据权利要求4中所述的方法,其特征在于,所述基于所述参考标注片段、所述各个训练候选视频片段的起始位置信息和所述高斯函数,确定所述各个训练候选视频片段对应的第一参考权重,包括:获取所述参考标注片段对应的参考标注位置信息;将所述参考标注位置信息确定为用于表征所述高斯分布的高斯函数的第二期望值;基于所述各个训练候选视频片段的起始位置信息、所述高斯函数和所述第二期望值,确定所述各个训练候选视频片段对应的第一参考权重。7.根据权利要求4中所述的方法,其特征在于,所述基于所述高斯分布、各个训练候选视频片段的中间位置信息和...
【专利技术属性】
技术研发人员:李汉俊,舒秀军,谯睿智,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。