神经网络模型的训练方法、设备、存储介质及程序产品技术

技术编号:34368653 阅读:17 留言:0更新日期:2022-07-31 10:03
本公开是关于一种神经网络模型的训练方法、设备、存储介质及程序产品。神经网络模型的训练方法包括:分别对多个初始视频中每个初始视频进行分段处理,得到多个初始视频所对应的多个视频片段;将所述多个视频片段进行重组,得到多个目标视频;针对每个所述视频片段,基于所述视频片段所属的目标视频,确定所述视频片段所对应的特征信息;基于各所述视频片段所对应的特征信息,进行神经网络模型的训练。通过本公开可以得到对视频中时序动作进行精确识别的神经网络模型。识别的神经网络模型。识别的神经网络模型。

Training method, equipment, storage medium and program products of neural network model

【技术实现步骤摘要】
神经网络模型的训练方法、设备、存储介质及程序产品


[0001]本公开涉及人工智能
,尤其涉及一种神经网络模型的训练方法、设备、存储介质及程序产品。

技术介绍

[0002]视频理解任务在动作识别、视频检索等人工智能应用中起到至关重要的作用。目前市场上的系统中,能够通过神经网络模型提取给定视频的特征信息,并利用提取的特征信息对视频进行深一步的分析。
[0003]相关技术中,视频特征学习方法依赖大量人工标注的有标签的视频数据训练神经网络模型。由于人工给视频打标签是一件费时又费力的工作,因此,通过设计一些可学习的任务或者对比学习来获取特征表达的自监督学习神经网络模型相继提出。然而,相关技术中,无论以人工标注方式构建的神经网络模型,还是以自监督学习方式构建的神经网络模型,都无法对视频中随时序变化的时序动作进行较为精准地检出及标注。

技术实现思路

[0004]为克服相关技术中存在的问题,本公开提供一种神经网络模型的训练方法、设备、存储介质及程序产品。
[0005]根据本公开实施例的第一方面,提供一种神经网络模型的训练方法,包括:
[0006]分别对多个初始视频中每个初始视频进行分段处理,得到多个初始视频所对应的多个视频片段;将所述多个视频片段进行重组,得到多个目标视频;针对每个所述视频片段,基于所述视频片段所属的目标视频,确定所述视频片段所对应的特征信息;基于各所述视频片段所对应的特征信息,进行神经网络模型的训练。
[0007]一种实施方式中,将所述多个视频片段进行重组,得到多个目标视频,包括:将多个视频片段随机打乱;将打乱后的多个视频片段划分为多个视频片段组;分别对每个视频片段组中包含的视频片段进行拼接,得到所述目标视频。
[0008]一种实施方式中,所述将所述多个视频片段进行重组,得到多个目标视频之前,所述方法还包括:分别对多个视频片段进行数据增强处理;其中,数据增强处理包括裁切、翻转、噪声叠加以及色彩调节之一或组合;将所述多个视频片段进行重组,得到多个目标视频,包括:将数据增强处理后的多个视频片段进行重组,得到多个目标视频。
[0009]一种实施方式中,所述针对每个所述视频片段,基于所述视频片段所属的目标视频,确定所述视频片段所对应的特征信息,包括:对所述目标视频进行特征提取,得到所述目标视频所对应的特征信息;根据组成所述目标视频的各视频片段所对应的重组顺序,对所述目标视频所对应的特征信息进行划分,得到组成所述目标视频的各视频片段所对应的特征信息。
[0010]一种实施方式中,所述基于各所述视频片段所对应的特征信息,进行神经网络模型的训练,包括:针对每个第一视频片段,分别确定所述第一视频片段与各第二视频片段之
间的第一特征距离,以及分别确定所述第一视频片段与各第三视频片段之间的第二特征距离;其中,所述第二视频片段为所述多个视频片段中与所述第一视频片段来自相同初始视频的视频片段,所述第三视频片段为所述多个视频片段中与所述第一视频片段来自不同初始视频的视频片段;所述第一视频片段为所述多个视频片段中的任意一个;根据所述第一特征距离与所述第二特征距离之间的差异度,确定所述第一视频片段所对应的目标损失;基于各所述第一视频片段所对应的目标损失,对所述神经网络模型进行对比训练。
[0011]一种实施方式中,通过如下公式确定所述第一视频片段与各第二视频片段之间的第一特征距离:其中,q为所述第一视频片段所对应的特征信息,kj为多个第二视频片段中标号为j的第二视频片段所对应的特征信息,τ为预设常量,,T1为第一视频片段与多个第二视频片段中标号为j的第二视频片段之间的第一特征距离;通过如下公式确定所述第一视频片段与各第三视频片段之间的第二特征距离:其中,ki为多个第三视频片段中标号为i的第三视频片段所对应的特征信息,T2为第一视频片段与多个第三视频片段中标号为i的第三视频片段之间的第二特征距离;通过如下公式确定所述第一视频片段所对应的目标损失:其中,L为第一视频片段所对应的目标损失,K1为所述第二视频片段的数量,K2为所述第三视频片段的数量。
[0012]一种实施方式中,所述神经网络模型为执行视频检索任务或者动作分类任务的模型。
[0013]根据本公开实施例的第二方面,提供一种神经网络模型的训练装置,包括:
[0014]处理单元,用于分别对多个初始视频中每个初始视频进行分段处理,得到多个初始视频所对应的多个视频片段;重组单元,用于将所述多个视频片段进行重组,得到多个目标视频;确定单元,用于针对每个所述视频片段,基于所述视频片段所属的目标视频,确定所述视频片段所对应的特征信息;所述处理单元还用于,基于各所述视频片段所对应的特征信息,进行神经网络模型的训练。
[0015]一种实施方式中,所述重组单元采用如下方式将所述多个视频片段进行重组,得到多个目标视频:将多个视频片段随机打乱;将打乱后的多个视频片段划分为多个视频片段组;分别对每个视频片段组中包含的视频片段进行拼接,得到所述目标视频。
[0016]一种实施方式中,所述将所述多个视频片段进行重组,得到多个目标视频之前,所述处理单元还用于:分别对多个视频片段进行数据增强处理;其中,数据增强处理包括裁切、翻转、噪声叠加以及色彩调节之一或组合;所述重组单元采用如下方式将所述多个视频片段进行重组,得到多个目标视频:将数据增强处理后的多个视频片段进行重组,得到多个目标视频。
[0017]一种实施方式中,所述确定单元采用如下方式针对每个所述视频片段,基于所述视频片段所属的目标视频,确定所述视频片段所对应的特征信息:对所述目标视频进行特征提取,得到所述目标视频所对应的特征信息;根据组成所述目标视频的各视频片段所对应的重组顺序,对所述目标视频所对应的特征信息进行划分,得到组成所述目标视频的各
视频片段所对应的特征信息。
[0018]一种实施方式中,所述处理单元采用如下方式基于各所述视频片段所对应的特征信息,进行神经网络模型的训练:针对每个第一视频片段,分别确定所述第一视频片段与各第二视频片段之间的第一特征距离,以及分别确定所述第一视频片段与各第三视频片段之间的第二特征距离;其中,所述第二视频片段为所述多个视频片段中与所述第一视频片段来自相同初始视频的视频片段,所述第三视频片段为所述多个视频片段中与所述第一视频片段来自不同初始视频的视频片段;所述第一视频片段为所述多个视频片段中的任意一个;根据所述第一特征距离与所述第二特征距离之间的差异度,确定所述第一视频片段所对应的目标损失;基于各所述第一视频片段所对应的目标损失,对所述神经网络模型进行对比训练。
[0019]一种实施方式中,所述确定单元通过如下公式确定所述第一视频片段与各第二视频片段之间的第一特征距离:其中,q为所述第一视频片段所对应的特征信息,kj为多个第二视频片段中标号为j的第二视频片段所对应的特征信息,τ为预设常量,T1为第一视频片段与多个第二视频片段中标号为j的第二视频片段之间的第一特征距离;通过如下公式确定所述第一视频片段本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络模型的训练方法,其特征在于,方法包括:分别对多个初始视频中每个初始视频进行分段处理,得到多个初始视频所对应的多个视频片段;将所述多个视频片段进行重组,得到多个目标视频;针对每个所述视频片段,基于所述视频片段所属的目标视频,确定所述视频片段所对应的特征信息;基于各所述视频片段所对应的特征信息,进行神经网络模型的训练。2.根据权利要求1所述的神经网络模型的训练方法,其特征在于,将所述多个视频片段进行重组,得到多个目标视频,包括:将多个视频片段随机打乱;将打乱后的多个视频片段划分为多个视频片段组;分别对每个视频片段组中包含的视频片段进行拼接,得到所述目标视频。3.根据权利要求1或2所述的神经网络模型的训练方法,其特征在于,所述将所述多个视频片段进行重组,得到多个目标视频之前,所述方法还包括:分别对多个视频片段进行数据增强处理;其中,数据增强处理包括裁切、翻转、噪声叠加以及色彩调节之一或组合;将所述多个视频片段进行重组,得到多个目标视频,包括:将数据增强处理后的多个视频片段进行重组,得到多个目标视频。4.根据权利要求1至3中任一项所述的神经网络模型的训练方法,其特征在于,所述针对每个所述视频片段,基于所述视频片段所属的目标视频,确定所述视频片段所对应的特征信息,包括:对所述目标视频进行特征提取,得到所述目标视频所对应的特征信息;根据组成所述目标视频的各视频片段所对应的重组顺序,对所述目标视频所对应的特征信息进行划分,得到组成所述目标视频的各视频片段所对应的特征信息。5.根据权利要求1至4中任一项所述的神经网络模型的训练方法,其特征在于,所述基于各所述视频片段所对应的特征信息,进行神经网络模型的训练,包括:针对每个第一视频片段,分别确定所述第一视频片段与各第二视频片段之间的第一特征距离,以及分别确定所述第一视频片段与各第三视频片段之间的第二特征距离;其中,所述第二视频片段为所述多个视频片段中与所述第一视频片段来自相同初始视频的视频片段,所述第...

【专利技术属性】
技术研发人员:赵钰田丰瑞
申请(专利权)人:深圳旷视金智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1