模型训练方法、视频分类方法、设备及可读存储介质技术

技术编号:33131621 阅读:22 留言:0更新日期:2022-04-17 00:49
本申请公开了一种模型训练方法、视频分类方法、设备及计算机可读存储介质,训练方法包括:获取训练视频段;对训练视频段进行音频流提取处理,得到训练音频段;生成训练音频段对应的训练语谱图;在训练视频段中确定若干个训练视频帧;基于各个训练视频帧对应的采样时间点确定若干个采样时间区间,并根据各个采样时间区间在训练语谱图中选取若干个训练频谱图段;分别将各个训练视频帧与对应的训练频谱图段组合为训练数据组,并利用各个训练数据组生成训练数据;将训练数据输入具有时间迁移模块的初始模型,得到预测结果,并利用预测结果对初始模型进行参数调节;若检测到满足训练完成条件,则确定为视频分类模型;视频分类模型具有较高的准确性。有较高的准确性。有较高的准确性。

【技术实现步骤摘要】
模型训练方法、视频分类方法、设备及可读存储介质


[0001]本申请涉及视频处理
,特别涉及模型训练方法、视频分类方法、电子设备及计算机可读存储介质。

技术介绍

[0002]在当前视频流行的大背景下,为用户自制的音频自动生成个性化视频可以提高传播率和产品的商业价值。可广泛应用于视频生成的素材,需要满足“视频内容与背景音乐不相关”的条件,例如一些风景片段和场景剧情片段等。此外,如果要大规模应用,需要建立一个庞大的素材库,人工做素材筛选并不现实。相关技术通常对视频和音频分别进行抽帧和特征提取,通过将视频帧和音频帧的特征进行融合判断视频和音频的相关性,进而判断该视频是否能够作为视频生成时的素材。然而,该方法的判断准确性差,使得建立的素材库的质量差。

技术实现思路

[0003]有鉴于此,本申请的目的在于提供模型训练、视频分类方法、电子设备及计算机可读存储介质,视频分类模型分类准确性搞。
[0004]为解决上述技术问题,第一方面,本申请提供了一种模型训练方法,包括:
[0005]获取训练视频段;
[0006]对所述训练视频段进行音频流提取处理,得到训练音频段;
[0007]生成所述训练音频段对应的训练语谱图;
[0008]在所述训练视频段中确定若干个训练视频帧;
[0009]基于各个所述训练视频帧对应的采样时间点确定若干个采样时间区间,并根据各个所述采样时间区间在所述训练语谱图中选取若干个训练频谱图段;
[0010]分别将各个所述训练视频帧与对应的所述训练频谱图段组合为训练数据组,并利用各个所述训练数据组生成训练数据;
[0011]将所述训练数据输入具有时间迁移模块的初始模型,得到预测结果,并利用所述预测结果对所述初始模型进行参数调节;
[0012]若检测到满足训练完成条件,则将参数调节后的所述初始模型确定为视频分类模型。
[0013]可选地,所述初始模型包括若干个卷积模块,所述时间迁移模块设置于至少一个所述卷积模块之前;其中,所述时间迁移模块处于所述卷积模块所属的残差结构外,或者,所述时间迁移模块处于所述卷积模块所属的残差结构内。
[0014]可选地,所述将所述训练数据输入具有时间迁移模块的初始模型,得到预测结果,包括:
[0015]将所述训练数据输入所述初始模型的初始卷积模块,得到初始特征图;
[0016]将所述初始特征图输入特征提取网络,得到目标特征图;其中,所述特征提取网络
包括若干个特征提取模块,所述特征提取模块包括所述时间迁移模块和所述卷积模块,所述时间迁移模块对输入特征图进行基于空边界填充的偏移处理,得到偏移特征图,所述卷积模块对偏移特征图进行卷积处理,得到输出特征图;最后一个所述特征提取模块的输出特征图为所述目标特征图;
[0017]将所述目标特征图输入全连接层,得到所述预测结果。
[0018]可选地,若所述时间迁移模块处于所述卷积模块所属的残差结构外,包括:
[0019]将所述偏移特征图输入所述卷积模块所属的残差结构中的快捷连接路径。
[0020]可选地,还包括:
[0021]获取与所述训练视频段以及所述训练音频段对应的训练标签;
[0022]所述利用所述预测结果对所述初始模型进行参数调节,包括
[0023]利用所述训练标签和所述预测结果得到损失值;
[0024]基于所述损失值对所述初始模型进行参数调节。
[0025]可选地,所述获取训练视频段和对应的训练音频段,包括:
[0026]获取训练视频和对应的训练音频;
[0027]将所述训练视频输入预训练好的镜头边界检测模型,得到所述训练视频中各个视频帧分别对应的边界检测结果;
[0028]在所述边界检测结果为命中的目标视频帧的位置切分所述训练视频,得到所述训练视频段;
[0029]基于所述训练视频的切分情况,切分所述训练音频,得到所述训练音频段。
[0030]可选地,所述基于各个所述训练视频帧对应的采样时间点确定若干个采样时间区间,包括:
[0031]以目标采样时间点为基准,在时间轴上向左延伸第一预设长度得到第一时间坐标,并向右延伸第二预设长度得到第二时间坐标;所述目标采样时间点为任意一个所述采样时间点;
[0032]将所述第一时间坐标确定为区间起点,并将所述第二时间坐标确定为区间终点,得到所述目标采样时间点对应的所述采样时间区间。
[0033]可选地,所述初始模型包括特征交换模块,所述特征交换模块设置于至少一个所述卷积模块之前;所述特征交换模块用于对输入数据中若干组对应于同一个所述训练数据组的视频数据和音频数据进行位置交换。
[0034]第二方面,本申请提供了一种视频分类方法,包括:
[0035]获取待分类视频段;
[0036]对所述待分类视频段进行音频流提取处理,得到待分类音频段;
[0037]生成所述待分类音频段对应的待分类语谱图;
[0038]在所述待分类视频段中确定若干个待分类视频帧;
[0039]基于各个所述待分类视频帧对应的采样时间点确定若干个采样时间区间,并根据各个所述采样时间区间在所述待分类语谱图中选取若干个待分类频谱图段;
[0040]将所述待分类视频帧与对应的所述待分类频谱图段组合为待分类数据组,并利用各个所述待分类数据组生成待分类数据;
[0041]将所述待分类数据输入具有时间迁移模块的视频分类模型,得到分类结果;所述
视频分类模型利用上述的模型训练方法得到。
[0042]可选地,所述视频分类模型包括卷积模块,所述将所述待分类数据输入具有时间迁移模块的视频分类模型,得到分类结果,包括:
[0043]将所述训练数据输入所述视频分类模型的初始卷积模块,得到预处理特征图;
[0044]将所述预处理特征图输入特征提取网络,得到后处理特征图;其中,所述特征提取网络包括若干个特征提取模块,所述特征提取模块包括所述时间迁移模块和所述卷积模块,所述时间迁移模块对输入特征图进行基于空边界填充的偏移处理,得到偏移特征图,所述卷积模块对偏移特征图进行卷积处理,得到输出特征图;最后一个所述特征提取模块的输出特征图为所述后处理特征图;
[0045]将所述后处理特征图输入全连接层,得到所述分类结果。
[0046]可选地,所述特征提取模块包括特征交换模块,所述特征交换模块设置于所述卷积模块或所述时间迁移模块之前;所述特征交换模块用于对输入数据中若干组对应于同一个所述待分类数据组的视频数据和音频数据进行位置交换。
[0047]可选地,所述获取待分类视频段和对应的待分类音频段,包括:
[0048]获取待分类视频和对应的待分类音频;
[0049]将所述待分类视频输入预训练好的镜头边界检测模型,得到所述待分类视频中各个视频帧分别对应的边界检测结果;
[0050]在所述边界检测结果为命中的目标视频帧的位置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取训练视频段;对所述训练视频段进行音频流提取处理,得到训练音频段;生成所述训练音频段对应的训练语谱图;在所述训练视频段中确定若干个训练视频帧;基于各个所述训练视频帧对应的采样时间点确定若干个采样时间区间,并根据各个所述采样时间区间在所述训练语谱图中选取若干个训练频谱图段;分别将各个所述训练视频帧与对应的所述训练频谱图段组合为训练数据组,并利用各个所述训练数据组生成训练数据;将所述训练数据输入具有时间迁移模块的初始模型,得到预测结果,并利用所述预测结果对所述初始模型进行参数调节;若检测到满足训练完成条件,则将参数调节后的所述初始模型确定为视频分类模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述初始模型包括若干个卷积模块,所述时间迁移模块设置于至少一个所述卷积模块之前;其中,所述时间迁移模块处于所述卷积模块所属的残差结构外,或者,所述时间迁移模块处于所述卷积模块所属的残差结构内。3.根据权利要求2所述的模型训练方法,其特征在于,所述将所述训练数据输入具有时间迁移模块的初始模型,得到预测结果,包括:将所述训练数据输入所述初始模型的初始卷积模块,得到初始特征图;将所述初始特征图输入特征提取网络,得到目标特征图;其中,所述特征提取网络包括若干个特征提取模块,所述特征提取模块包括所述时间迁移模块和所述卷积模块,所述时间迁移模块对输入特征图进行基于空边界填充的偏移处理,得到偏移特征图,所述卷积模块对偏移特征图进行卷积处理,得到输出特征图;最后一个所述特征提取模块的输出特征图为所述目标特征图;将所述目标特征图输入全连接层,得到所述预测结果。4.根据权利要求3所述的模型训练方法,其特征在于,若所述时间迁移模块处于所述卷积模块所属的残差结构外,包括:将所述偏移特征图输入所述卷积模块所属的残差结构中的快捷连接路径。5.根据权利要求1所述的模型训练方法,其特征在于,还包括:获取与所述训练视频段以及所述训练音频段对应的训练标签;所述利用所述预测结果对所述初始模型进行参数调节,包括利用所述训练标签和所述预测结果得到损失值;基于所述损失值对所述初始模型进行参数调节。6.根据权利要求1所述的模型训练方法,其特征在于,所述获取训练视频段,包括:获取训练视频;将所述训练视频输入预训练好的镜头边界检测模型,得到所述训练视频中各个视频帧分别对应的边界检测结果;在所述边界检测结果为命中的目标视频帧的位置切分所述训练视频,得到所述训练视频段。
7.根据权利要求1所述的模型训练方法,其特征在于,所述基于各个所述训练视频帧对应的采样时间点确定若干个采样时间区间,包括:以目标采样时间点为基准,在时间轴上向左延伸第一预设长度得到第一时间坐标,并向右延伸第二预设长度得到第二时间坐标;所述目标采样时间点为任意一个所述采样时间点;将所述第一时间坐标确定为区间起点,并将所述第二时间坐标...

【专利技术属性】
技术研发人员:张悦黄均昕董治姜涛
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1