【技术实现步骤摘要】
模型训练方法、视频分类方法、设备及可读存储介质
[0001]本申请涉及视频处理
,特别涉及模型训练方法、视频分类方法、电子设备及计算机可读存储介质。
技术介绍
[0002]在当前视频流行的大背景下,为用户自制的音频自动生成个性化视频可以提高传播率和产品的商业价值。可广泛应用于视频生成的素材,需要满足“视频内容与背景音乐不相关”的条件,例如一些风景片段和场景剧情片段等。此外,如果要大规模应用,需要建立一个庞大的素材库,人工做素材筛选并不现实。相关技术通常对视频和音频分别进行抽帧和特征提取,通过将视频帧和音频帧的特征进行融合判断视频和音频的相关性,进而判断该视频是否能够作为视频生成时的素材。然而,该方法的判断准确性差,使得建立的素材库的质量差。
技术实现思路
[0003]有鉴于此,本申请的目的在于提供模型训练、视频分类方法、电子设备及计算机可读存储介质,视频分类模型分类准确性搞。
[0004]为解决上述技术问题,第一方面,本申请提供了一种模型训练方法,包括:
[0005]获取训练视频段;
[0006]对所述训练视频段进行音频流提取处理,得到训练音频段;
[0007]生成所述训练音频段对应的训练语谱图;
[0008]在所述训练视频段中确定若干个训练视频帧;
[0009]基于各个所述训练视频帧对应的采样时间点确定若干个采样时间区间,并根据各个所述采样时间区间在所述训练语谱图中选取若干个训练频谱图段;
[0010]分别将各个所述训练视频帧与对应的所述 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取训练视频段;对所述训练视频段进行音频流提取处理,得到训练音频段;生成所述训练音频段对应的训练语谱图;在所述训练视频段中确定若干个训练视频帧;基于各个所述训练视频帧对应的采样时间点确定若干个采样时间区间,并根据各个所述采样时间区间在所述训练语谱图中选取若干个训练频谱图段;分别将各个所述训练视频帧与对应的所述训练频谱图段组合为训练数据组,并利用各个所述训练数据组生成训练数据;将所述训练数据输入具有时间迁移模块的初始模型,得到预测结果,并利用所述预测结果对所述初始模型进行参数调节;若检测到满足训练完成条件,则将参数调节后的所述初始模型确定为视频分类模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述初始模型包括若干个卷积模块,所述时间迁移模块设置于至少一个所述卷积模块之前;其中,所述时间迁移模块处于所述卷积模块所属的残差结构外,或者,所述时间迁移模块处于所述卷积模块所属的残差结构内。3.根据权利要求2所述的模型训练方法,其特征在于,所述将所述训练数据输入具有时间迁移模块的初始模型,得到预测结果,包括:将所述训练数据输入所述初始模型的初始卷积模块,得到初始特征图;将所述初始特征图输入特征提取网络,得到目标特征图;其中,所述特征提取网络包括若干个特征提取模块,所述特征提取模块包括所述时间迁移模块和所述卷积模块,所述时间迁移模块对输入特征图进行基于空边界填充的偏移处理,得到偏移特征图,所述卷积模块对偏移特征图进行卷积处理,得到输出特征图;最后一个所述特征提取模块的输出特征图为所述目标特征图;将所述目标特征图输入全连接层,得到所述预测结果。4.根据权利要求3所述的模型训练方法,其特征在于,若所述时间迁移模块处于所述卷积模块所属的残差结构外,包括:将所述偏移特征图输入所述卷积模块所属的残差结构中的快捷连接路径。5.根据权利要求1所述的模型训练方法,其特征在于,还包括:获取与所述训练视频段以及所述训练音频段对应的训练标签;所述利用所述预测结果对所述初始模型进行参数调节,包括利用所述训练标签和所述预测结果得到损失值;基于所述损失值对所述初始模型进行参数调节。6.根据权利要求1所述的模型训练方法,其特征在于,所述获取训练视频段,包括:获取训练视频;将所述训练视频输入预训练好的镜头边界检测模型,得到所述训练视频中各个视频帧分别对应的边界检测结果;在所述边界检测结果为命中的目标视频帧的位置切分所述训练视频,得到所述训练视频段。
7.根据权利要求1所述的模型训练方法,其特征在于,所述基于各个所述训练视频帧对应的采样时间点确定若干个采样时间区间,包括:以目标采样时间点为基准,在时间轴上向左延伸第一预设长度得到第一时间坐标,并向右延伸第二预设长度得到第二时间坐标;所述目标采样时间点为任意一个所述采样时间点;将所述第一时间坐标确定为区间起点,并将所述第二时间坐标...
【专利技术属性】
技术研发人员:张悦,黄均昕,董治,姜涛,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。