【技术实现步骤摘要】
模型训练方法、装置、设备及存储介质
本申请涉及深度学习
,特别是涉及一种模型训练方法、装置、设备及存储介质。
技术介绍
在实际应用中,视频中的一些特征可以通过卷积神经网络进行识别,同时,视频中的另外一些特征可以通过循环神经网络进行识别。相关技术中,可以根据需要识别的特征,单独选择使用卷积神经网络对视频进行识别,或者,单独选择使用循环神经网络对视频进行识别。然而,视频中的许多特征是具有关联性的,单独对某一特征进行识别而忽略对与其关联的其他特征进行识别,会造成一定的负面影响,为了避免这种负面影响,可以同时利用卷积神经网络和循环神经网络对相关联的特征进行识别,而如何在这种场景下,对卷积神经网络和循环神经网络进行训练,成为了当前亟待解决的一个问题。
技术实现思路
基于此,本申请实施例提供了一种模型训练方法、装置、设备及存储介质,提供了一种训练可以同时对视频中相关联的特征进行识别的卷积神经网络和循环神经网络的方法。第一方面,提供了一种模型训练方法,该方法包括:获取训练视频样本,该训练视 ...
【技术保护点】
1.一种模型训练方法,其特征在于,所述方法包括:/n获取训练视频样本,所述训练视频样本包括训练视频以及与所述训练视频对应的具有关联关系的至少两个真实标签;/n将所述训练视频分别输入至初始卷积神经网络和初始循环神经网络中,得到所述初始卷积神经网络和所述初始循环神经网络输出的具有关联关系的至少两个训练标签;/n基于所述至少两个训练标签之间的差异以及所述至少两个训练标签和所述至少两个真实标签之间的差异对所述初始卷积神经网络和所述初始循环神经网络进行训练,得到训练好的目标卷积神经网络和目标循环神经网络。/n
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:
获取训练视频样本,所述训练视频样本包括训练视频以及与所述训练视频对应的具有关联关系的至少两个真实标签;
将所述训练视频分别输入至初始卷积神经网络和初始循环神经网络中,得到所述初始卷积神经网络和所述初始循环神经网络输出的具有关联关系的至少两个训练标签;
基于所述至少两个训练标签之间的差异以及所述至少两个训练标签和所述至少两个真实标签之间的差异对所述初始卷积神经网络和所述初始循环神经网络进行训练,得到训练好的目标卷积神经网络和目标循环神经网络。
2.根据权利要求1所述的方法,其特征在于,所述至少两个真实标签包括第一真实标签和第二真实标签,所述第一真实标签用于指示所述训练视频的训练视频帧包括的对象的真实类型,所述第二真实标签用于指示所述训练视频的训练音频中的声音对应的发声对象的真实类型;
所述至少两个训练标签包括第一训练标签和第二训练标签,所述第一训练类型用于指示所述初始卷积网络识别出的所述训练视频帧包括的对象的类型,所述第二标签类型用于指示所述初始循环神经网络识别出的所述训练音频中的声音对应的发声对象的类型。
3.根据权利要求2所述的方法,其特征在于,所述将所述训练视频分别输入至初始卷积神经网络和初始循环神经网络中,得到所述初始卷积神经网络和所述初始循环神经网络输出的具有关联关系的至少两个训练标签,包括:
从所述训练视频中分别提取出所述训练视频帧和所述训练音频;
将所述训练视频帧输入至所述初始卷积神经网络,得到所述初始卷积神经网络输出的所述第一训练标签;
将所述训练音频输入至所述初始循环神经网络,得到所述初始循环神经网络输出的所述第二训练标签。
4.根据权利要求3所述的方法,其特征在于,所述基于所述至少两个训练标签之间的差异以及所述至少两个训练标签和所述至少两个真实标签之间的差异对所述初始卷积神经网络和所述初始循环神经网络进行训练,包括:
基于所述第一训练标签和所述第二训练标签之间的差异、所述第一训练标签与所述第一真实标签之间的差异以及所述第二训练标签与所述第二真实标签之间的差异对所述初始卷积神经网络和所述初始循环神经网络进行训练。
5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
从待处理的目标视频中分别提取视频帧和音频;
将所述视频帧输入至所述目标卷积神经网络中,并将所述音频输入至所述目标循环神经网络中,通过所述目标卷积神经网络和所述目标循环神经网络分别对所述视频帧和所述音频进行识别处理,得到识别结果,所述识别结果包括所述视频帧包括的各个对象的第一类型以及所述音频包括的各种声音所分别对应的发声对象的第二类型;
根据所述识别结果在所述视频帧中定位所述音频包括的各种声音所分别对应的发声对象;
基于各所述发声对象在所述视频帧中的位置,对所述音频包括的各种声音分别进行预设类型的处理,得到处理后的音频;
基于所述处理后的音频生成处理之后的目标视频。
6.根据权利要求5所述的方法,其特征在于,所述根据所述识别结果在所述视频帧中定位所述音频包括的各种声音所分别对应的发声对象,包括:
对于所述音频中的每种声音,基于所述声音对应的第二类型,从所述视频帧包括的各个对象中确定候选对象,其中,所述候选对象的第一类型与所述声音对应的第二类型相匹配;若所述候选对象的数量为1,则将所述候选对象作为所述声音对应的发声对象;若所述候选对象的数量大于1,则从所述候选对象中筛选出所述声音对应的发声对象,其中,筛选出的发声对象发出所述声音的概率大于其他的候选对象发出所述声音的概率。
7.根据权利要求6所述的方法,其特征在于,所述从所述候选对象...
【专利技术属性】
技术研发人员:崔志佳,范泽华,
申请(专利权)人:OPPO广东移动通信有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。