音色识别模型训练方法及相关组件、音色识别方法技术

技术编号:37391318 阅读:57 留言:0更新日期:2023-04-27 07:29
本申请公开了一种音色识别模型训练方法及相关组件、音色识别方法,包括:利用待训练音色识别模型的生成器网络对音频样本一和音频样本二进行特征提取,得到音色嵌入特征一和音色嵌入特征二;利用判别器模型对音色嵌入特征一和音色嵌入特征二进行场景判断,利用判别器损失函数对判别器模型进行对抗训练;利用生成器损失函数对生成器网络进行对抗训练;利用音色嵌入特征一和音色嵌入特征二对分类器网络进行训练,得到目标音色识别模型。通过对抗训练的方式对待训练音色模型中的生成器网络进行训练同时训练分类器模型,训练后的目标音色识别模型能够将同一主体在不同场景下的音频对应的主体身份均识别为该主体。对应的主体身份均识别为该主体。对应的主体身份均识别为该主体。

【技术实现步骤摘要】
音色识别模型训练方法及相关组件、音色识别方法


[0001]本专利技术涉及人工智能
,特别涉及一种音色识别模型训练方法、装置、设备及存储介质、音色识别方法。

技术介绍

[0002]现有的音色识别模型一般会将同一主体在不同场景下的音频对应的音色识别为不同主体的音色,无法进行场景交叉识别,这会导致主体身份的确认出现偏差。例如,目前的音乐、K歌软件中,音色识别功能广泛用于歌曲推荐、歌手身份确认等场景。但娱乐明星在采访、演戏等说话场景和唱歌场景中,虽然音色大体一致,但识别出的音色会有所区别,主要原因是唱歌场景下,音调的变化相对更大,节奏、语气等也有所不同。
[0003]因此,如何提供一种不受场景影响的音色识别方案是本领域技术人员亟待解决的技术问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种音色识别模型训练方法、装置、设备及存储介质、音色识别模型方法,使得训练后的目标音色识别模型能够将同一主体在不同场景下的音频对应的主体身份均识别为该主体,且识别准确率较高。其具体方案如下:
[0005]本申请的第一方面提供了一种音色识别模型训练方法,包括:
[0006]将音频样本一和音频样本二输入待训练音色识别模型,以利用所述待训练音色识别模型的生成器网络对输入的所述音频样本一和所述音频样本二进行特征提取,得到音色嵌入特征一和音色嵌入特征二;所述音频样本一和所述音频样本二分别属于不同的场景;
[0007]将所述音色嵌入特征一和所述音色嵌入特征二输入判别器模型,以利用所述判别器模型对所述音色嵌入特征一和所述音色嵌入特征二进行场景判断,并利用判别器损失函数对所述判别器模型进行对抗训练,直至所述判别器模型将所述音色嵌入特征一和所述音色嵌入特征二判断为相同场景;
[0008]根据判别器损失函数的损失值进行反向传播,并利用生成器损失函数对所述生成器网络进行对抗训练,直至所述生成器网络收敛;
[0009]利用所述音色嵌入特征一和所述音色嵌入特征二对所述待训练音色识别模型中的分类器网络进行训练,直至所述分类器网络收敛,得到至少包括训练后的所述生成器网络和训练后的所述分类器网络的目标音色识别模型。
[0010]可选的,所述将音频样本一和音频样本二输入待训练音色识别模型之前,还包括:
[0011]对所述音频样本一和所述音频样本二进行场景标注,得到携带有场景标签的所述音频样本一和所述音频样本二;
[0012]相应的,利用损失函数进行对抗训练之前,还包括:
[0013]根据所述场景标签确定出所述音色嵌入特征一和所述音色嵌入特征二对应的判别器损失函数和生成器损失函数;其中,音色嵌入特征的所述场景标签与对应的音频样本
的所述场景标签一致。
[0014]可选的,所述利用所述待训练音色识别模型的生成器网络对输入的所述音频样本一和所述音频样本二进行特征提取,包括:
[0015]利用所述生成器网络通过权重共享的方式的对输入的所述音频样本一和所述音频样本二进行特征提取;其中,所述生成器网络为孪生网络。
[0016]可选的,所述生成器网络包括TDNN时延层、SE残差层、注意力统计池化层及全连接层;
[0017]相应的,所述利用所述待训练音色识别模型的生成器网络对输入的所述音频样本一和所述音频样本二进行特征提取,包括:
[0018]利用所述TDNN时延层将所述音频样本一和所述音频样本二的通道数初始化为固定大小的维度;
[0019]利用所述SE残差层为所述TDNN时延层的输出增加多尺度特征;
[0020]利用所述注意力统计池化层对所述SE残差层的输出进行概率化;
[0021]利用所述全连接层对所述注意力统计池化层的输出进行全连接后得到所述音色嵌入特征一和所述音色嵌入特征二。
[0022]可选的,所述将音频样本一和音频样本二输入待训练音色识别模型之前,还包括:
[0023]对所述音频样本一和所述音频样本二进行主体身份标注,得到携带有主体身份标签的所述音频样本一和所述音频样本二。
[0024]可选的,所述利用所述音色嵌入特征一和所述音色嵌入特征二对所述待训练音色识别模型中的分类器网络进行训练,包括:
[0025]利用所述分类器网络的分类器损失函数对所述分类器网络进行训练,直至所述分类器网络识别出的音频样本的主体身份与音频样本对应的所述主体身份标签一致。
[0026]本申请的第二方面提供了一种音色识别方法,包括:
[0027]获取待识别音频;
[0028]将所述待识别音频输入目标音色识别模型,以便所述目标音色识别模型利用生成器网络对输入的所述待识别音频进行特征提取得到待识别音色嵌入特征,并利用分类器网络对所述待识别音色嵌入特征进行音色识别后输出所述待识别音频对应的主体身份;其中,所述目标音色识别模型基于前述音色识别模型训练方法得到。
[0029]本申请的第三方面提供了一种音色识别模型训练装置,包括:
[0030]特征提取模块,用于将音频样本一和音频样本二输入待训练音色识别模型,以利用所述待训练音色识别模型的生成器网络对输入的所述音频样本一和所述音频样本二进行特征提取,得到音色嵌入特征一和音色嵌入特征二;所述音频样本一和所述音频样本二分别属于不同的场景;
[0031]判别器模型训练模块,用于将所述音色嵌入特征一和所述音色嵌入特征二输入判别器模型,以利用所述判别器模型对所述音色嵌入特征一和所述音色嵌入特征二进行场景判断,并利用判别器损失函数对所述判别器模型进行对抗训练,直至所述判别器模型将所述音色嵌入特征一和所述音色嵌入特征二判断为相同场景;
[0032]生成器网络训练模块,用于根据判别器损失函数的损失值进行反向传播,并利用生成器损失函数对所述生成器网络进行对抗训练,直至所述生成器网络收敛;
[0033]分类器网络训练模块,用于利用所述音色嵌入特征一和所述音色嵌入特征二对所述待训练音色识别模型中的分类器网络进行训练,直至所述分类器网络收敛,得到至少包括训练后的所述生成器网络和训练后的所述分类器网络的目标音色识别模型。
[0034]本申请的第四方面提供了一种电子设备,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述音色识别模型训练方法。
[0035]本申请的第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述音色识别模型训练方法。
[0036]本申请中,先将音频样本一和音频样本二输入待训练音色识别模型,以利用所述待训练音色识别模型的生成器网络对输入的所述音频样本一和所述音频样本二进行特征提取,得到音色嵌入特征一和音色嵌入特征二;所述音频样本一和所述音频样本二分别属于不同的场景;然后将所述音色嵌入特征一和所述音色嵌入特征二输入判别器模型,以利用所述判别器模型对所述音色嵌入特征一和所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音色识别模型训练方法,其特征在于,包括:将音频样本一和音频样本二输入待训练音色识别模型,以利用所述待训练音色识别模型的生成器网络对输入的所述音频样本一和所述音频样本二进行特征提取,得到音色嵌入特征一和音色嵌入特征二;所述音频样本一和所述音频样本二分别属于不同的场景;将所述音色嵌入特征一和所述音色嵌入特征二输入判别器模型,以利用所述判别器模型对所述音色嵌入特征一和所述音色嵌入特征二进行场景判断,并利用判别器损失函数对所述判别器模型进行对抗训练,直至所述判别器模型将所述音色嵌入特征一和所述音色嵌入特征二判断为相同场景;根据判别器损失函数的损失值进行反向传播,并利用生成器损失函数对所述生成器网络进行对抗训练,直至所述生成器网络收敛;利用所述音色嵌入特征一和所述音色嵌入特征二对所述待训练音色识别模型中的分类器网络进行训练,直至所述分类器网络收敛,得到至少包括训练后的所述生成器网络和训练后的所述分类器网络的目标音色识别模型。2.根据权利要求1所述的音色识别模型训练方法,其特征在于,所述将音频样本一和音频样本二输入待训练音色识别模型之前,还包括:对所述音频样本一和所述音频样本二进行场景标注,得到携带有场景标签的所述音频样本一和所述音频样本二;相应的,利用损失函数进行对抗训练之前,还包括:根据所述场景标签确定出所述音色嵌入特征一和所述音色嵌入特征二对应的判别器损失函数和生成器损失函数;其中,音色嵌入特征的所述场景标签与对应的音频样本的所述场景标签一致。3.根据权利要求1所述的音色识别模型训练方法,其特征在于,所述利用所述待训练音色识别模型的生成器网络对输入的所述音频样本一和所述音频样本二进行特征提取,包括:利用所述生成器网络通过权重共享的方式的对输入的所述音频样本一和所述音频样本二进行特征提取;其中,所述生成器网络为孪生网络。4.根据权利要求1所述的音色识别模型训练方法,其特征在于,所述生成器网络包括TDNN时延层、SE残差层、注意力统计池化层及全连接层;相应的,所述利用所述待训练音色识别模型的生成器网络对输入的所述音频样本一和所述音频样本二进行特征提取,包括:利用所述TDNN时延层将所述音频样本一和所述音频样本二的通道数初始化为固定大小的维度;利用所述SE残差层为所述TDNN时延层的输出增加多尺度特征;利用所述注意力统计池化层对所述SE残差层的输出进行概率化;利用所述全连接层对所述注意力统计池化层的输出进行全连接后得到所述音色嵌入特征一和所述音色嵌入特征二。5.根据权利要求1至4任一项所述的音色识别模型训练方法,其...

【专利技术属性】
技术研发人员:谭志力
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1