音色识别模型训练方法及相关组件、音色识别方法技术

技术编号：37391318 阅读：57 留言：0更新日期：2023-04-27 07:29

本申请公开了一种音色识别模型训练方法及相关组件、音色识别方法，包括：利用待训练音色识别模型的生成器网络对音频样本一和音频样本二进行特征提取，得到音色嵌入特征一和音色嵌入特征二；利用判别器模型对音色嵌入特征一和音色嵌入特征二进行场景判断，利用判别器损失函数对判别器模型进行对抗训练；利用生成器损失函数对生成器网络进行对抗训练；利用音色嵌入特征一和音色嵌入特征二对分类器网络进行训练，得到目标音色识别模型。通过对抗训练的方式对待训练音色模型中的生成器网络进行训练同时训练分类器模型，训练后的目标音色识别模型能够将同一主体在不同场景下的音频对应的主体身份均识别为该主体。对应的主体身份均识别为该主体。对应的主体身份均识别为该主体。

全部详细技术资料下载

【技术实现步骤摘要】
音色识别模型训练方法及相关组件、音色识别方法

[0001]本专利技术涉及人工智能
，特别涉及一种音色识别模型训练方法、装置、设备及存储介质、音色识别方法。

技术介绍

[0002]现有的音色识别模型一般会将同一主体在不同场景下的音频对应的音色识别为不同主体的音色，无法进行场景交叉识别，这会导致主体身份的确认出现偏差。例如，目前的音乐、K歌软件中，音色识别功能广泛用于歌曲推荐、歌手身份确认等场景。但娱乐明星在采访、演戏等说话场景和唱歌场景中，虽然音色大体一致，但识别出的音色会有所区别，主要原因是唱歌场景下，音调的变化相对更大，节奏、语气等也有所不同。
[0003]因此，如何提供一种不受场景影响的音色识别方案是本领域技术人员亟待解决的技术问题。

技术实现思路

[0004]有鉴于此，本专利技术的目的在于提供一种音色识别模型训练方法、装置、设备及存储介质、音色识别模型方法，使得训练后的目标音色识别模型能够将同一主体在不同场景下的音频对应的主体身份均识别为该主体，且识别准确率较高。其具体方案如下：
[0005]本申请的第一方面提供了一种音色识别模型训练方法，包括：
[0006]将音频样本一和音频样本二输入待训练音色识别模型，以利用所述待训练音色识别模型的生成器网络对输入的所述音频样本一和所述音频样本二进行特征提取，得到音色嵌入特征一和音色嵌入特征二；所述音频样本一和所述音频样本二分别属于不同的场景；
[0007]将所述音色嵌入特征一和所述音色嵌入特征二输入判别器模型，以利用所...

【技术保护点】

【技术特征摘要】
1.一种音色识别模型训练方法，其特征在于，包括：将音频样本一和音频样本二输入待训练音色识别模型，以利用所述待训练音色识别模型的生成器网络对输入的所述音频样本一和所述音频样本二进行特征提取，得到音色嵌入特征一和音色嵌入特征二；所述音频样本一和所述音频样本二分别属于不同的场景；将所述音色嵌入特征一和所述音色嵌入特征二输入判别器模型，以利用所述判别器模型对所述音色嵌入特征一和所述音色嵌入特征二进行场景判断，并利用判别器损失函数对所述判别器模型进行对抗训练，直至所述判别器模型将所述音色嵌入特征一和所述音色嵌入特征二判断为相同场景；根据判别器损失函数的损失值进行反向传播，并利用生成器损失函数对所述生成器网络进行对抗训练，直至所述生成器网络收敛；利用所述音色嵌入特征一和所述音色嵌入特征二对所述待训练音色识别模型中的分类器网络进行训练，直至所述分类器网络收敛，得到至少包括训练后的所述生成器网络和训练后的所述分类器网络的目标音色识别模型。2.根据权利要求1所述的音色识别模型训练方法，其特征在于，所述将音频样本一和音频样本二输入待训练音色识别模型之前，还包括：对所述音频样本一和所述音频样本二进行场景标注，得到携带有场景标签的所述音频样本一和所述音频样本二；相应的，利用损失函数进行对抗训练之前，还包括：根据所述场景标签确定出所述音色嵌入特征一和所述音色嵌入特征二对应的判别器损失函数和生成器损失函数；其中，音色嵌入特征的所述场景标签与对应的音频样本的所述场景标签一致。3.根据权利要求1所述的音色识别模型训练方法，其特征在于，所述利用所述待训练音色识别模型的生成器网络对输入的所述音频样本一和所述音频样本二进行特征提取，包括：利用所述生成器网络通过权重共享的方式的对输入的所述音频样本一和所述音频样本二进行特征提取；其中，所述生成器网络为孪生网络。4.根据权利要求1所述的音色识别模型训练方法，其特征在于，所述生成器网络包括TDNN时延层、SE残差层、注意力统计池化层及全连接层；相应的，所述利用所述待训练音色识别模型的生成器网络对输入的所述音频样本一和所述音频样本二进行特征提取，包括：利用所述TDNN时延层将所述音频样本一和所述音频样本二的通道数初始化为固定大小的维度；利用所述SE残差层为所述TDNN时延层的输出增加多尺度特征；利用所述注意力统计池化层对所述SE残差层的输出进行概率化；利用所述全连接层对所述注意力统计池化层的输出进行全连接后得到所述音色嵌入特征一和所述音色嵌入特征二。5.根据权利要求1至4任一项所述的音色识别模型训练方法，其...

【专利技术属性】
技术研发人员：谭志力，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人