声纹确认模型训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:34515098 阅读:17 留言:0更新日期:2022-08-13 21:02
本申请实施例公开了声纹确认模型训练方法、装置、电子设备和存储介质。该方法的一具体实施方式包括:将特定场景音频数据集中的音频数据的声学特征输入第一声纹确认模型;将与特定场景音频数据集中的音频数据拥有相同说话人标签的混合场景音频数据集中的音频数据的声学特征输入第二声纹确认模型;根据第一声纹确认模型与第二声纹确认模型特征学习网络与分类器的输出确认第一损失值;根据第一损失值调整第一声纹确认模型与第二声纹确认模型;将调整完成的第一声纹确认模型确定为目标声纹确认模型。该实施方式提供了一种基于混合场景音频数据集与特定场景音频数据集的声纹确认模型训练机制,提高了特定场景中声纹确认模型的准确性。的准确性。的准确性。

【技术实现步骤摘要】
声纹确认模型训练方法、装置、电子设备和存储介质


[0001]本申请实施例涉及计算机
,尤其涉及声纹确认模型训练方法、装置、电子设备和存储介质。

技术介绍

[0002]随着人工智能与深度神经网络的快速发展以及相关技术应用的兴起,智能语音技术已逐渐被应用到人们的日常生活中。说话人确认指的是判断目标语音所包含的声纹特征与在注册阶段所保存的声纹特征是否来自同一目标说话人。说话人确认不仅广泛的应用于门禁系统、移动支付等生活安全领域,在维护国家安全方面也扮演着很重要的角色,例如在执行司法鉴定的时候,可根据嫌疑人提供的语音数据与犯罪现场的电话录音进行比对来判断嫌疑人是否犯罪。因此,高效且精确的说话人识别方法具有重大的基础科学意义以及广泛的实用价值。
[0003]虽然目前的声纹确认的技术已趋近成熟,但是当前的说话人识别仍旧存在着数据,技术等方面的难点。例如,对于任意的一段音频片段,由于缺乏关于该音频片段中所包含事件的先验知识,所以确认不同场景中的语音的身份会受到噪声,说话人的身体情况以及情感变化等方面的影响,即在一些特定场景中声纹确认模型的准确性会降低。

技术实现思路

[0004]本申请实施例提出了声纹确认模型训练方法、装置、电子设备和存储介质。
[0005]第一方面,本申请的一些实施例提供了一种声纹确认模型训练方法,该方法包括:获取混合场景音频数据集与特定场景音频数据集;将特定场景音频数据集中的音频数据的声学特征输入第一声纹确认模型;将与特定场景音频数据集中的音频数据拥有相同说话人标签的混合场景音频数据集中的音频数据的声学特征输入第二声纹确认模型;根据第一声纹确认模型与第二声纹确认模型特征学习网络与分类器的输出确认第一损失值;根据第一损失值调整第一声纹确认模型与第二声纹确认模型;将调整完成的第一声纹确认模型确定为目标声纹确认模型。
[0006]在一些实施例中,第一声纹确认模型与第二声纹确认模型的初始参数通过以下步骤确定:混合特定场景音频数据集与混合场景音频数据集;从混合后的数据集中随机选取训练数据;通过选取的训练数据训练第三声纹确认模型;根据第三声纹确认模型的参数对第一声纹确认模型与第二声纹确认模型进行参数初始化。
[0007]在一些实施例中,通过选取的训练数据训练第三声纹确认模型,包括:将选取的训练数据训练分别输入第三声纹确认模型与第四声纹确认模型;根据第三声纹确认模型与第四声纹确认模型特征学习网络与分类器的输出确认第二损失值;根据第二损失值调整第三声纹确认模型与第四声纹确认模型。
[0008]在一些实施例中,根据第三声纹确认模型与第四声纹确认模型特征学习网络与分类器的输出确认第二损失值,包括:根据第三声纹确认模型与第四声纹确认模型特征学习
网络的输出确定第三声纹确认模型与第四声纹确认模型提取的声纹特征表示之间的第一一致性损失;根据第三声纹确认模型分类器的输出与输入第三声纹确认模型的训练数据关联的说话人标签,确定第三声纹确认模型的第一分类损失;根据第四声纹确认模型分类器的输出与输入第四声纹确认模型的训练数据关联的说话人标签,确定第四声纹确认模型的第二分类损失;根据第一一致性损失、第一分类损失与第二分类损失确定第二损失值。
[0009]在一些实施例中,根据第一一致性损失、第一分类损失与第二分类损失确定第二损失值,包括:根据预先设置的权重加权第一一致性损失、第一分类损失与第二分类损失得到第二损失值,在一些实施例中,第一一致性损失的权重根据当前训练的轮数与总训练轮数确定。
[0010]在一些实施例中,与特定场景音频数据集中的音频数据拥有相同说话人标签的混合场景音频数据集中的音频数据的声学特征,经由以下步骤确定:对与特定场景音频数据集中的音频数据拥有相同说话人标签的混合场景音频数据集中的音频数据进行预处理;对预处理后的音频数据进行语音分析并进行类中心提取,得到与特定场景音频数据集中的音频数据拥有相同说话人标签的混合场景音频数据集中的音频数据的声学特征。
[0011]在一些实施例中,根据第一声纹确认模型与第二声纹确认模型特征学习网络与分类器的输出确认第一损失值,包括:根据第一声纹确认模型与第二声纹确认模型特征学习网络的输出确定第一声纹确认模型与第二声纹确认模型提取的声纹特征表示之间的第二一致性损失;根据第一声纹确认模型分类器的输出以及与第一声纹确认模型的输入关联的说话人标签,确定第一声纹确认模型的第三分类损失;根据第二声纹确认模型分类器的输出以及与第二声纹确认模型的输入关联的说话人标签,确定第二声纹确认模型的第四分类损失;根据第二一致性损失、第三分类损失与第四分类损失确定第一损失值。
[0012]在一些实施例中,根据第二一致性损失、第三分类损失与第四分类损失确定第一损失值,包括:根据预先设置的权重加权第二一致性损失、第三分类损失与第四分类损失,在一些实施例中,第二一致性损失的权重根据当前训练的轮数与总训练轮数确定。
[0013]在一些实施例中,第一声纹确认模型与第二声纹确认模型的特征学习网络包括预设数目级压缩扩张残差模块,压缩扩张残差模块包括一维卷积层以及与一维卷积层相匹配的残差压缩扩张连接层,以及根据第一声纹确认模型与第二声纹确认模型特征学习网络的输出确定第一声纹确认模型与第二声纹确认模型提取的声纹特征表示之间的第二一致性损失,包括:根据预先设置的权重加权第一声纹确认模型与第二声纹确认模型各级压缩扩张残差模块的残差压缩扩张连接层输出的声纹特征表示之间差异得到第二一致性损失。
[0014]第二方面,本申请的一些实施例提供了一种声纹确认模型训练装置,该装置包括:获取单元,被配置成获取混合场景音频数据集与特定场景音频数据集;第一输入单元,被配置成将特定场景音频数据集中的音频数据的声学特征输入第一声纹确认模型;第二输入单元,被配置成将与特定场景音频数据集中的音频数据拥有相同说话人标签的混合场景音频数据集中的音频数据的声学特征输入第二声纹确认模型;第一确定单元,被配置成根据第一声纹确认模型与第二声纹确认模型特征学习网络与分类器的输出确认第一损失值;调整单元,被配置成根据第一损失值调整第一声纹确认模型与第二声纹确认模型;第二确定单元,被配置成将调整完成的第一声纹确认模型确定为目标声纹确认模型。
[0015]在一些实施例中,装置还包括初始参数确定单元,初始参数确定单元被配置成:混
合特定场景音频数据集与混合场景音频数据集;从混合后的数据集中随机选取训练数据;通过选取的训练数据训练第三声纹确认模型;根据第三声纹确认模型的参数对第一声纹确认模型与第二声纹确认模型进行参数初始化。
[0016]在一些实施例中,初始参数确定单元进一步被配置成:将选取的训练数据训练分别输入第三声纹确认模型与第四声纹确认模型;根据第三声纹确认模型与第四声纹确认模型特征学习网络与分类器的输出确认第二损失值;根据第二损失值调整第三声纹确认模型与第四声纹确认模型。
[0017]在一些实施例中,初始参数确定单元进一步被配置成:根据第三声纹确认模型与第四声纹确认模型特征学习本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹确认模型训练方法,包括:获取混合场景音频数据集与特定场景音频数据集;将所述特定场景音频数据集中的音频数据的声学特征输入第一声纹确认模型;将与所述特定场景音频数据集中的音频数据拥有相同说话人标签的所述混合场景音频数据集中的音频数据的声学特征输入第二声纹确认模型;根据所述第一声纹确认模型与所述第二声纹确认模型特征学习网络与分类器的输出确认第一损失值;根据所述第一损失值调整所述第一声纹确认模型与所述第二声纹确认模型;将调整完成的第一声纹确认模型确定为目标声纹确认模型。2.根据权利要求1所述的方法,其中,所述第一声纹确认模型与所述第二声纹确认模型的初始参数通过以下步骤确定:混合所述特定场景音频数据集与所述混合场景音频数据集;从混合后的数据集中随机选取训练数据;通过选取的训练数据训练第三声纹确认模型;根据所述第三声纹确认模型的参数对所述第一声纹确认模型与所述第二声纹确认模型进行参数初始化。3.根据权利要求2所述的方法,其中,所述通过选取的训练数据训练第三声纹确认模型,包括:将选取的训练数据训练分别输入所述第三声纹确认模型与第四声纹确认模型;根据所述第三声纹确认模型与所述第四声纹确认模型特征学习网络与分类器的输出确认第二损失值;根据所述第二损失值调整所述第三声纹确认模型与所述第四声纹确认模型。4.根据权利要求3所述的方法,其中,所述根据所述第三声纹确认模型与所述第四声纹确认模型特征学习网络与分类器的输出确认第二损失值,包括:根据所述第三声纹确认模型与所述第四声纹确认模型特征学习网络的输出确定所述第三声纹确认模型与所述第四声纹确认模型提取的声纹特征表示之间的第一一致性损失;根据所述第三声纹确认模型分类器的输出与输入所述第三声纹确认模型的训练数据关联的说话人标签,确定所述第三声纹确认模型的第一分类损失;根据所述第四声纹确认模型分类器的输出与输入所述第四声纹确认模型的训练数据关联的说话人标签,确定所述第四声纹确认模型的第二分类损失;根据所述第一一致性损失、第一分类损失与所述第二分类损失确定所述第二损失值。5.根据权利要求4所述的方法,其中,所述根据所述第一一致性损失、第一分类损失与所述第二分类损失确定所述第二损失值,包括:根据预先设置的权重加权所述第一一致性损失、第一分类损失与所述第二分类损失得到所述第二损失值,其中,所述第一一致性损失的权重根据当前训练的轮数与总训练轮数确定。6.根据权利要求1

5中任一项所述的方法,其中,所述与所述特定场景音频数据集中的音频数据拥有相同说话人标签的所述混合场景音频数据集中的音频数据的声学特征,经由以下步骤确定:
对与所述特定场景音频数据集中的音频数据拥有相同说话人标签的所述混合场景音频数据集中的音频数据进行预处理;对预处理后的音频数据进行语音分析并进行类中心提取,得到与所述特定场景音频数据集中的音频数据拥有相同说话人标签的所述混合场景音...

【专利技术属性】
技术研发人员:龙艳花段艺博李轶杰
申请(专利权)人:云知声上海智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1