基于语音转换的声纹识别模型训练方法、装置及可读介质制造方法及图纸

技术编号:33403022 阅读:63 留言:0更新日期:2022-05-11 23:25
本申请公开了一种基于语音转换的声纹识别模型训练方法、装置及可读介质,其中声纹识别模型训练方法,包括以下步骤:训练语音转换模型;获取第一目标域数据和训练域数据;通过训练好的语音转换模型将目标域数据转到第一目标域数据中对应的说话人上,生成第二目标域数据;使用第一目标域数据和第二目标域数据训练声纹识别模型,获得训练好的声纹识别模型。在本申请实施中,通过语音转换模型将目标域数据转到训练域数据对应的说话人上,从而能够获得大量可用于声纹识别模型训练的数据,且由于训练域数据可以采用现有公开的开源数据,而收集的目标域数据不需要标注说话人,也不要求说话人同时具有多个信道的数据,极大地降低了数据收集的成本。据收集的成本。据收集的成本。

【技术实现步骤摘要】
基于语音转换的声纹识别模型训练方法、装置及可读介质


[0001]本申请涉及声纹识别
,具体涉及一种基于语音转换的声纹识别模型训练方法、装置及可读介质。

技术介绍

[0002]声纹识别,生物识别技术的一种,也称为说话人识别,包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号,再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要声纹辨认技术,而银行交易时则需要声纹确认技术。
[0003]目前最先进的声纹识别系统是采用深度学习技术开发的。该技术要求大量的目标域数据,数据越多,效果越好。目前,业界开源了很多训练数据,在该训练数据下使用深度学习技术训练的模型,能够在目标域与训练域同分布的场景下获得很好的结果。比如,在voxceleb2训练的数据,在是voxceleb1_test测试集下的等错误率(EER)已经低于1%。
[0004]但是,在实际应用中,目标域的分布往往和训练域不一致,而要获取大量可用的目标域数据往往成本很大,以致不具备现实可行性。比如,在某个场景下,注册使用APP获取的16000Hz语音,而验证使用电话获取的8000Hz语音。依照目前的声纹识别技术要求,需要获取大量的说话人数据,且该人需要同时拥有16000Hz的数据和8000Hz的语音,而这是难以收集的,这也导致在该场景下,声纹识别准确率不高。

技术实现思路

[0005]本申请的目的在于至少能解决上述现有技术中的技术问题之一,以在一定程度上提高声纹识别的准确率。
[0006]第一方面,本申请的实施例提供了一种基于语音转换的声纹识别模型训练方法,包括以下步骤:训练语音转换模型;获取第一目标域数据和训练域数据;通过训练好的语音转换模型将目标域数据转到第一目标域数据中对应的说话人上,生成第二目标域数据;使用第二目标域数据训练声纹识别模型,获得训练好的声纹识别模型。
[0007]在一些实施例中,所述训练语音转换模型包括:获取源语音和目标语音:通过内容编码器将源语音内容编码成表示内容的高维向量;通过说话人编码器将目标语音说话人编码成说话人高维向量;通过解码器根据表示内容的高维向量和说话人的高维向量生成重构语音;计算重构误差,并根据重构误差调整语音转换模型参数,直至重构误差收敛,完成语音转换模型的训练。
[0008]在一些实施例中,所述内容编码器包括一卷积模块ConvNorm和一双向LSTM模块;所述说话人编码器包括一LSTM模块和一全连接模块Full Connect;所述解码器包括一卷积模块ConvNorm和一LSTM模块。
[0009]在一些实施例中,所述训练声纹识别模型包括:采用深度学习技术训练声纹识别模型;所述声纹识别模型包括输入层、帧级别编码器、池化层、句子级别编码器、说话人向量
提取层和分类层;所述输入层用于提取第二目标域数据的特征向量,所述帧级别编码器用于编码输入帧之间的信息;所述句子级别编码器用于编码整句句子信息;所述说话人向量提取层用于表征说话人的高维向量。
[0010]在一些实施例中,所述输入层提取所述训练集数据的MFCC特征;所述帧级别编码器包括5层的TDNN层;所述池化层为均值和方差的统计池化层;所述句子级别编码器为全连接层。
[0011]第二方面,本申请的实施例提供了一种基于语音转换的声纹识别模型训练装置,包括:目标域数据获取模块,用于获取第一目标域数据;训练域数据获取模块,用于获取训练域数据;语音转换模块,用于将第一目标域数据转换为第二目标域数据;声纹识别模型训练模块,用于根据所述第二目标域数据训练声纹识别模型,以获得训练好的声纹识别模型。
[0012]在一些实施例中,所述语音转换模块包括:内容编码器,用于将语音内容编码成表示内容的高维向量;说话人编码器,用于将语音说话人编码成说话人高维向量;解码器,用于根据表示内容的高维向量和说话人的高维向量生成重构语音。
[0013]在一些实施例中,所述声纹识别模型包括输入层、帧级别编码器、池化层、句子级别编码器、说话人向量提取层和分类层;
[0014]所述输入层用于提取第二目标域数据的MFCC特征,所述帧级别编码器包括5层的TDNN层,用于编码输入帧之间的信息;所述池化层为均值和方差的统计池化层;所述句子级别编码器为全连接层,用于编码整句句子信息;所述说话人向量提取层用于表征说话人的高维向量。
[0015]第三方面,本申请的实施例提供了一种电子设备,包括:所述存储器被配置用于存储计算机程序,所述计算机程序在由所述处理器执行时,使得所述处理器执行如第一方面中任一实现方式描述的基于语音转换的声纹识别模型训练方法。
[0016]第四方面,本申请的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的基于语音转换的声纹识别模型训练方法。
[0017]相比于现有技术,本申请具有以下有益效果:
[0018]在本申请实施中,通过语音转换模型将目标域数据转到训练域数据对应的说话人上,生成说话人与训练域数据相同,但语音内容和信道与目标域数据相同的语音数据,从而能够获得大量可用于声纹识别模型训练的数据,且由于训练域数据可以采用现有公开的开源数据,而收集的目标域数据不需要标注说话人,也不要求说话人同时具有多个信道的数据,极大地降低了数据收集的成本。
附图说明
[0019]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本申请的一实施例的基于语音转换的声纹识别模型训练方法的流程示意图;
[0021]图2为本申请的一实施例的语音转换模型的组成结构示意图;
[0022]图3为本申请的一优选实施例中的语音转换模型的组成结构示意图。
具体实施方式
[0023]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0024]图1示出了可以应用本申请实施例的基于语音转换的声纹识别模型训练方法的流程示意图,如图1所示,所述方法包括以下步骤:
[0025]步骤S1:训练语音转换模型;
[0026]具体的,本申请实施例中的语音转换模型的框架如图2所示:所述语音转换模块包括三个模块:一个内容编码器Ec(
·
),用于将语音内容编码成表示内容的高维向量;一个说话人编码器Es(
·
),用于将语音说话人编码成说话人高维向量;一个解码器D(
·
,
·
),用于根据表示内容的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音转换的声纹识别模型训练方法,其特征在于,所述方法包括以下步骤:训练语音转换模型;获取第一目标域数据和训练域数据;通过训练好的语音转换模型将第一目标域数据的语音内容转换到训练域数据中对应的说话人上,生成第二目标域数据;使用第二目标域数据训练声纹识别模型,获得训练好的声纹识别模型。2.根据权利要求1所述的基于语音转换的声纹识别模型训练方法,其特征在于,所述训练语音转换模型包括:获取源语音和目标语音:通过内容编码器将源语音内容编码成表示内容的高维向量;通过说话人编码器将目标语音说话人编码成说话人高维向量;通过解码器根据表示内容的高维向量和说话人的高维向量生成重构语音;计算重构误差,并根据重构误差调整语音转换模型参数,直至重构误差收敛,完成语音转换模型的训练。3.根据权利要求2所述的基于语音转换的声纹识别模型训练方法,其特征在于,所述内容编码器包括卷积模块ConvNorm和双向LSTM模块;所述说话人编码器包括LSTM模块和全连接模块Full Connect;所述解码器包括卷积模块ConvNorm和LSTM模块。4.根据权利要求1所述的基于语音转换的声纹识别模型训练方法,其特征在于,所述训练声纹识别模型包括:采用深度学习技术训练声纹识别模型;所述声纹识别模型包括输入层、帧级别编码器、池化层、句子级别编码器、说话人向量提取层和分类层;所述输入层用于提取第二目标域数据的特征向量,所述帧级别编码器用于编码输入帧之间的信息;所述句子级别编码器用于编码整句句子信息;所述说话人向量提取层用于表征说话人的高维向量。5.根据权利要求4所述的基于语音转换的声纹识别模型训练方法,其特征在于,所述输入层提取所述训练集数据的MFCC特...

【专利技术属性】
技术研发人员:叶志坚肖龙源李稀敏
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1