基于语音转换的声纹识别模型训练方法、装置及可读介质制造方法及图纸

技术编号：33403022 阅读：79 留言：0更新日期：2022-05-11 23:25

本申请公开了一种基于语音转换的声纹识别模型训练方法、装置及可读介质，其中声纹识别模型训练方法，包括以下步骤：训练语音转换模型；获取第一目标域数据和训练域数据；通过训练好的语音转换模型将目标域数据转到第一目标域数据中对应的说话人上，生成第二目标域数据；使用第一目标域数据和第二目标域数据训练声纹识别模型，获得训练好的声纹识别模型。在本申请实施中，通过语音转换模型将目标域数据转到训练域数据对应的说话人上，从而能够获得大量可用于声纹识别模型训练的数据，且由于训练域数据可以采用现有公开的开源数据，而收集的目标域数据不需要标注说话人，也不要求说话人同时具有多个信道的数据，极大地降低了数据收集的成本。据收集的成本。据收集的成本。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音转换的声纹识别模型训练方法、装置及可读介质

[0001]本申请涉及声纹识别
，具体涉及一种基于语音转换的声纹识别模型训练方法、装置及可读介质。

技术介绍

[0002]声纹识别，生物识别技术的一种，也称为说话人识别，包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号，再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要声纹辨认技术，而银行交易时则需要声纹确认技术。
[0003]目前最先进的声纹识别系统是采用深度学习技术开发的。该技术要求大量的目标域数据，数据越多，效果越好。目前，业界开源了很多训练数据，在该训练数据下使用深度学习技术训练的模型，能够在目标域与训练域同分布的场景下获得很好的结果。比如，在voxceleb2训练的数据，在是voxceleb1_test测试集下的等错误率(EER)已经低于1％。
[0004]但是，在实际应用中，目标域的分布往往和训练域不一致，而要获取大量可用的目标域数据往往成本很大，以致不具备现实可行性。比如，在某个场景下，注册...

【技术保护点】

【技术特征摘要】
1.一种基于语音转换的声纹识别模型训练方法，其特征在于，所述方法包括以下步骤：训练语音转换模型；获取第一目标域数据和训练域数据；通过训练好的语音转换模型将第一目标域数据的语音内容转换到训练域数据中对应的说话人上，生成第二目标域数据；使用第二目标域数据训练声纹识别模型，获得训练好的声纹识别模型。2.根据权利要求1所述的基于语音转换的声纹识别模型训练方法，其特征在于，所述训练语音转换模型包括：获取源语音和目标语音：通过内容编码器将源语音内容编码成表示内容的高维向量；通过说话人编码器将目标语音说话人编码成说话人高维向量；通过解码器根据表示内容的高维向量和说话人的高维向量生成重构语音；计算重构误差，并根据重构误差调整语音转换模型参数，直至重构误差收敛，完成语音转换模型的训练。3.根据权利要求2所述的基于语音转换的声纹识别模型训练方法，其特征在于，所述内容编码器包括卷积模块ConvNorm和双向LSTM模块；所述说话人编码器包括LSTM模块和全连接模块Full Connect；所述解码器包括卷积模块ConvNorm和LSTM模块。4.根据权利要求1所述的基于语音转换的声纹识别模型训练方法，其特征在于，所述训练声纹识别模型包括：采用深度学习技术训练声纹识别模型；所述声纹识别模型包括输入层、帧级别编码器、池化层、句子级别编码器、说话人向量提取层和分类层；所述输入层用于提取第二目标域数据的特征向量，所述帧级别编码器用于编码输入帧之间的信息；所述句子级别编码器用于编码整句句子信息；所述说话人向量提取层用于表征说话人的高维向量。5.根据权利要求4所述的基于语音转换的声纹识别模型训练方法，其特征在于，所述输入层提取所述训练集数据的MFCC特...

【专利技术属性】
技术研发人员：叶志坚，肖龙源，李稀敏，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人