声纹模型的训练、声纹提取方法、装置、设备及存储介质制造方法及图纸

技术编号：33063068 阅读：14 留言：0更新日期：2022-04-15 09:52

本发明专利技术公开了一种声纹模型的训练、声纹提取方法、装置、设备及存储介质，该方法包括：确定声纹模型、分类模型；从语音信号中提取至少两种语音特征，语音信号已标注归属的用户；以对用户分类为目标，根据至少两种语音特征初训练声纹模型与分类模型；若完成初训练，则以对用户分类、且约束同一用户的声纹为目标，根据至少两种语音特征继续训练声纹模型与分类模型，声纹模型用于从至少两种语音特征中提取声纹，分类模型用于预测语音信号归属的用户、且在完成继续训练时丢弃。以约束同一用户的声纹为训练的目标对声纹模型进行收敛，可以提高声纹模型在环境噪音、跨信道设备以及假冒攻击等场景下的性能，提高声纹的准确性，从而提高声纹模型的鲁棒性。纹模型的鲁棒性。纹模型的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
声纹模型的训练、声纹提取方法、装置、设备及存储介质

[0001]本专利技术涉及语音处理的
，尤其涉及一种声纹模型的训练、声纹提取方法、装置、设备及存储介质。

技术介绍

[0002]声纹属于生物特征，不仅具有特定性，而且有相对稳定性的特点，可应用于声纹识别(又称为说话人识别)，即，基于语音中所包含的说话人特有的个性信息，自动的鉴别当前语音对应的说话人身份。
[0003]目前，提取声纹并进行声纹识别技术主要包括模板匹配法、高斯混合模型法(GMM)、联合因子分析法(JFA)和神经网络法(DNN)等，然而，在面临环境噪音、信道失配、多人说话、说话人自身变化以及假冒攻击等情况下，这些方法存在较大的鲁棒性问题，提取的声纹准确性较低，使得声纹识别在业务上的稳定性较差。

技术实现思路

[0004]本专利技术提供了一种声纹模型的训练、声纹提取方法、装置、设备及存储介质，以解决如何提高声纹的准确性。
[0005]根据本专利技术的一方面，提供了一种声纹模型的训练方法，包括：
[0006]确定声纹模型、分类模型；
[0007]从语音信号中提取至少两种语音特征，所述语音信号已标注归属的用户；
[0008]以对所述用户分类为目标，根据至少两种所述语音特征初训练所述声纹模型与所述分类模型；
[0009]若完成初训练，则以对所述用户分类、且约束同一所述用户的声纹为目标，根据至少两种所述语音特征继续训练所述声纹模型与所述分类模型，所述声纹模型用于从至少两种所述语音特征中提取声纹，所...

【技术保护点】

【技术特征摘要】
1.一种声纹模型的训练方法，其特征在于，包括：确定声纹模型、分类模型；从语音信号中提取至少两种语音特征，所述语音信号已标注归属的用户；以对所述用户分类为目标，根据至少两种所述语音特征初训练所述声纹模型与所述分类模型；若完成初训练，则以对所述用户分类、且约束同一所述用户的声纹为目标，根据至少两种所述语音特征继续训练所述声纹模型与所述分类模型，所述声纹模型用于从至少两种所述语音特征中提取声纹，所述分类模型用于预测所述语音信号归属的用户、且在完成继续训练时丢弃。2.根据权利要求1所述的方法，其特征在于，所述以对所述用户分类为目标，根据至少两种所述语音特征初训练所述声纹模型与所述分类模型，包括：将至少两种所述语音特征输入所述声纹模型中提取声纹；将所述声纹输入所述分类模型、预测所述语音信号归属的用户；计算标注的所述用户与预测的所述用户之间的差异，作为第一损失值；按照所述第一损失值更新所述分类模型与所述声纹模型；判断所述第一损失值是否收敛；若是，则确定完成初训练，若否，则返回执行所述将至少两种所述语音特征输入所述声纹模型中提取声纹。3.根据权利要求1所述的方法，其特征在于，所述以对所述用户分类、且约束同一所述用户的声纹为目标，根据至少两种所述语音特征继续训练所述声纹模型与所述分类模型，包括：将至少两种所述语音特征输入所述声纹模型中提取声纹；将所述声纹输入所述分类模型、预测所述语音信号归属的用户；计算标注的所述用户与预测的所述用户之间的差异，作为第一损失值；计算所述用户的所述声纹之间的差异，作为第二损失值；将所述第一损失值与所述第二损失值融合为第三损失值；按照所述第三损失值更新所述分类模型与所述声纹模型；判断所述第三损失值是否收敛；若是，则确定完成继续训练，若否，则返回执行所述至少两种将所述语音特征输入所述声纹模型中提取声纹。4.根据权利要求2或3所述的方法，其特征在于，所述声纹模型包括时延神经网络、第一残差块、第二残差块、第三残差块、第四残差块、自注意力池化层、全连接层；所述将至少两种所述语音特征输入所述声纹模型中提取声纹，包括：将至少两种所述语音特征融合为第一候选特征；将所述第一候选特征输入所述时延神经网络中、转换为三维的第二候选特征；将所述第二候选特征输入所述第一残差块中映射为第三候选特征；将所述第三候选特征输入所述第二残差块中映射为第四候选特征；将所述第四候选特征输入所述第三残差块中映射为第五候选特征；将所述第五候选特征输入所述第四残差块中映射为第六候选特征；将所述第六候选特征输入所述自注意力池化层中聚合为第七候选特征；将所述第七候选特征输入所述全连接层中映射为声纹；
其中，至少两种所述语音特征包括滤波器组特征、音高特征。5.根据权利要求2或3所述的方法，其特征在于，所述声纹模型包括至少两个支路网络、第四残差块、自注意力池化层、全连接层，每个所述分支网络中具有时延神经网络、第一残差块、第二残差块、第三残差块；所述将至少两种所述语音特征输入所述声纹模型中提取声纹，包括：将每种所述语音特征输入每个所述分支网络中，调用所述时延神经网络将所述语音特征转换为三维的第一参考特征、调用所述第一残差块将所述第一参考特征映射为第二参考特征、调用所述第二残差块将所述第二参考特征映射为第三参考特征、调用所述第三残差块将所述第三参考特征映射为第四参考特征；将至少两个所述第四参考特征融合为第五参考特征；将所述第五参考特征输入所述第四残差块中映射为第六参考特征；将所述第六参考特征输入所述自注意力池化层中聚合为第七参考特征；将所述第七参考特征输入所述全连接层中映射为声纹；其中，至少两种所述语音特征包括滤波器组特征、音高特征、梅尔频率倒谱系数。6...

【专利技术属性】
技术研发人员：陶洪，李玉乐，项伟，
申请(专利权)人：百果园技术新加坡有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人