声纹模型的训练、声纹提取方法、装置、设备及存储介质制造方法及图纸

技术编号:33063068 阅读:14 留言:0更新日期:2022-04-15 09:52
本发明专利技术公开了一种声纹模型的训练、声纹提取方法、装置、设备及存储介质,该方法包括:确定声纹模型、分类模型;从语音信号中提取至少两种语音特征,语音信号已标注归属的用户;以对用户分类为目标,根据至少两种语音特征初训练声纹模型与分类模型;若完成初训练,则以对用户分类、且约束同一用户的声纹为目标,根据至少两种语音特征继续训练声纹模型与分类模型,声纹模型用于从至少两种语音特征中提取声纹,分类模型用于预测语音信号归属的用户、且在完成继续训练时丢弃。以约束同一用户的声纹为训练的目标对声纹模型进行收敛,可以提高声纹模型在环境噪音、跨信道设备以及假冒攻击等场景下的性能,提高声纹的准确性,从而提高声纹模型的鲁棒性。纹模型的鲁棒性。纹模型的鲁棒性。

【技术实现步骤摘要】
声纹模型的训练、声纹提取方法、装置、设备及存储介质


[0001]本专利技术涉及语音处理的
,尤其涉及一种声纹模型的训练、声纹提取方法、装置、设备及存储介质。

技术介绍

[0002]声纹属于生物特征,不仅具有特定性,而且有相对稳定性的特点,可应用于声纹识别(又称为说话人识别),即,基于语音中所包含的说话人特有的个性信息,自动的鉴别当前语音对应的说话人身份。
[0003]目前,提取声纹并进行声纹识别技术主要包括模板匹配法、高斯混合模型法(GMM)、联合因子分析法(JFA)和神经网络法(DNN)等,然而,在面临环境噪音、信道失配、多人说话、说话人自身变化以及假冒攻击等情况下,这些方法存在较大的鲁棒性问题,提取的声纹准确性较低,使得声纹识别在业务上的稳定性较差。

技术实现思路

[0004]本专利技术提供了一种声纹模型的训练、声纹提取方法、装置、设备及存储介质,以解决如何提高声纹的准确性。
[0005]根据本专利技术的一方面,提供了一种声纹模型的训练方法,包括:
[0006]确定声纹模型、分类模型;
[0007]从语音信号中提取至少两种语音特征,所述语音信号已标注归属的用户;
[0008]以对所述用户分类为目标,根据至少两种所述语音特征初训练所述声纹模型与所述分类模型;
[0009]若完成初训练,则以对所述用户分类、且约束同一所述用户的声纹为目标,根据至少两种所述语音特征继续训练所述声纹模型与所述分类模型,所述声纹模型用于从至少两种所述语音特征中提取声纹,所述分类模型用于预测所述语音信号归属的用户、且在完成继续训练时丢弃。
[0010]根据本专利技术的另一方面,提供了一种声纹提取方法,包括:
[0011]对用户采集语音信号;
[0012]从所述语音信号中提取至少两种语音特征;
[0013]加载根本专利技术任一实施例所述的声纹模型训练的声纹模型;
[0014]将至少两种所述语音特征输入所述声纹模型中,以提取所述用户的声纹。
[0015]根据本专利技术的另一方面,提供了一种声纹模型的训练装置,包括:
[0016]模型确定模块,用于确定声纹模型、分类模型;
[0017]语音特征提取模块,用于从语音信号中提取至少两种语音特征,所述语音信号已标注归属的用户;
[0018]初训练模块,用于以对所述用户分类为目标,根据至少两种所述语音特征初训练所述声纹模型与所述分类模型;
[0019]继续训练模块,用于若完成初训练,则以对所述用户分类、且约束同一所述用户的声纹为目标,根据至少两种所述语音特征继续训练所述声纹模型与所述分类模型,所述声纹模型用于从至少两种所述语音特征中提取声纹,所述分类模型用于预测所述语音信号归属的用户、且在完成继续训练时丢弃。
[0020]根据本专利技术的另一方面,提供了一种声纹提取装置,包括:
[0021]语音信号采集模块,用于对用户采集语音信号;
[0022]语音特征提取模块,用于从所述语音信号中提取至少两种语音特征;
[0023]声纹模型加载模块,用于加载根本专利技术任一实施例所述的声纹模型训练的声纹模型;
[0024]声纹提取模块,用于将至少两种所述语音特征输入所述声纹模型中,以提取所述用户的声纹。
[0025]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
[0026]至少一个处理器;以及
[0027]与所述至少一个处理器通信连接的存储器;其中,
[0028]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的声纹模型的训练方法、声纹提取方法。
[0029]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行时实现本专利技术任一实施例所述的声纹模型的训练方法、声纹提取方法。
[0030]在本实施例中,确定声纹模型、分类模型;从语音信号中提取至少两种语音特征,语音信号已标注归属的用户;以对用户分类为目标,根据至少两种语音特征初训练声纹模型与分类模型;若完成初训练,则以对用户分类、且约束同一用户的声纹为目标,根据至少两种语音特征继续训练声纹模型与分类模型,声纹模型用于从至少两种语音特征中提取声纹,分类模型用于预测语音信号归属的用户、且在完成继续训练时丢弃。本实施例使用至少两种语音特征作为样本训练声纹模型,实现了多模态特征的融合,增强了样本的多样性,可提高声纹模型的性能,对声纹模型进行两个阶段的训练,第一阶段、第二阶段均以对用户分类为训练的目标,可以保证声纹模型在正常场景下的性能,保证声纹的准确性,在此基础上,第二阶段以约束同一用户的声纹为训练的目标对声纹模型进行收敛,可以提高声纹模型在环境噪音、跨信道设备以及假冒攻击等场景下的性能,提高声纹的准确性,从而提高声纹模型的鲁棒性。
[0031]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0032]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1是根据本专利技术实施例一提供的一种声纹模型的训练方法的流程图;
[0034]图2A至图2B是根据本专利技术实施例一提供的一种声纹模型的结构示意图;
[0035]图3A至图3D是根据本专利技术实施例一提供的一种残差块的结构示意图;
[0036]图4是根据本专利技术实施例二提供的一种声纹提取方法的流程图;
[0037]图5是根据本专利技术实施例三提供的一种声纹提取方法的流程图;
[0038]图6是根据本专利技术实施例四提供的一种声纹模型的训练装置的结构示意图;
[0039]图7是根据本专利技术实施例五提供的一种声纹提取装置的结构示意图;
[0040]图8是实现本专利技术实施例的声纹模型的训练、声纹提取方法的电子设备的结构示意图。
具体实施方式
[0041]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0042]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹模型的训练方法,其特征在于,包括:确定声纹模型、分类模型;从语音信号中提取至少两种语音特征,所述语音信号已标注归属的用户;以对所述用户分类为目标,根据至少两种所述语音特征初训练所述声纹模型与所述分类模型;若完成初训练,则以对所述用户分类、且约束同一所述用户的声纹为目标,根据至少两种所述语音特征继续训练所述声纹模型与所述分类模型,所述声纹模型用于从至少两种所述语音特征中提取声纹,所述分类模型用于预测所述语音信号归属的用户、且在完成继续训练时丢弃。2.根据权利要求1所述的方法,其特征在于,所述以对所述用户分类为目标,根据至少两种所述语音特征初训练所述声纹模型与所述分类模型,包括:将至少两种所述语音特征输入所述声纹模型中提取声纹;将所述声纹输入所述分类模型、预测所述语音信号归属的用户;计算标注的所述用户与预测的所述用户之间的差异,作为第一损失值;按照所述第一损失值更新所述分类模型与所述声纹模型;判断所述第一损失值是否收敛;若是,则确定完成初训练,若否,则返回执行所述将至少两种所述语音特征输入所述声纹模型中提取声纹。3.根据权利要求1所述的方法,其特征在于,所述以对所述用户分类、且约束同一所述用户的声纹为目标,根据至少两种所述语音特征继续训练所述声纹模型与所述分类模型,包括:将至少两种所述语音特征输入所述声纹模型中提取声纹;将所述声纹输入所述分类模型、预测所述语音信号归属的用户;计算标注的所述用户与预测的所述用户之间的差异,作为第一损失值;计算所述用户的所述声纹之间的差异,作为第二损失值;将所述第一损失值与所述第二损失值融合为第三损失值;按照所述第三损失值更新所述分类模型与所述声纹模型;判断所述第三损失值是否收敛;若是,则确定完成继续训练,若否,则返回执行所述至少两种将所述语音特征输入所述声纹模型中提取声纹。4.根据权利要求2或3所述的方法,其特征在于,所述声纹模型包括时延神经网络、第一残差块、第二残差块、第三残差块、第四残差块、自注意力池化层、全连接层;所述将至少两种所述语音特征输入所述声纹模型中提取声纹,包括:将至少两种所述语音特征融合为第一候选特征;将所述第一候选特征输入所述时延神经网络中、转换为三维的第二候选特征;将所述第二候选特征输入所述第一残差块中映射为第三候选特征;将所述第三候选特征输入所述第二残差块中映射为第四候选特征;将所述第四候选特征输入所述第三残差块中映射为第五候选特征;将所述第五候选特征输入所述第四残差块中映射为第六候选特征;将所述第六候选特征输入所述自注意力池化层中聚合为第七候选特征;将所述第七候选特征输入所述全连接层中映射为声纹;
其中,至少两种所述语音特征包括滤波器组特征、音高特征。5.根据权利要求2或3所述的方法,其特征在于,所述声纹模型包括至少两个支路网络、第四残差块、自注意力池化层、全连接层,每个所述分支网络中具有时延神经网络、第一残差块、第二残差块、第三残差块;所述将至少两种所述语音特征输入所述声纹模型中提取声纹,包括:将每种所述语音特征输入每个所述分支网络中,调用所述时延神经网络将所述语音特征转换为三维的第一参考特征、调用所述第一残差块将所述第一参考特征映射为第二参考特征、调用所述第二残差块将所述第二参考特征映射为第三参考特征、调用所述第三残差块将所述第三参考特征映射为第四参考特征;将至少两个所述第四参考特征融合为第五参考特征;将所述第五参考特征输入所述第四残差块中映射为第六参考特征;将所述第六参考特征输入所述自注意力池化层中聚合为第七参考特征;将所述第七参考特征输入所述全连接层中映射为声纹;其中,至少两种所述语音特征包括滤波器组特征、音高特征、梅尔频率倒谱系数。6...

【专利技术属性】
技术研发人员:陶洪李玉乐项伟
申请(专利权)人:百果园技术新加坡有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1