一种远场场景下说话人身份的验证方法和装置、电子设备制造方法及图纸

技术编号:38000036 阅读:20 留言:0更新日期:2023-06-30 10:13
本公开提供一种远场场景下说话人身份的验证方法和装置、电子设备,其中,该方法包括:获取目标用户选定的目标身份信息以及目标用户的语音;将目标用户的语音划分为多个目标语音片段,并利用已训练好的说话人验证模型获取多个目标语音片段分别对应的多个目标声纹特征向量,已训练好的说话人验证模型使用SE Res

【技术实现步骤摘要】
一种远场场景下说话人身份的验证方法和装置、电子设备


[0001]本专利技术涉及语音识别
,尤其涉及一种远场场景下说话人身份的验证方法和装置、电子设备。

技术介绍

[0002]声纹识别是一项提取说话人声音特征,核验说话人身份的技术。声纹识别按照任务不同可以分为说话人验证和说话人识别。说话人验证是通过对语音进行验证确定说话人是否为其宣称的身份,并进行接受和拒绝。
[0003]然而,在远场语音识别任务中,由于远场环境如客厅、地下室、教室、礼堂等场景中存在着各种噪声以及由于声波多次反射和折射形成的混响等干扰因素,因此录音设备在远场条件下获取的语音数据中,声纹特征被混响效应、背景噪声、多径反射等干扰因素掩盖,类内间距和类间间距呈现和近场不同的分布,使得模型学习声纹特征的能力下降。
[0004]针对远场语音处理,语音前端处理是主流方法,即通过信号处理的方法或者深度学习处理语音频谱的方法来降低混响、回声及噪声等因素的干扰。在面向远场语音识别这样的任务时,前端处理对任务性能提升有着很大的帮助。但是在声纹识别领域,前端处理会在很大的程度上破坏语音数据中包含的声纹特征,尤其是使用深度学习的前端处理方法,由于深度学习方法可解释性较差,其对语音频谱的改变也具有较差的可解释性。
[0005]近年来,x

vector模型以及在其基础上进行改进的模型在说话人验证领域取得了优异的成绩。后来,以ECAPA

TDNN模型为代表的声纹识别模型继承了x

vector模型的系统架构,改进了x

vector模型拓扑结构,在说话人验证领域上成绩有了进一步的提升。
[0006]基于ECAPA

TDNN模型的声纹识别模型是基于x

vertor模型声纹识别模型的改进,是目前最先进的声纹识别模型之一。主要由Squeeze

Excitation(SE)Res2Blocks模块、多层特征聚合及求和模块以及依赖上下文和通道的统计池化模块构成。其中,SE Res2Blocks模块由一个Res2Net块以及一个SE Net块组成。Res2Net块用于构造内部多层次残差连接,减少模型参数提高模型性能;SE Net块通过压缩操作计算跨时域的帧级特征的平均向量,再通过激励操作计算各通道的权重,最后与原始输入相乘来增强重要特征的同时减弱不重要的特征。
[0007]在训练远场说话人验证模型时,将近场语音数据和远场语音数据混合放入模型进行学习训练,根据数据的真实标签,计算模型的损失,再结合优化算法迭代优化模型。
[0008]通过消融实验表明,在ECAPA

TDNN模型的SE Res2Blocks模块中,SE Net块是真正能够影响模型性能的,具备SE Net块的模型性能相比不具备SE Net块的模型性能有较为明显的提升,但具备Res2Net块的模型性能比不具备Res2Net块的模型性能提升不明显。说明该模块没有有效利用Res2Net网络结构,消耗了多余的计算资源和存储资源。
[0009]同时通过实验证明,在训练远场说话人识别模型时,若按照传统的训练方法直接将近场语音数据和远场语音数据混合放入模型进行学习训练,最后模型只能学习到近场语音和远场语音之间比较浅层的共有特征,无法学习到较深层的共有特征,所以模型在进行
远场说话人验证时依然得不到理想的效果,准确度较低。
[0010]目前,针对相关技术直接将近场语音数据和远场语音数据混合放入模型进行学习训练,导致模型在进行远场说话人验证时准确度较低的问题,尚未提出有效的解决方案。

技术实现思路

[0011]本公开的目的是针对现有技术中的不足,提供一种远场场景下说话人身份的验证方法、装置、电子设备和计算机可读存储介质,以至少解决相关技术直接将近场语音数据和远场语音数据混合放入模型进行学习训练,导致模型在进行远场说话人验证时准确度较低的问题。
[0012]根据本公开的一方面,提供了一种远场场景下说话人身份的验证方法,包括:
[0013]获取目标用户选定的目标身份信息以及所述目标用户的语音;
[0014]将所述目标用户的语音划分为多个目标语音片段,并利用已训练好的说话人验证模型获取所述多个目标语音片段分别对应的多个目标声纹特征向量,其中,所述已训练好的说话人验证模型使用SE Res

D Block骨干网络的多层结构;
[0015]将所述多个目标声纹特征向量与所述目标身份信息对应的目标声纹特征空间进行相似度比较,并根据比较结果验证所述目标用户的身份,其中,所述目标声纹特征空间中包括多个声纹特征向量。
[0016]根据本公开的另一方面,提供了一种远场场景下说话人身份的验证装置,包括:
[0017]第一获取单元,用于获取目标用户选定的目标身份信息以及所述目标用户的语音;
[0018]第二获取单元,用于将所述目标用户的语音划分为多个目标语音片段,并利用已训练好的说话人验证模型获取所述多个目标语音片段分别对应的多个目标声纹特征向量,其中,所述已训练好的说话人验证模型使用SE Res

D Block骨干网络的多层结构;
[0019]验证单元,用于将所述多个目标声纹特征向量与所述目标身份信息对应的目标声纹特征空间进行相似度比较,并根据比较结果验证所述目标用户的身份,其中,所述目标声纹特征空间中包括多个声纹特征向量。
[0020]根据本公开的另一方面,提供了一种电子设备,包括:
[0021]处理器;以及
[0022]存储程序的存储器,
[0023]其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行本公开中的所述远场场景下说话人身份的验证方法。
[0024]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开中的所述远场场景下说话人身份的验证方法。
[0025]本公开实施例中提供的一个或多个技术方案,基于SE Res

D Block骨干网络的多层结构说话人验证模型可以在不破坏声纹特征的前提下,充分学习远场语音数据的声纹特征,在获取目标用户选定的目标身份信息以及所述目标用户的语音之后,利用已训练好的说话人验证模型获取所述目标用户的语音对应的多个目标声纹特征向量,然后将所述多个目标声纹特征向量与所述目标身份信息对应的目标声纹特征空间进行相似度比较,并根据
比较结果验证所述目标用户的身份,可以解决相关技术直接将近场语音数据和远场语音数据混合放入模型进行学习训练,导致模型在进行远场说话人验证时准确度较低的问题,提高了远场声纹识别的准确率。
附图说明
[0026]在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
[0027]图1示出了根据本公开示例性实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种远场场景下说话人身份的验证方法,其特征在于,包括:获取目标用户选定的目标身份信息以及所述目标用户的语音;将所述目标用户的语音划分为多个目标语音片段,并利用已训练好的说话人验证模型获取所述多个目标语音片段分别对应的多个目标声纹特征向量,其中,所述已训练好的说话人验证模型使用SE Res

D Block骨干网络的多层结构;将所述多个目标声纹特征向量与所述目标身份信息对应的目标声纹特征空间进行相似度比较,并根据比较结果验证所述目标用户的身份,其中,所述目标声纹特征空间中包括多个声纹特征向量。2.如权利要求1所述的远场场景下说话人身份的验证方法,其特征在于,还包括:获取用户的身份信息以及所述用户在不同场景下的至少一条语音;利用所述已训练好的说话人验证模型获取所述至少一条语音分别对应的至少一个声纹特征向量;将所述至少一个声纹特征向量组成所述用户的身份信息对应的声纹特征空间;将所述用户的身份信息作为已注册身份信息,并将所述已注册身份信息与其对应的声纹特征空间进行映射存储,其中,所述已注册身份信息包括:所述目标身份信息。3.如权利要求1所述的远场场景下说话人身份的验证方法,其特征在于,还包括:获取训练数据集,其中,所述训练数据集中包括多个数据集,所述多个数据集包括近场语音数据集和远场语音数据集,每个数据集中包括至少一个说话人的至少一条语音数据;构造说话人验证模型;利用所述训练数据集对所述说话人验证模型进行训练,得到所述已训练好的说话人验证模型,其中,所述已训练好的说话人验证模型用于获取语音对应的声纹特征向量。4.如权利要求3所述的远场场景下说话人身份的验证方法,其特征在于,所述获取训练数据集包括:对所述训练数据集中的语音数据进行增强处理,得到增强后的语音数据;对所述增强后的语音数据进行归一化处理。5.如权利要求3所述的远场场景下说话人身份的验证方法,其特征在于,所述构造说话人验证模型包括:获取输入参数80维的梅尔频谱图,并将所述80维的梅尔频谱图转化为80*T的特征图;所述80*T的特征图经过Layer0层提取浅层特征之后输出C*T的特征图;所述C*T的特征图经过Layer1层、Layer02层、Layer3层提取深层特征之后,接入输出通道为C

的第一全连接层,得到C

*T的特征图;将所述C

*T的特征图经过注意力统计池化层注意力加权处理后输出2*1的特征图;将所述2*1的特征图经过输出通道为R的第二全连接层,得到R*1的声纹特征向量;其中,所述说话人验证模型包括所述Layer0层、所述Layer1层、所述Layer02层、所述Layer3层、所述第一全连接层、所述注意力统计池化层、所述第二全连接层。6.如权利...

【专利技术属性】
技术研发人员:梁兴伟庄欣楠杨波
申请(专利权)人:康佳集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1