【技术实现步骤摘要】
一种远场场景下说话人身份的验证方法和装置、电子设备
[0001]本专利技术涉及语音识别
,尤其涉及一种远场场景下说话人身份的验证方法和装置、电子设备。
技术介绍
[0002]声纹识别是一项提取说话人声音特征,核验说话人身份的技术。声纹识别按照任务不同可以分为说话人验证和说话人识别。说话人验证是通过对语音进行验证确定说话人是否为其宣称的身份,并进行接受和拒绝。
[0003]然而,在远场语音识别任务中,由于远场环境如客厅、地下室、教室、礼堂等场景中存在着各种噪声以及由于声波多次反射和折射形成的混响等干扰因素,因此录音设备在远场条件下获取的语音数据中,声纹特征被混响效应、背景噪声、多径反射等干扰因素掩盖,类内间距和类间间距呈现和近场不同的分布,使得模型学习声纹特征的能力下降。
[0004]针对远场语音处理,语音前端处理是主流方法,即通过信号处理的方法或者深度学习处理语音频谱的方法来降低混响、回声及噪声等因素的干扰。在面向远场语音识别这样的任务时,前端处理对任务性能提升有着很大的帮助。但是在声纹识别领域,前端处理会在很大的程度上破坏语音数据中包含的声纹特征,尤其是使用深度学习的前端处理方法,由于深度学习方法可解释性较差,其对语音频谱的改变也具有较差的可解释性。
[0005]近年来,x
‑
vector模型以及在其基础上进行改进的模型在说话人验证领域取得了优异的成绩。后来,以ECAPA
‑
TDNN模型为代表的声纹识别模型继承了x
‑
vector模 ...
【技术保护点】
【技术特征摘要】
1.一种远场场景下说话人身份的验证方法,其特征在于,包括:获取目标用户选定的目标身份信息以及所述目标用户的语音;将所述目标用户的语音划分为多个目标语音片段,并利用已训练好的说话人验证模型获取所述多个目标语音片段分别对应的多个目标声纹特征向量,其中,所述已训练好的说话人验证模型使用SE Res
‑
D Block骨干网络的多层结构;将所述多个目标声纹特征向量与所述目标身份信息对应的目标声纹特征空间进行相似度比较,并根据比较结果验证所述目标用户的身份,其中,所述目标声纹特征空间中包括多个声纹特征向量。2.如权利要求1所述的远场场景下说话人身份的验证方法,其特征在于,还包括:获取用户的身份信息以及所述用户在不同场景下的至少一条语音;利用所述已训练好的说话人验证模型获取所述至少一条语音分别对应的至少一个声纹特征向量;将所述至少一个声纹特征向量组成所述用户的身份信息对应的声纹特征空间;将所述用户的身份信息作为已注册身份信息,并将所述已注册身份信息与其对应的声纹特征空间进行映射存储,其中,所述已注册身份信息包括:所述目标身份信息。3.如权利要求1所述的远场场景下说话人身份的验证方法,其特征在于,还包括:获取训练数据集,其中,所述训练数据集中包括多个数据集,所述多个数据集包括近场语音数据集和远场语音数据集,每个数据集中包括至少一个说话人的至少一条语音数据;构造说话人验证模型;利用所述训练数据集对所述说话人验证模型进行训练,得到所述已训练好的说话人验证模型,其中,所述已训练好的说话人验证模型用于获取语音对应的声纹特征向量。4.如权利要求3所述的远场场景下说话人身份的验证方法,其特征在于,所述获取训练数据集包括:对所述训练数据集中的语音数据进行增强处理,得到增强后的语音数据;对所述增强后的语音数据进行归一化处理。5.如权利要求3所述的远场场景下说话人身份的验证方法,其特征在于,所述构造说话人验证模型包括:获取输入参数80维的梅尔频谱图,并将所述80维的梅尔频谱图转化为80*T的特征图;所述80*T的特征图经过Layer0层提取浅层特征之后输出C*T的特征图;所述C*T的特征图经过Layer1层、Layer02层、Layer3层提取深层特征之后,接入输出通道为C
’
的第一全连接层,得到C
’
*T的特征图;将所述C
’
*T的特征图经过注意力统计池化层注意力加权处理后输出2*1的特征图;将所述2*1的特征图经过输出通道为R的第二全连接层,得到R*1的声纹特征向量;其中,所述说话人验证模型包括所述Layer0层、所述Layer1层、所述Layer02层、所述Layer3层、所述第一全连接层、所述注意力统计池化层、所述第二全连接层。6.如权利...
【专利技术属性】
技术研发人员:梁兴伟,庄欣楠,杨波,
申请(专利权)人:康佳集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。