一种基于无监督场景适应的说话人识别方法及系统技术方案

技术编号:31982507 阅读:25 留言:0更新日期:2022-01-20 01:56
本发明专利技术公开一种基于无监督场景适应的说话人识别方法及系统,方法包括:获取源域训练集和目标域训练集;对源域训练集和目标域训练集进行预处理,得到预处理后的源域训练集和目标域训练集;利用预处理后的源域训练集和目标域训练集以及损失函数对协作对抗网络模型进行训练和优化;将多个说话人语音以及与说话人语音对应的说话人身份输入优化后的协作对抗网络模型中,构建说话人语音数据库;将待识别说话人语音输入优化后的协作对抗网络模型中,利用优化后的协作对抗网络模型和说话人语音数据库识别出与待识别说话人语音对应的说话人身份。本发明专利技术能够在解决说话人识别的场景不匹配问题时,不损失说话人识别能力,从而提高说话人识别的精度。说话人识别的精度。说话人识别的精度。

【技术实现步骤摘要】
一种基于无监督场景适应的说话人识别方法及系统


[0001]本专利技术涉及说话人识别
,特别是涉及一种基于无监督场景适应的说话人识别方法及系统。

技术介绍

[0002]声纹认证以声音的多样性和特异性为基础,还具有不接触认证、数据采集方便、适合远程认证等优势,声纹认证和指纹、人脸等生物特征认证一起成为生物认证领域的重要方法。说话人识别技术是声纹认证的核心,其性能直接影响声纹认证的认证精度。在处理声纹认证场景时经常会遇到注册语音和测试语音场景不同的情况,例如在安静环境下注册,在嘈杂环境下测试,注册和测试条件不匹配,即说话人识别的场景不匹配会导致说话人识别性能显著下降。另一方面,数据标注的高成本也在制约多场景数据对模型性能的改进。传统的说话人识别方法不考虑场景不匹配问题,通常设定在安静环境下进行声纹认证,使用特征从早期的i

vector逐步发展到现在的x

vector,场景匹配时这些特征可以带来非常高的模型精度,但面对场景不匹配问题时模型精度会显著下降。
[0003]目前使用迁移学习领域中无监督方法可以解决说话人识别的场景不匹配的问题。无监督领域自适应方法有很多,但都会对目标场景数据做额外处理。其中,对抗领域自适应方法是无监督领域自适应的分支,既避免了额外操作也可以把不同场景数据映射到相同的参数空间达到领域适应目的,但会损失部分说话人识别能力,导致说话人识别的精度低。协作对抗领域自适应在对抗领域自适应基础上加入协作模块,进一步提升对目标场景数据的编码建模能力,使模型精度进一步提升,但提升效果有限,因此说话人识别的精度仍然不高。
[0004]上述无监督领域自适应方法均能分别解决说话人识别的场景不匹配的问题,但是在解决说话人识别的场景不匹配问题时,会损失说话人识别能力,最终导致说话人识别的精度均不高。

技术实现思路

[0005]本专利技术的目的是提供一种基于无监督场景适应的说话人识别方法及系统,能够在解决说话人识别的场景不匹配问题时,不损失说话人识别能力,从而提高说话人识别的精度。
[0006]为实现上述目的,本专利技术提供了如下方案:
[0007]一种基于无监督场景适应的说话人识别方法,所述方法包括:
[0008]获取源域训练集;所述源域训练集包括多个源说话人语音以及与所述源说话人语音对应的说话人身份和第一场景;所述场景包括说话人所处的声音环境和录音条件;
[0009]获取目标域训练集;所述目标域训练集包括多个目标说话人语音以及与所述目标说话人语音对应的第二场景;
[0010]对所述源域训练集和所述目标域训练集进行预处理,得到预处理后的源域训练集
和预处理后的目标域训练集;
[0011]利用所述预处理后的源域训练集和所述预处理后的目标域训练集以及损失函数对协作对抗网络模型进行训练和优化,得到优化后的协作对抗网络模型;所述损失函数包括协作损失函数;所述协作损失函数包括场景特征提取参数;所述场景特征提取参数用于对所述预处理后的源域训练集和所述预处理后的目标域训练集进一步提取场景特征,并在梯度反向传播时减弱所述协作损失函数对说话人特征表达的约束;
[0012]获取同一场景下的多个说话人语音;
[0013]将多个所述说话人语音以及与所述说话人语音对应的说话人身份输入所述优化后的协作对抗网络模型中,利用所述优化后的协作对抗网络模型对所述说话人语音提取说话人特征以及与所述说话人特征对应的场景特征;
[0014]利用所述说话人特征以及与所述说话人特征对应的场景特征和说话人身份,构建说话人语音数据库;
[0015]将待识别说话人语音输入所述优化后的协作对抗网络模型中,利用所述优化后的协作对抗网络模型和所述说话人语音数据库识别出与所述待识别说话人语音对应的说话人身份;所述待识别说话人语音对应的场景与所述说话人语音对应的场景相同。
[0016]可选地,所述将待识别说话人语音输入所述优化后的协作对抗网络模型中,利用所述优化后的协作对抗网络模型和所述说话人语音数据库识别出与所述待识别说话人语音对应的说话人身份,具体包括:
[0017]将待识别说话人语音输入所述优化后的协作对抗网络模型中;
[0018]利用所述优化后的协作对抗网络模型对所述待识别说话人语音提取待识别说话人特征以及与所述待识别说话人特征对应的场景特征;
[0019]将所述待识别说话人特征与所述说话人语音数据库中多个所述说话人特征依次进行特征匹配,将所述待识别说话人特征对应的场景特征与所述说话人语音数据库中多个所述说话人特征对应的场景特征依次进行特征匹配;
[0020]若所述特征匹配成功,则输出与所述待识别说话人语音对应的说话人身份。
[0021]可选地,所述方法还包括:
[0022]若所述特征匹配不成功,则确定与所述待识别说话人语音对应的说话人身份不在所述说话人语音数据库中。
[0023]可选地,所述对所述源域训练集和所述目标域训练集进行预处理,得到预处理后的源域训练集和预处理后的目标域训练集,具体包括:
[0024]对所述源说话人语音和所述目标说话人语音进行数据增强,得到数据增强后的源说话人语音和数据增强后的目标说话人语音;
[0025]对所述数据增强后的源说话人语音和所述数据增强后的目标说话人语音提取声学特征,得到源说话人语音的声学特征和目标说话人语音的声学特征;所述预处理后的源域训练集包括所有所述源说话人语音的声学特征;所述预处理后的目标域训练集包括所有所述目标说话人语音的声学特征。
[0026]可选地,所述协作损失函数的表达式为L
c
=CE(F
c
(F

f

c
),y
d
);式中,L
c
表示协作损失,CE表示交叉熵损失函数,F
c
表示场景特征分类函数,F

f
表示浅层向量,θ
c
表示场景特征提取参数,y
d
表示与说话人语音对应的场景。
[0027]本专利技术还提供了如下方案:
[0028]一种基于无监督场景适应的说话人识别系统,所述系统包括:
[0029]源域训练集获取模块,用于获取源域训练集;所述源域训练集包括多个源说话人语音以及与所述源说话人语音对应的说话人身份和第一场景;所述场景包括说话人所处的声音环境和录音条件;
[0030]目标域训练集获取模块,用于获取目标域训练集;所述目标域训练集包括多个目标说话人语音以及与所述目标说话人语音对应的第二场景;
[0031]预处理模块,用于对所述源域训练集和所述目标域训练集进行预处理,得到预处理后的源域训练集和预处理后的目标域训练集;
[0032]模型训练和优化模块,用于利用所述预处理后的源域训练集和所述预处理后的目标域训练集以及损失函数对协作对抗网络模型进行训练和优化,得到优化后的协作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无监督场景适应的说话人识别方法,其特征在于,所述方法包括:获取源域训练集;所述源域训练集包括多个源说话人语音以及与所述源说话人语音对应的说话人身份和第一场景;所述场景包括说话人所处的声音环境和录音条件;获取目标域训练集;所述目标域训练集包括多个目标说话人语音以及与所述目标说话人语音对应的第二场景;对所述源域训练集和所述目标域训练集进行预处理,得到预处理后的源域训练集和预处理后的目标域训练集;利用所述预处理后的源域训练集和所述预处理后的目标域训练集以及损失函数对协作对抗网络模型进行训练和优化,得到优化后的协作对抗网络模型;所述损失函数包括协作损失函数;所述协作损失函数包括场景特征提取参数;所述场景特征提取参数用于对所述预处理后的源域训练集和所述预处理后的目标域训练集进一步提取场景特征,并在梯度反向传播时减弱所述协作损失函数对说话人特征表达的约束;获取同一场景下的多个说话人语音;将多个所述说话人语音以及与所述说话人语音对应的说话人身份输入所述优化后的协作对抗网络模型中,利用所述优化后的协作对抗网络模型对所述说话人语音提取说话人特征以及与所述说话人特征对应的场景特征;利用所述说话人特征以及与所述说话人特征对应的场景特征和说话人身份,构建说话人语音数据库;将待识别说话人语音输入所述优化后的协作对抗网络模型中,利用所述优化后的协作对抗网络模型和所述说话人语音数据库识别出与所述待识别说话人语音对应的说话人身份;所述待识别说话人语音对应的场景与所述说话人语音对应的场景相同。2.根据权利要求1所述的基于无监督场景适应的说话人识别方法,其特征在于,所述将待识别说话人语音输入所述优化后的协作对抗网络模型中,利用所述优化后的协作对抗网络模型和所述说话人语音数据库识别出与所述待识别说话人语音对应的说话人身份,具体包括:将待识别说话人语音输入所述优化后的协作对抗网络模型中;利用所述优化后的协作对抗网络模型对所述待识别说话人语音提取待识别说话人特征以及与所述待识别说话人特征对应的场景特征;将所述待识别说话人特征与所述说话人语音数据库中多个所述说话人特征依次进行特征匹配,将所述待识别说话人特征对应的场景特征与所述说话人语音数据库中多个所述说话人特征对应的场景特征依次进行特征匹配;若所述特征匹配成功,则输出与所述待识别说话人语音对应的说话人身份。3.根据权利要求2所述的基于无监督场景适应的说话人识别方法,其特征在于,所述方法还包括:若所述特征匹配不成功,则确定与所述待识别说话人语音对应的说话人身份不在所述说话人语音数据库中。4.根据权利要求1所述的基于无监督场景适应的说话人识别方法,其特征在于,所述对所述源域训练集和所述目标域训练集进行预处理,得到预处理后的源域训练集和预处理后的目标域训练集,具体包括:
对所述源说话人语音和所述目标说话人语音进行数据增强,得到数据增强后的源说话人语音和数据增强后的目标说话人语音;对所述数据增强后的源说话人语音和所述数据增强后的目标说话人语音提取声学特征,得到源说话人语音的声学特征和目标说话人语音的声学特征;所述预处理后的源域训练集包括所有所述源说话人语音的声学特征;所述预处理后的目标域训练集包括所有所述目标说话人语音的声学特征。5.根据权利要求1所述的基于无监督场景适应的说话人识别方法,其特征在于,所述协作损失函数的表达式为L
c
=CE(F
c
(F
f


c
),y
d
);式中,L
c
表示协作损失,CE表示交叉熵损失函数,F
c
表示场景特征分类函数,F
f

表示浅层向量,θ
c
表示场景特征提取参数,y
d
表示与说话人语音对应的场景。6.一种基于无监督场景适应的说话人识别系统,其特征在于,所述系...

【专利技术属性】
技术研发人员:杨群强峻浩刘绍翰
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1