一种目标说话人语音获取方法和系统技术方案

技术编号:37113223 阅读:14 留言:0更新日期:2023-04-01 05:10
本发明专利技术实施例提供一种目标说话人语音获取方法,包括:获取混合语料、参考语料以及多个单人语料,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;根据目标人声学特征还原为目标人说话语音,得到训练好的目标说话人语音获取模型;将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到目标说话人语音;本发明专利技术提供的方法,能够有效提升多说话人场景下的声纹识别准确率。识别准确率。识别准确率。

【技术实现步骤摘要】
一种目标说话人语音获取方法和系统


[0001]本专利技术涉及语音识别领域,特别是指一种目标说话人语音获取方法和系统。

技术介绍

[0002]每个人的声音都蕴涵着特有的生物特征,声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性,可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比,声纹识别的优势在于,声纹提取过程简单,成本低,且具有唯一性,不易伪造和假冒。近几年,随着深度学习技术的发展,声纹识别技术也得到了较大的提升,已经成功应用在很多场景。但是在某些应用场景中也存在很大的挑战,比如说在多说话人场景中,人类可以准确的从多说话人里面辨识出某个人的声音,但是声纹识别模型的表现就会比较差,无法从多说话人场景里面正确的识别出目标说话人,给声纹识别系统的推广应用带来了一定的阻碍。

技术实现思路

[0003]本专利技术的主要目的在于克服现有技术中的上述缺陷,提出一种目标说话人语音获取方法,用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,且能够拓展声纹识别的应用场景。
[0004]本专利技术采用如下技术方案:
[0005]一种目标说话人语音获取方法,包括:
[0006]获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
[0007]将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
[0008]将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
[0009]说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
[0010]将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
[0011]将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。
[0012]所述混合语料的合成方法,设定为两个说话人混合,具体为:
[0013][0014][0015]s1=w1*f
source1
[0016]s2=w2*f
source2
[0017]m=s1+s2
[0018]f
source1
为第一说话人的原始语音信号,f
source2
为第二说话人的原始语音信号,snr为信噪比参数,随机生成,数值大小在0~5db之间,w1为第一说话人权重,w2为第二说话人权重,s1作为语音合并前干净的说话人1语音信号,为主要说话人,s2为语音合并前干净的说话人2语音信号,为次要说话人,m为合成的含有两个说话人声音的语音信号。
[0019]具体地,所述说话人提取模块包括:多维度卷积层、卷积合并层、归一化层以及掩膜层,所述多维卷积层包括低维卷积层、中维卷积层以及高维卷积层,所述卷积合并层用于合并卷积计算,所述归一化层用于归一化计算,所述掩膜层用于过滤到无关说话人的语音信号。
[0020]具体地,所述掩膜层依次包括卷积层、归一化层、卷积层、归一化层、激活函数以及线性连接层。
[0021]具体地,说话人编码模块依次包括梅尔倒谱特征层、归一化层、多个深度残差模块、归一化层、线性连接层以及分类层;所述梅尔倒谱特征层用于提取语音信号的声学特征,并将时域信号转化为频域信号,所述归一化层用于归一化计算,所述深度残差模块用于残差计算,对说话人的语音信号进行建模,提取声学特征;所述线性连接层用于将提取的声学特征综合并输出。
[0022]具体地,训练的损失函数包括:交叉熵损失函数L1和源失真比损失函数L2:
[0023][0024][0025][0026]X
T
+X
E
=X
*
[0027]其中,其中,y为数据标签,值为0或者1,为模型预测输出;为原始声音信号,X
*
为待测信号,X
E
和X
T
为源失真比损失函数计算过程中的中间变量。
[0028]具体地,所述特征打分具体,具体为:
[0029][0030]其中,Similarity声纹特征A和声纹特征B的相似度,θ为特征A和B之间的夹角,A和B为声纹特征,A
i
为特征A的第i个矢量,B
i
特征B的第i个矢量,n为声纹特征中矢量个数,||A||为特征A的模长,||B||为特征B的模长。
[0031]本专利技术实施例另一方面提供一种目标说话人语音获取系统,包括:
[0032]语料获取单元:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;
[0033]混合语料特征处理单元:将混合语料输入目标说话人语音获取模型中混合语音接
口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;
[0034]参考语料特征处理单元:将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;
[0035]特征比对单元:说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;
[0036]语音解码单元:将目标人声学特征语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;
[0037]检测单元:将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音本专利技术实施例再一方面提供一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述一种目标说话人语音获取方法步骤。
[0038]本专利技术实施例又一方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述一种目标说话人语音获取方法步骤。
[0039]由上述对本专利技术的描述可知,与现有技术相比,本专利技术具有如下有益效果:
[0040]本专利技术实施例提供一种目标说话人语音获取方法,包括:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;将混合语料输入目标说话人语音获取模型中混合语音接口本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标说话人语音获取方法,其特征在于,包括:获取混合语料、参考语料以及多个单人语料,其中,混合语料是由不少于两人的说话人语料混合得到的,参考语料为包含所有单个说话人语料;将混合语料输入目标说话人语音获取模型中混合语音接口模块,语音编码模块获取混合语料的混合声学特征,说话人提取模块分离出混合声学特征中不同说话人的单人声学特征;将参考语料输入目标说话人获取模型中参考语音接口模块,说话人编码模块获取参考语料中的参考声学特征,得到参考声学特征集;说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分,确定出目标说话人;将目标人声学特征输入语音解码模块,根据目标人声学特征还原为目标人说话语音,完成目标说话人语音获取模型的训练,得到训练好的目标说话人语音获取模型;将目标说话人的参考语音和含有目标说话人的混合语音,输入到训练好的目标说话人语音获取模型中,得到含有目标说话人的混合语音中目标说话人语音。2.根据权利要求1所述的一种目标说话人语音获取方法,其特征在于,所述混合语料的合成方法,设定为两个说话人混合,具体为:合成方法,设定为两个说话人混合,具体为:s1=w1*f
source1
s2=w2*f
source2
m=s1+s2f
source1
为第一说话人的原始语音信号,f
source2
为第二说话人的原始语音信号,snr为信噪比参数,随机生成,数值大小在0~5db之间,w1为第一说话人权重,w2为第二说话人权重,s1作为语音合并前干净的说话人1语音信号,为主要说话人,s2为语音合并前干净的说话人2语音信号,为次要说话人,m为合成的含有两个说话人声音的语音信号。3.根据权利要求1所述的一种目标说话人语音获取方法,其特征在于,所述说话人提取模块包括:多维度卷积层、卷积合并层、归一化层以及掩膜层,所述多维卷积层包括低维卷积层、中维卷积层以及高维卷积层,所述卷积合并层用于合并卷积计算,所述归一化层用于归一化计算,所述掩膜层用于过滤到无关说话人的语音信号。4.根据权利要求3所述的一种目标说话人语音获取方法,其特征在于,所述掩膜层依次包括卷积层、归一化层、卷积层、归一化层、激活函数以及线性连接层。5.根据权利要求1所述的一种目标说话人语音获取方法,其特征在于,说话人编码模块依次包括梅尔倒谱特征层、归一化层、多个深度残差模块、归一化层、线性连接层以及分类层;所述梅尔倒谱特征层用于提取语音信号的声学特征,并将时域信号转化为频域信号,所述归一化层用于归一化计算,所述深度残差模块用于残...

【专利技术属性】
技术研发人员:叶林勇肖龙源李海洲李稀敏叶志坚
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1