一种基于多说话人条件下目标说话人语音提取方法技术

技术编号:27260350 阅读:31 留言:0更新日期:2021-02-06 11:17
本发明专利技术属于目标语音提取和自适应技术领域,具体涉及一种基于多说话人条件下目标说话人语音提取方法,该方法具体包括:实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;基于该目标说话人的语音频谱,获取目标说话人的语音。语音。语音。

【技术实现步骤摘要】
一种基于多说话人条件下目标说话人语音提取方法


[0001]本专利技术属于目标语音提取和自适应
,特别涉及一种基于多说话人条件下目标说话人语音提取方法。

技术介绍

[0002]近年来,受益于计算机技术与深度学习理论的发展,对于干净语音的识别已经能够达到很高的准确率,甚至接近人类水平。但是,如果存在多个说话人或者噪声干扰的条件下,语音识别系统的识别率大幅度下降。为了解决这一问题,通常在识别之前,对受干扰的语音信号进行前端的处理。其中,语音信号前端处理主要包括以下几个方面:移除信号中的复杂环境噪声并尽量减少语音信号的失真,多说话人语音分离,从混合语音中提取出感兴趣的目标语音。
[0003]在语音信号前端处理中,通常采用深度神经网络(deep neural network,以下简称DNN)将带噪语音的频谱映射成干净的语音的时频掩蔽(masking)。对于多说话人的语音分离的处理,国内外的学者提出了一些新的方法,主要包括:深度聚类网络,深度吸引子网络等,这些方法通常采用DNN来估计不同说话人的掩蔽,然后在高维空间中拉近同一说话人的距离,同时拉远不同说话人之间的距离。这些方法能一定程度上改善多说话人场景下语音识别的性能,但是,现有的方法仍然存在着一些局限性:这些方法需要已知混合语音中说话人的数量,并且对于训练数据中没有出现过的说话人,自适应能力较弱,这就很大程度上限制了模型的灵活性,造成了训练和测试说话人不匹配导致的性能下降。
[0004]另外,对于一个训练好的说话人无关的模型,说话人自适应的目的是针对不同的目标说话人,学习对应的说话人相关的数据分布,从而使得模型能够更好的适应对应说话人的语音。说话人自适应相比于其他的自适应更具挑战性,因为通常情况下,能够用来进行自适应的目标说话人数据十分有限,然而说话人无关的DNN模型通常有很多参数,这就很容易造成过拟合,从而限制自适应的效果。

技术实现思路

[0005]本专利技术的目的在于,为解决现有的方法存在的上述缺陷,本专利技术提出了一种基于多说话人条件下目标说话人语音提取方法,该方法提出一种针对目标说话人的语音提取框架,该框架只聚焦于感兴趣的目标说话人的语音,将其他说话人的语音作为干扰语音进行排除。本专利技术的方法对目标语音提取网络进行在线自适应,并且只对目标语音提取网络的小部分参数进行自适应调节,不需要额外的自适应数据,能够很好的解决过拟合的问题。具体地,该方法主要是从一句预先提供的锚语音中提取出目标说话人的特征向量,并将目标说话人的特征向量和多个说话人混合的语音频谱一起输入至预先训练的语音提取网络中,提取出目标说话人语音频谱,并依据该目标说话人语音频谱恢复目标说话人语音。
[0006]为了实现上述目的,本专利技术提出了一种多说话人条件下目标说话人语音获取方法,其特征在于,该方法具体包括:
[0007]实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;
[0008]将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;
[0009]将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;
[0010]基于该目标说话人的语音频谱,获取目标说话人的语音。
[0011]作为上述技术方案的改进之一,所述将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;具体包括:
[0012]从目标说话人的干净语音中任意选取一条干净语音作为锚语音,将该锚语音输入至预先训练的说话人识别模型中,所述说话人识别模型中还包括一统计累积层,用于统计目标说话人的语音片段在这一层的均值和标准差,再将二者拼接之后传给统计层之后的隐层,作为说话人特征向量的提取层,用于从该锚语音中提取目标说话人的特征向量。
[0013]作为上述技术方案的改进之一,所述说话人识别模型的建立和训练的步骤,具体包括:
[0014]建立说话人识别模型,其输入为训练语音的特征,其输出为说话人识别结果,即当前训练语音所对应的说话人;具体包括:
[0015]通过优化目标函数来更新说话人识别模型的参数,对说话人识别模型进行训练,其中,所述说话人识别模型的参数包括权重和偏置;目标函数见公式(1):
[0016][0017]其中,E为目标函数;n表示语音片段数量;k表示说话人的数量;d
nk
为输入语音片段属于说话人k的概率;其中,在语音片段的标注是当前说话人的时候,d
nk
=1;否则,d
nk
=0;为训练语音的特征,具体为训练语音在1到T时刻的梅尔倒谱系数特征;spkr
k
为第k个说话人;
[0018]通过最小化目标函数,完成对说话人识别模型的训练;
[0019]将锚语音的特征输入到训练后的说话人识别模型中,从该说话人识别模型的中间的统计层之后的隐层中提取出目标说话人的特征向量。
[0020]作为上述技术方案的改进之一,所述将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;具体包括:
[0021]将多个说话人混合的语音的频谱输入至预先训练的目标说话人语音提取网络,同时,将获取的目标说话人的特征向量输入至目标说话人语音提取网络,获取目标说话人的语音频谱的相位敏感掩蔽;将该目标说话人的语音频谱的相位敏感掩蔽和输入的多个说话人混合的语音的频谱相乘,获取目标说话人的语音频谱。
[0022]作为上述技术方案的改进之一,所述目标说话人语音提取网络的建立和训练步骤,具体包括:
[0023]建立目标说话人语音提取网络,采用相位敏感掩蔽,对目标说话人语音提取网络进行训练;其中,相位敏感掩蔽见公式(2);
[0024][0025]其中,S(t,f)是目标说话人的干净语音的频谱;Y(t,f)是混合语音的频谱;θ表示目标说话人的语音与混合语音的相位差;PSM(t,f)为目标说话人的语音频谱的相位敏感掩蔽;
[0026]目标说话人语音提取网络的输入为混合语音的频谱;其输出是目标说话人的语音频谱的相位敏感掩蔽。
[0027]作为上述技术方案的改进之一,所述基于该目标说话人的语音频谱,获取目标说话人的语音;具体包括:
[0028]基于该目标说话人的语音频谱,采用傅里叶逆变换,获取目标说话人的语音。
[0029]作为上述技术方案的改进之一,所述方法还包括:在目标说话人语音提取网络中增设说话人门(speaker gate),将目标说话人的特征向量输入说话人门,来获取一组与目标说话人相关的自适应参数;利用获取的该组与目标说话人相关的自适应参数,与目标说话人语音提取网络中最后一个全链接层的输出进行对应元素相乘,来调节语音提取网络中的每个节点对于不同说话人的贡献程度,对目标说话人语音提取网络的全链接层的输出值进行动态的自适应调节,再根据自适应调节之后的输出来生成相位敏感掩蔽,构成说话人门本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多说话人条件下目标说话人语音提取方法,其特征在于,该方法具体包括:实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;基于该目标说话人的语音频谱,获取目标说话人的语音。2.根据权利要求1所述的方法,其特征在于,所述将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;具体包括:从目标说话人的干净语音中任意选取一条干净语音作为锚语音,将该锚语音输入至预先训练的说话人识别模型中,所述说话人识别模型中还包括一统计累积层,用于统计目标说话人的语音片段在这一层的均值和标准差,再将二者拼接之后传给统计层之后的隐层,作为说话人特征向量的提取层,用于从该锚语音中提取目标说话人的特征向量。3.根据权利要求1或2所述的方法,其特征在于,所述说话人识别模型的建立和训练的步骤,具体包括:建立说话人识别模型,其输入为训练语音的特征,其输出为说话人识别结果;具体包括:通过优化目标函数来更新说话人识别模型的参数,对说话人识别模型进行训练,其中,所述说话人识别模型的参数包括权重和偏置;目标函数见公式(1):其中,E为目标函数;n表示语音片段数量;k表示说话人的数量;d
nk
为输入语音片段属于说话人k的概率;其中,在语音片段的标注是当前说话人的时候,d
nk
=1;否则,d
nk
=0;为训练语音的特征,具体为训练语音在1到T时刻的梅尔倒谱系数特征;spkr
k
为第k个说话人;通过最小化目标函数,完成对说话人识别模型的训练;将锚语音的特征输入到训练后的说话人识别模型中,从该说话人识别模型的中间的统计层之后...

【专利技术属性】
技术研发人员:张鹏远林格平李文洁万辛戚梦苑沈亮颜永红
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1