一种基于多说话人条件下目标说话人语音提取方法技术

技术编号：27260350 阅读：31 留言：0更新日期：2021-02-06 11:17

本发明专利技术属于目标语音提取和自适应技术领域，具体涉及一种基于多说话人条件下目标说话人语音提取方法，该方法具体包括：实时获取多个说话人混合的语音，提取多个说话人混合的语音的频谱；将锚语音输入到预先训练的说话人识别模型中，提取出目标说话人的特征向量；将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中，获取目标说话人的语音频谱；基于该目标说话人的语音频谱，获取目标说话人的语音。语音。语音。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多说话人条件下目标说话人语音提取方法

[0001]本专利技术属于目标语音提取和自适应
，特别涉及一种基于多说话人条件下目标说话人语音提取方法。

技术介绍

[0002]近年来，受益于计算机技术与深度学习理论的发展，对于干净语音的识别已经能够达到很高的准确率，甚至接近人类水平。但是，如果存在多个说话人或者噪声干扰的条件下，语音识别系统的识别率大幅度下降。为了解决这一问题，通常在识别之前，对受干扰的语音信号进行前端的处理。其中，语音信号前端处理主要包括以下几个方面：移除信号中的复杂环境噪声并尽量减少语音信号的失真，多说话人语音分离，从混合语音中提取出感兴趣的目标语音。
[0003]在语音信号前端处理中，通常采用深度神经网络(deep neural network,以下简称DNN)将带噪语音的频谱映射成干净的语音的时频掩蔽(masking)。对于多说话人的语音分离的处理，国内外的学者提出了一些新的方法，主要包括：深度聚类网络，深度吸引子网络等，这些方法通常采用DNN来估计不同说话人的掩蔽，然后在高维空间中拉近同一说话人的距离，同时拉远不同说话人之间的距离。这些方法能一定程度上改善多说话人场景下语音识别的性能，但是，现有的方法仍然存在着一些局限性：这些方法需要已知混合语音中说话人的数量，并且对于训练数据中没有出现过的说话人，自适应能力较弱，这就很大程度上限制了模型的灵活性，造成了训练和测试说话人不匹配导致的性能下降。
[0004]另外，对于一个训练好的说话人无关的模型，说话人自适应的目的是针对不同...

【技术保护点】

【技术特征摘要】
1.一种多说话人条件下目标说话人语音提取方法，其特征在于，该方法具体包括：实时获取多个说话人混合的语音，提取多个说话人混合的语音的频谱；将锚语音输入到预先训练的说话人识别模型中，提取出目标说话人的特征向量；将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中，获取目标说话人的语音频谱；基于该目标说话人的语音频谱，获取目标说话人的语音。2.根据权利要求1所述的方法，其特征在于，所述将锚语音输入到预先训练的说话人识别模型中，提取出目标说话人的特征向量；具体包括：从目标说话人的干净语音中任意选取一条干净语音作为锚语音，将该锚语音输入至预先训练的说话人识别模型中，所述说话人识别模型中还包括一统计累积层，用于统计目标说话人的语音片段在这一层的均值和标准差，再将二者拼接之后传给统计层之后的隐层，作为说话人特征向量的提取层，用于从该锚语音中提取目标说话人的特征向量。3.根据权利要求1或2所述的方法，其特征在于，所述说话人识别模型的建立和训练的步骤，具体包括：建立说话人识别模型，其输入为训练语音的特征，其输出为说话人识别结果；具体包括：通过优化目标函数来更新说话人识别模型的参数，对说话人识别模型进行训练，其中，所述说话人识别模型的参数包括权重和偏置；目标函数见公式(1)：其中，E为目标函数；n表示语音片段数量；k表示说话人的数量；d
nk
为输入语音片段属于说话人k的概率；其中，在语音片段的标注是当前说话人的时候，d
nk
＝1；否则，d
nk
＝0；为训练语音的特征，具体为训练语音在1到T时刻的梅尔倒谱系数特征；spkr
k
为第k个说话人；通过最小化目标函数，完成对说话人识别模型的训练；将锚语音的特征输入到训练后的说话人识别模型中，从该说话人识别模型的中间的统计层之后...

【专利技术属性】
技术研发人员：张鹏远，林格平，李文洁，万辛，戚梦苑，沈亮，颜永红，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人