提取说话人嵌入特征的神经网络的训练方法和装置制造方法及图纸

技术编号：24252335 阅读：35 留言：0更新日期：2020-05-22 23:58

本发明专利技术公开提取说话人嵌入特征的神经网络的训练方法和装置，其中，神经网络包括多个帧级层、统计池化层和多个段级层，方法包括：经由多个帧级层接收并处理输入的音频片段；经由统计池化层将帧级频谱特征聚合为段级频谱特征；在统计池化层的基础上再拆分出第一多层线性层以用于计算段级频谱特征的第一信道损失；经由多个段级层将段级频谱特征合并成话语级频谱特征，并计算话语级频谱特征的说话人损失；在多个段级层的基础上再拆分出第二多层线性层以用于计算话语级频谱特征的第二信道损失；以及通过控制第一信道损失、第二信道损失和说话人损失的和值训练神经网络。通过本申请的方案训练的神经网络可以提取出信道无关的说话人嵌入特征。

Training method and device of neural network for extracting speaker's embedded features

全部详细技术资料下载

【技术实现步骤摘要】
提取说话人嵌入特征的神经网络的训练方法和装置
本专利技术属于神经网络训练
，尤其涉及提取说话人嵌入特征的神经网络的训练方法和装置。
技术介绍
说话人验证(SV，SpeakerVerfication)的目的是根据用户的语音片段来验证其要求的身份。最近，基于深度神经网络(DNN，deepneuralnetwork)的说话人嵌入学习已成为该领域的主要方法。研究人员研究了不同的体系结构，不同的损失函数和不同的模型补偿方法，这极大地提高了SV系统的性能。尽管深度学习技术在SV研究领域中取得了巨大的成功，但实际应用构建SV系统仍然非常困难。众所周知，就系统的鲁棒性而言，说话人验证比语音识别更脆弱。为了提高SV系统的鲁棒性，需要解决两个可变性来源：语音内容和信道可变性。对于文本无关的说话人验证，这要求将来自同一说话人的具有不同语音内容的两种话语归为一类，在说话人建模过程中应对音素变化很重要。对于使用不同设备和录音环境的现实世界中与文本相关和与文本无关的说话人验证任务，由于这种信道不匹配，系统性能将急剧下降。相...

【技术保护点】
1.一种提取说话人嵌入特征的神经网络的训练方法，其中，所述神经网络包括多个帧级层、统计池化层和多个段级层，所述方法包括：/n经由所述多个帧级层接收并处理输入的音频片段，其中，所述多个帧级层用于提取帧级频谱特征；/n经由所述统计池化层将所述帧级频谱特征聚合为段级频谱特征；/n在所述统计池化层的基础上再拆分出第一多层线性层以用于计算所述段级频谱特征的第一信道损失；/n经由所述多个段级层将所述段级频谱特征合并成话语级频谱特征，并计算所述话语级频谱特征的说话人损失；/n在所述多个段级层的基础上再拆分出第二多层线性层以用于计算所述话语级频谱特征的第二信道损失；/n通过控制所述第一信道损失、所述第二信道损...

【技术特征摘要】
1.一种提取说话人嵌入特征的神经网络的训练方法，其中，所述神经网络包括多个帧级层、统计池化层和多个段级层，所述方法包括：
经由所述多个帧级层接收并处理输入的音频片段，其中，所述多个帧级层用于提取帧级频谱特征；
经由所述统计池化层将所述帧级频谱特征聚合为段级频谱特征；
在所述统计池化层的基础上再拆分出第一多层线性层以用于计算所述段级频谱特征的第一信道损失；
经由所述多个段级层将所述段级频谱特征合并成话语级频谱特征，并计算所述话语级频谱特征的说话人损失；
在所述多个段级层的基础上再拆分出第二多层线性层以用于计算所述话语级频谱特征的第二信道损失；
通过控制所述第一信道损失、所述第二信道损失和所述说话人损失的和值训练所述神经网络。

2.根据权利要求1所述的方法，其中，所述方法还包括：在所述第一多层线性层之前插入梯度翻转层以用于对抗训练；和/或
在所述第二多层线性层之前插入梯度翻转层以用于对抗训练。

3.根据权利要求1所述的方法，其中，所述第一信道损失和所述第二信道损失包括使用交叉熵计算。

4.根据权利要求1所述的方法，其中，所述说话人损失包括使用附加角裕量损失计算。

5.根据权利要求1-4中任一项所述的方法，其中，所述多个帧级层包括时延神经网络特征提取器，所述多个段级层包括线性嵌入层。

6.根据权利要求5所述的方法，其中，所述神经网络包括深度神经网络。

7.一种提取说话...

【专利技术属性】
技术研发人员：钱彦旻，俞凯，陈正阳，王帅，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人