双向神经网络模型的训练和识别方法及系统技术方案

技术编号:18716822 阅读:35 留言:0更新日期:2018-08-21 23:36
本发明专利技术公开用于处理带噪语音的双向神经网络模型的训练和识别方法及系统,方法包括:获取仿真带噪数据和真实带噪数据;计算仿真带噪数据的时频隐蔽值标签,在双向神经网络中设定仿真带噪数据的标签为其训练目标,并将经过预设处理的仿真带噪数据输入至双向神经网络中进行训练;利用聚类的方式估计真实带噪数据的软时频隐蔽值标签,在双向神经网络中设定真实带噪数据的软标签为其训练目标,并将经过预设处理的真实带噪数据输入至双向神经网络中进行训练;输出训练后的双向神经网络的神经网络参数。本发明专利技术通过引入真实非仿真的训练数据进行神经网络模型的训练,一方面增加了训练数据量,另一方面也减小仿真数据与真实数据的不匹配。

Training and recognition method and system of bidirectional neural network model

The invention discloses a training and recognition method and system of a two-way neural network model for processing noisy speech. The method includes: acquiring simulated noisy data and real noisy data; calculating time-frequency hidden value labels of simulated noisy data; setting labels of simulated noisy data as training targets in a two-way neural network; and The pre-processed simulated noisy data is input to the two-way neural network for training; the soft time-frequency hidden value label of real noisy data is estimated by clustering method; the soft label of real noisy data is set as its training target in the two-way neural network, and the pre-processed real noisy data is input to the two-way neural network. Two way neural network is trained, and output neural network parameters of trained bi directional neural network. By introducing the real non-simulation training data into the training of the neural network model, on the one hand, the training data amount is increased, on the other hand, the mismatch between the simulation data and the real data is reduced.

【技术实现步骤摘要】
双向神经网络模型的训练和识别方法及系统
本专利技术属于语音信号处理领域,尤其涉及用于处理带噪语音的双向神经网络模型的训练和识别方法、系统及电子设备。
技术介绍
近年来,由于将深度神经网络引入声学建模,在自动语音识别(ASR,AutomaticSpeechRecognition)方面取得了重大进展。基于深度神经网络的ASR系统在许多现实世界的远场麦克风场景中仍然表现不佳。性能差的主要原因是背景干扰,例如,加性噪声、信道失真和混响,降低了信噪比,降低了ASR的性能。波束形成已被证明是一个有用的前端方法,可以提高这些条件下的系统性能。虽然传统的波束形成方法通常依赖于不准确的先验知识,如阵列几何或平面波假设,但基于时频隐蔽值的波束形成方法并不需要这种额外的知识,因此近年来已被广泛研究。时频隐蔽值的精确估计对于有效执行波束形成是重要的。大多数隐蔽值估计的方法可以分为两类:(1)基于聚类的方法在无监督模式下估计隐蔽值;(2)基于神经网络(NN,NeuralNetworks)的方法预先与训练的神经网络估计隐蔽值。这两种方法都在某些任务上取得了有竞争力的结果,例如CHiME-4数据集。专利技术人在实本文档来自技高网...

【技术保护点】
1.一种用于处理带噪数据的双向神经网络的训练方法,包括:获取仿真带噪数据和真实带噪数据;计算所述仿真带噪数据的时频隐蔽值标签,在双向神经网络中设定所述仿真带噪数据的时频隐蔽值标签为所述仿真带噪数据的训练目标,并将经过预设处理的仿真带噪数据输入至所述双向神经网络中进行训练;利用聚类的方式估计所述真实带噪数据的软时频隐蔽值标签,在所述双向神经网络中设定所述真实带噪数据的软时频隐蔽值标签为所述真实带噪数据的训练目标,并将经过预设处理的真实带噪数据输入至所述双向神经网络中进行训练;输出经过所述仿真带噪数据和所述真实带噪数据训练后的双向神经网络的神经网络参数。

【技术特征摘要】
1.一种用于处理带噪数据的双向神经网络的训练方法,包括:获取仿真带噪数据和真实带噪数据;计算所述仿真带噪数据的时频隐蔽值标签,在双向神经网络中设定所述仿真带噪数据的时频隐蔽值标签为所述仿真带噪数据的训练目标,并将经过预设处理的仿真带噪数据输入至所述双向神经网络中进行训练;利用聚类的方式估计所述真实带噪数据的软时频隐蔽值标签,在所述双向神经网络中设定所述真实带噪数据的软时频隐蔽值标签为所述真实带噪数据的训练目标,并将经过预设处理的真实带噪数据输入至所述双向神经网络中进行训练;输出经过所述仿真带噪数据和所述真实带噪数据训练后的双向神经网络的神经网络参数。2.根据权利要求1所述的方法,还包括:从所述带噪数据中选取同一说话人的带噪数据;利用所述同一说话人的带噪数据,将经过所述仿真带噪数据和所述真实带噪数据训练后的双向神经网络,通过神经网络自适应技术自适应到与说话人相关的双向神经网络,以更新所述神经网络参数中的说话人相关参数;输出更新所述说话人相关参数后的神经网络参数。3.根据权利要求2所述的方法,其中,所述计算所述仿真带噪数据的时频隐蔽值标签包括:获取构造仿真带噪语音时用到的干净语音和噪声;基于所述干净语音的时频隐蔽值和所述噪声的时频隐蔽值计算所述仿真带噪语音的时频隐蔽值标签。4.根据权利要求1-3所述的方法,其中,所述预设处理包括对所述带噪语音进行短时傅里叶变换以获得所述带噪语音的时频点幅值。5.一种用于处理带噪语音的双向神经网络模型的识别方法,包括:将权利要求1至4中任一项所述的神经网络参数输入至双向神经网络以形成优化后的双向神经网络模型;将待处理带噪数据输入至所述优化后的双向神经网络模型中以得到所述待处理带噪数据的噪声的时频隐蔽值和语音的时频隐蔽值;分别利用所述噪声的时频隐蔽值和所述语音的时频隐蔽值计算所述噪声的空间协方差矩阵和所述语音的空间协方差矩阵;基于所述噪声的空间协方差矩阵和所述语音的空间协方差矩阵计算波束形成空间滤波器参数;将所述波束形成空间滤波器参数输入波束形成空间滤波器以获得优化后的波束形成空间滤波器;利用优化后的波束形成空间滤波器对所述...

【专利技术属性】
技术研发人员:俞凯周瑛
申请(专利权)人:苏州思必驰信息科技有限公司上海交通大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1