The invention provides a method, device, device and computer storage medium for establishing a speech enhancement network. The methods include: acquiring the noise speech spectrum and the clear speech spectrum corresponding to each noise speech spectrum as training samples; constructing a generation antagonism network containing generators and discriminators; and according to the obtained noise speech spectrum and the corresponding clear speech spectrum. The generated countermeasure network is trained by switching the loss function of the generator in N training phases. The generated countermeasure network is trained to obtain a speech enhancement network, in which N is a positive integer greater than or equal to 2. The invention can enhance the stability of training convergence of generating antagonism network, thereby improving the performance of speech enhancement network based on generating antagonism network, and thereby realizing the purpose of improving the accuracy of speech recognition.
【技术实现步骤摘要】
建立语音增强网络的方法、装置、设备和计算机存储介质
本专利技术涉及语音识别技术,尤其涉及一种建立语音增强网络的方法、装置、设备和计算机存储介质。
技术介绍
噪声环境下的语音识别一直是目前语音识别领域急需解决的难题,目前的主流方法都是在语音识别系统前加一个语音增强网络。目前为止,生成对抗网络(GenerativeAdversarialNetwork,GAN)是作为语音增强网络最新的增强方法。通过研究发现,采用现有的训练方式训练生成对抗网络时,虽然能够加速生成对抗网络训练的收敛,但是会导致生成对抗网络收敛的不稳定,会让生成对抗网络中的生成器生成过于清晰的语音频谱,导致现有的基于生成对抗网络的语音增强网络会损失语音频谱中某些细微却重要的信息。
技术实现思路
有鉴于此,本专利技术提供了一种建立语音增强网络的方法、装置、设备和计算机存储介质,用于增强生成对抗网络训练收敛的稳定性,从而提升基于生成对抗网络的语音增强网络的性能,进而实现提高语音识别准确性的目的。本专利技术为解决技术问题所采用的技术方案是提供一种建立语音增强网络的方法,所述方法包括:获取带噪语音频谱以及与 ...
【技术保护点】
1.一种建立语音增强网络的方法,其特征在于,所述方法包括:获取带噪语音频谱以及与各带噪语音频谱对应的清晰语音频谱作为训练样本;构建包含生成器和判别器的生成对抗网络;根据获取的带噪语音频谱及其对应的清晰语音频谱,采用在N个训练阶段中切换生成器的损失函数的方式对所述生成对抗网络进行训练,利用训练得到的所述生成对抗网络中的生成器得到语音增强网络,其中N为大于等于2的正整数。
【技术特征摘要】
1.一种建立语音增强网络的方法,其特征在于,所述方法包括:获取带噪语音频谱以及与各带噪语音频谱对应的清晰语音频谱作为训练样本;构建包含生成器和判别器的生成对抗网络;根据获取的带噪语音频谱及其对应的清晰语音频谱,采用在N个训练阶段中切换生成器的损失函数的方式对所述生成对抗网络进行训练,利用训练得到的所述生成对抗网络中的生成器得到语音增强网络,其中N为大于等于2的正整数。2.根据权利要求1所述的方法,其特征在于,所述生成器的网络结构可以为深度神经网络、循环神经网络或者长短时记忆网络中的一种,所述判别器的网络结构可以为深度神经网络、循环神经网络或者长短时记忆网络中的一种。3.根据权利要求1所述的方法,其特征在于,所述采用在N个训练阶段中切换生成器的损失函数的方式对所述生成对抗网络进行训练包括:采用在两个训练阶段中切换生成器的损失函数的方式对所述生成对抗网络进行训练,所述两个训练阶段包括第一训练阶段以及第二训练阶段。4.根据权利要求3所述的方法,其特征在于,在所述第一训练阶段对所述生成对抗网络进行训练包括:将带噪语音频谱输入生成器,得到生成器的输出结果;在迭代次数小于等于预设的迭代次数时,根据生成器的输出结果及其对应的清晰语音频谱,得到生成器的第一损失函数;根据所述生成器的第一损失函数更新生成器的网络结构中的参数;在所述第二训练阶段对所述生成对抗网络进行训练包括:将带噪语音频谱输入生成器,得到生成器的输出结果;在迭代次数大于预设的迭代次数之后,将生成器的输出结果及其对应的清晰语音频谱输入判别器,根据判别器的输出结果分别得到判别器的损失函数以及生成器的第二损失函数;根据所述判别器的损失函数以及生成器的第二损失函数,分别更新判别器以及生成器的网络结构中的参数,直至生成对抗网络收敛。5.根据权利要求3所述的方法,其特征在于,在所述第一训练阶段对所述生成对抗网络进行训练包括:将带噪语音频谱输入生成器,得到生成器的输出结果;在迭代次数小于等于预设的迭代次数时,将生成器的输出结果及其对应的清晰语音频谱输入判别器,根据判别器的输出结果得到生成器的第二损失函数;根据所述生成器的第二损失函数,更新生成器的网络结构中的参数;在所述第二训练阶段对所述生成对抗网络进行训练包括:将带噪语音频谱输入生成器,得到生成器的输出结果;在达到预设的迭代次数之后,根据生成器的输出结果及其对应的清晰语音频谱,得到生成器的第一损失函数;将所述生成器的输出结果输入判别器,根据判别器的输出结果得到判别器的损失函数;根据所述判别器的损失函数以及生成器的第一损失函数,分别更新判别器以及生成器的网络结构中的参数,直至生成对抗网络收敛。6.根据权利要求4或5中任一项所述的方法,其特征在于,所述生成器的第一损失函数通过以下公式计算得到:在公式中:LG1表示生成器的第一损失函数;x表示带噪语音频谱;y表示与带噪语音频谱对应的清晰语音频谱;Pdata表示训练样本;E表示从训练样本中取样;G(x)表示输入为带噪语音频谱时生成器的输出结果。7.根据权利要求4或5中任一项所述的方法,其特征在于,所述生成器的第二损失函数通过以下公式计算得到:在公式中:LG2表示生成器的第二损失函数;x表示带噪语音频谱;y表示与带噪语音频谱对应的清晰语音频谱;pdata表示训练样本;E表示从训练样本中取样;G(x)表示输入为带噪语音频谱时生成器的输出结果;D(G(x))表示当输入为生成器的输出结果时判别器的输出结果;f(epoch)表示与迭代次数epoch成反比关系的函数。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述语音增强网络与语音识别系统组合,为所述语音识别系统提供清晰语音频谱。9.一种建立语音增强网络的装置,其特征在于,所述装置包括:样本获取单元,用于获取带噪语音频谱以及与各带噪语音频谱对应的清晰语音频谱作为训练样本;网络构建单元,用于构建包含生成器和判别器的生成对抗网络;网络训练单元,用于根据获取的带噪语音频谱及其对应的清晰语音频谱,采用在N...
【专利技术属性】
技术研发人员:成学军,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。