语音增强模型的构建方法及系统、语音增强方法及系统技术方案

技术编号:30059508 阅读:21 留言:0更新日期:2021-09-15 11:04
本发明专利技术公开一种语音增强模型的构建方法及系统,还公开一种利用所构建的语音增强模型实现的语音增强方法及系统,其中构建方法包括基于相对应的纯净语音和带噪语音迭代训练语音增强网络的迭代训练步骤,具体为:将带噪语音输入至所述语音增强网络,由所述语音增强网络输出相应的估计语音;计算相对应的纯净语音和估计语音之间的幅度平方相干度;计算所述估计语音的能量谱密度数据;获取预设的听觉滤波器,基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度;基于所述语音清晰度更新所述语音增强网络。本申请基于所述语音清晰度对模型参数进行更新,使训练所得的模型降噪结果更清晰可懂。懂。懂。

【技术实现步骤摘要】
语音增强模型的构建方法及系统、语音增强方法及系统


[0001]本专利技术涉及声学
,尤其涉及一种基于人类感知的语音增强技术。

技术介绍

[0002]随着深度学习技术的快速发展,神经网络模型广泛应用于语音降噪场景,如语音增强生成对抗网络SEGAN以及著名的音频处理网络wavenet;但现有基于神经网络的降噪算法对复杂场景下的带噪语音进行降噪时,所得去噪语音的语音可懂度和清晰度较差,尤其在非稳定噪声的情况下,易出现严重的消声现象和非稳定噪声残留,严重影响去噪语音的质量。

技术实现思路

[0003]本专利技术针对现有基于神经网络的降噪算法降噪所得的去噪语音清晰度和可懂度差的缺点,提出一种语音增强模型的构建技术,还提出一种基于所构建的语音增强模型实现的语音增强技术。
[0004]为了解决上述技术问题,本专利技术通过下述技术方案得以解决:一种语音增强模型的构建方法,基于训练样本对迭代训练语音增强网络,获得语音增强模型,所述训练样本对包括相对应的纯净语音和带噪语音,迭代训练包括以下步骤:将带噪语音输入至所述语音增强网络,由所述语音增强网络输出相应的估计语音;计算相对应的纯净语音和估计语音之间的幅度平方相干度;计算所述估计语音的能量谱密度数据;获取预设的听觉滤波器,例如可采用现有已公开的ro

ex filter听觉滤波器。
[0005]基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度;基于所述语音清晰度更新所述语音增强网络。
[0006]本申请基于纯净语音与估计语音之间的幅度平方一致性MSC,同时结合人类听觉滤波器和估计语音的能量谱密度,最终得出估计语音的语音清晰度,以指示估计语音的失真程度;本申请基于所述语音清晰度对模型参数进行更新,使训练所得的模型降噪结果具有较高的清晰度和可懂度,更能符合人类的听觉感知。
[0007]作为一种可实施方式:所述估计语音包括若干估计语音帧;所述听觉滤波器设有若干个临界频带;基于所述幅度平方相干度、所述听觉滤波器和能量谱密度数据计算估计语音帧在各临界频带上的信噪比失真率;基于所述信噪比失真率计算各估计语音帧的语音清晰度,获得相应的帧清晰度;
基于各帧清晰度生成对应估计语音的语音清晰度。
[0008]作为一种可实施方式,所述信噪比失真率的计算公式为:其中,SDR表示M个估计语音帧分别在j个临界频带上的信噪比失真率,M表示估计语音帧的总帧数,W
j
表示听觉滤波器,表示幅度平方相干度,S
yy
(k)表示估计语音所对应的能量谱密度数据,K表示频点的总个数,即,512,k表示频点下标。
[0009]作为一种可实施方式:所述纯净语音包括若干纯净语音帧;基于声音分贝值对纯净语音帧进行分组,获得若干个纯净语音帧集,并构建与所述纯净语音帧集相对应的估计语音帧集;基于估计语音帧集中各估计语音帧的帧清晰度,计算所述估计语音帧集所对应的语音清晰度,获得相应的段清晰度;对各段清晰度进行加权计算,获得对应估计语音的语音清晰度。
[0010]不同信号段所对应的发音内容和性质各不相同,例如元音段的语音能量较大,幅值较高,辅音段及无声段的语音能量相对较少,振幅较低,但辅音段和无声段往往对降噪所得音频的质量影响更大。
[0011]故本申请提出一种声音分贝值对纯净语音帧进行分组,基于分组结果对估计语音帧进行分组,利用段清晰度指示对应各估计语音帧集所对应的语音清晰度,在根据各估计语音帧集所对应的贡献大小对段清晰度进行加权求和,从而使所得估计语音的语音清晰度更贴合实际人类感知,进一步提升训练所得的语音增强模型的增强效果。
[0012]进一步地:计算各纯净语音帧的短时平均幅度,获得相应的帧幅度数据;基于所述帧幅度数据,计算各纯净语音帧集所对应的整体短时平均幅度,获得段幅度数据;基于所述段幅度数据计算各纯净语音帧集所对应的清晰度权重,基于所述段清晰度和所述清晰度权重进行加权计算,获得相应估计语音的语音清晰度。
[0013]本领域技术人员可根据实际需要自行设定各段清晰度所对应的权重,但此方案由于权重为固定值,无法准确表征各估计语音帧集对估计语音的语音清晰度的贡献,故本申请使用平均幅度来映射元音,辅音和静音段做出的贡献大小,以计算各估计语音帧集对应的权重系数,从而使加权所得的语音清晰度能够充分反映语音降噪之后的噪声失真和语音失真程度。
[0014]作为一种可实施方式:基于声音分贝值对纯净语音帧进行分组,获得第一纯净语音帧集、第二纯净语音帧集和第三纯净语音帧集;所述第一纯净语音帧集包括声音分贝值大于0db的纯净语音帧,与元音段相对应;所述第二纯净语音帧集包括声音分贝值小于等于0db,且大于等于

10db的纯净语音帧,其对应元音段与辅音段和无声段之间的过渡;
所述第三纯净语音帧集中包括声音分贝值小于

10db的纯净语音帧,与辅音段和无声段相对应。
[0015]进一步地:语音增强网络采用全卷积神经网络,本申请采用端到端的网络框架,网络训练过程中收敛较快,运算复杂度较低,且训练所得的语音增强模型较小(6.6MB)。
[0016]本专利技术还提出一种语音增强模型的构建系统,包括训练装置,所述训练装置用于基于训练样本对迭代训练语音增强网络,获得语音增强模型,所述训练样本对包括相对应的纯净语音和带噪语音;所述训练装置包括:估计模块,用于将带噪语音输入至所述语音增强网络,由所述语音增强网络输出相应的估计语音;第一计算模块,用于计算相对应的纯净语音和估计语音之间的幅度平方相干度;第二计算模块,用于计算所述估计语音的能量谱密度数据;第三计算模块,用于获取预设的听觉滤波器;还用于基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度;更新单元,用于基于所述语音清晰度更新所述语音增强网络。
[0017]本专利技术还提出一种语音增强方法,包括以下步骤:获取待处理语音;将所述待处理语音输入语音增强模型,由所述语音增强模型输出相应的降噪语音,所述语音增强模型为上述任意一种构建方法构建获得语音增强模型。
[0018]本专利技术还提出一种语音增强系统,包括:获取模块,用于获取待处理语音;增强模块,用于将所述待处理语音输入语音增强模型,由所述语音增强模型输出相应的降噪语音,所述语音增强模型为上述任意一种构建方法构建获得语音增强模型。
[0019]本专利技术由于采用了以上技术方案,具有显著的技术效果:本专利技术结合幅度平方一致性、听觉滤波器和估计语音的能量谱密度,计算能够指示估计语音的失真程度的语音清晰度,并基于所得语音清晰度对模型参数进行更新,使训练所得的模型降噪结果具有较高的清晰度和可懂度,更能符合人类的听觉感知。
[0020]本专利技术基于声音分贝值对纯净语音帧进行分组,并基于分组结果对估计语音帧进行分组,获得若干个估计语音帧集;计算各估计语音帧集对应的段清晰度,并基于各估计语音帧集对语音清晰度的贡献对段清晰度进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强模型的构建方法,其特征在于,基于训练样本对迭代训练语音增强网络,获得语音增强模型,所述训练样本对包括相对应的纯净语音和带噪语音,迭代训练包括以下步骤:将带噪语音输入至所述语音增强网络,由所述语音增强网络输出相应的估计语音;计算相对应的纯净语音和估计语音之间的幅度平方相干度;计算所述估计语音的能量谱密度数据;获取预设的听觉滤波器,基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度;基于所述语音清晰度更新所述语音增强网络。2.根据权利要求1所述的语音增强模型的构建方法,其特征在于:所述估计语音包括若干估计语音帧;所述听觉滤波器设有若干个临界频带;基于所述幅度平方相干度、所述听觉滤波器和能量谱密度数据计算估计语音帧在各临界频带上的信噪比失真率;基于所述信噪比失真率计算各估计语音帧的语音清晰度,获得相应的帧清晰度;基于各帧清晰度生成对应估计语音的语音清晰度。3.根据权利要求2所述的语音增强模型的构建方法,其特征在于,所述信噪比失真率的计算公式为:其中,SDR表示M个估计语音帧分别在j个临界频带上的信噪比失真率,M表示估计语音帧的总帧数,W
j
表示听觉滤波器,表示幅度平方相干度,S
yy
(k)表示能量谱密度数据,K表示频点的总数,k表示频点下标。4.根据权利要求2或3所述的语音增强模型的构建方法,其特征在于:所述纯净语音包括若干纯净语音帧;基于声音分贝值对纯净语音帧进行分组,获得若干个纯净语音帧集,并构建与所述纯净语音帧集相对应的估计语音帧集;基于估计语音帧集中各估计语音帧的帧清晰度,计算所述估计语音帧集所对应的语音清晰度,获得相应的段清晰度;对各段清晰度进行加权计算,获得对应估计语音的语音清晰度。5.根据权利要求4所述的语音增强模型的构建方法,其特征在于:计算各纯净语音帧的短时平均幅度,获得相应的帧幅度数据;基于所述帧幅度数据,计算各纯净语音帧集所对应的整体短时平均幅度,获得段幅度...

【专利技术属性】
技术研发人员:高旭博
申请(专利权)人:杭州雄迈集成电路技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1