当前位置: 首页 > 专利查询>武汉大学专利>正文

用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法技术

技术编号:20122436 阅读:30 留言:0更新日期:2019-01-16 12:53
本发明专利技术提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段,训练阶建立语音数据集,对数据集中的语音资料进行预处理;输入预处理后的窄带语音资料,进行短时傅里叶变换得到窄带语音频谱,将频谱信息对数化获取对数幅度谱;输入预处理后的宽带语音资料,提取宽带语音信号频谱倾斜度的全极点模型参数,转化成线性频谱对参数;训练频谱倾斜度重建网络并使用,重建宽带语音频谱倾斜度的全极点模型参数。本发明专利技术根据窄带语音信号重建宽带语音信号频谱倾斜度参数,适用于所有基于频谱倾斜度特征的语音清晰度增强系统之中,且可适配多语种、多模态的语音信号。

A Method for Reconstruction of Broadband Speech Spectrum Inclination Characteristic Parameters for Speech Intelligence Enhancement

The invention provides a method for rebuilding characteristic parameters of broadband speech spectrum tilt for speech intelligibility enhancement, including training stage and using stage of spectrum tilt rebuilding network based on cyclic neural network, establishing speech data set in training stage, preprocessing speech data in data set, inputting narrowband speech data after preprocessing, and performing short-time Fourier transform. Narrow-band speech spectrum is obtained, and logarithmic spectrum information is logarized to obtain logarithmic amplitude spectrum; input preprocessed broadband speech data, extract all-pole model parameters of broadband speech spectrum tilt, and convert them into linear spectrum pair parameters; train spectrum tilt reconstruction network and use it to reconstruct all-pole model parameters of broadband speech spectrum tilt. According to the narrowband speech signal, the proposed method reconstructs the broadband speech signal spectrum tilt parameter, which is suitable for all speech intelligibility enhancement systems based on the spectrum tilt feature, and can be adapted to multi-lingual and multi-modal speech signals.

【技术实现步骤摘要】
用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
本专利技术提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,涉及语音信号处理和通信
,适用于所有基于频谱倾斜度特征的语音清晰度增强系统之中,且可适配多语种、多模态的语音信号。
技术介绍
21世纪以来,移动通信技术迅速发展,手机等移动通信设备快速普及。凭借手机带来的便利,人们得以随时随地使用移动通信设备进行实时语音通信;在这种便利之下,人们不可避免的在车站、餐馆、工厂等多样化嘈杂环境下通话,嘈杂环境中的噪声严重降低了语音通话质量。语音通信流程可以简要分为两个阶段(如图1所示):第一阶段为说话阶段,说话人向手机说话,手机麦克风采集语音信号,并将信号编码,最后作为上行信号发送至通信信道中;第二阶段为听音阶段,手机从信道中接收到由通信网络发出的下行信号,由手机解码重新生成语音信号,最后由手机播放解码后的语音信号,人耳接收到播放的语音信号,一条语音信息的通信过程完成了。接收下行信号、收听语音内容的过程,站在语音收听者的角度来看,称作近端;发生语音信号、发送上行信号的过程,仍然站在语音收听者的角度来看,称作远端。远端信号处理过程中,研究者们逐步研究出了语音增强技术用于抑制麦克风采集到的语音信号中的环境噪声。在语音增强过程中,一方面利用软件算法,根据语音信号时频特性、声学特性、语言学特性等一系列特征,滤除语音信号之外的能量,并对滤波后信号成分有所缺失的语音信号进行语音特征重建;另一方面利用硬件辅助,在手机上安装多个的专用麦克风用于环境声采集,将语音信号与噪声麦克风采集到的噪声信号进行谱减法或组成自适应滤波系统。凭借一系列的软硬件结合措施,语音增强技术已经能较为完整的滤除麦克风采集到的语音信号中的噪声成分,并保证语音失真非常小。近端信号处理过程中,为了抑制听音过程中的环境噪声,研究者们最先想到的是噪声抵消策略:使用麦克风采集环境噪声,然后发出与噪声相位相反,频率、振幅相同的声波与噪声干涉实现相位抵消,降低环境噪声能量。主动降噪耳机就是基于噪声抵消策略的典型产品,耳机通过物理隔绝方式预先过滤了一部分噪声,剩余噪声通过在耳机播放的信号中追加反相信号抵消掉。但在听筒接听模式缺少耳机物理隔绝的情况下,耳朵直接暴露在能量巨大的环境噪声之中,同时伴随着环境混响、听筒难以保证正对耳朵等一系列问题,抗噪效果大幅度下降。在手机听筒接听模式下噪声抵消策略失效的情况下,为了保障听音者接收的语音信号足够清晰,研究者们又提出了近端听音增强技术,基于感知声学、语言学和信号处理方法,通过改善语音信号感知可懂度的方式,增强语音信号鲁棒性,使语音信号的在相同噪声条件下更容易被听音者理解;由于其以改善语音信号可懂度为目标,因而又被称作语音清晰度增强或语音可懂度增强技术。语音清晰度增强技术的传统方法主要分为两类:基于规则的方法和基于度量的方法。基于规则的方法不考虑周围的环境噪声,仅根据固定的语音特性调整规则修正语音信号时频特性,该类方法在不同环境下的清晰度提升幅度差异较大,算法鲁棒性较差;基于度量的方法是通过特定的度量指标将语音信号与环境噪声事实对比,动态调整语音信号的增益,对语音清晰度的提升效果较为明显,但是该类方法很大程度上破坏了语音自然度和舒适度。基于数据驱动的语音清晰度增强方法是一种全新的语音清晰度增强方法,该方法利用说话人噪声对抗的发声机理和自然语音生成模型提高语音清晰度。在噪声场景下,说话人受到噪声的压迫,会自发地改变自己的发声方式来克服周围噪声的影响,这种改变可以显著提高收听者的感知清晰度,这种说话人噪声对抗发生机理被称作Lombard效应,这种具备抗噪特性的语音被称为Lombard语音。研究表明,Lombard语音的频谱倾斜度较对应语句的普通语音的频谱倾斜度在细节上差异巨大,Lombard语音频谱倾斜度整体也更为平坦,频谱倾斜度的特征有效反应了Lombard语音和普通语音的差异,可利用频谱倾斜度参数作为提升语音清晰度的关键参数。在数据驱动的语音清晰度增强系统中,利用不同场景下的Lombard语音和对应安静环境下的普通语音信号作为训练数据,能够拟合出基于Lombard的语音清晰度增强系统,可以通过普通语音信号的频谱倾斜度映射出Lombard语音的频谱倾斜度,进而得到具备抗噪特性的Lombard语音。该系统算法框图如图2所示,具体过程为:输入窄带普通语音,提取窄带语音频谱倾斜度,利用频谱倾斜度重建网络重建宽带语音频谱倾斜度特征参数A(z),将A(z)输入到频谱倾斜度映射模型映射出宽带抗噪语音(Lombard语音)频谱倾斜度特征参数A′(z),其中,z为复变函数z域中的复变量基本表示符号。利用滤波器将窄带普通语音频谱倾斜度替换成映射的宽带语音抗噪语音频谱倾斜度,然后,为了保证处理前后的语音信号的总能量不变,对滤波后的语音信号进行增益控制,最后,输出抗噪语音。基于数据驱动的算法可以利用高斯过程回归、高斯混合模型和深度神经网络等机器学习算法完成映射模型训练。该映射模型对输入的语音频谱度信息有很高的精度要求,但实际语音通信环境中的窄带信号由于声学特征缺失加多,用窄带信号直接计算频谱倾斜度参数较窄带语音信号存在较大误差,导致语音清晰度增强系统无法获取准确的频谱倾斜度信息使增强效果严重下降。本专利技术提出一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,重建的特征参数能够应用于所有基于频谱倾斜度参数的语音清晰度增强系统。
技术实现思路
本专利技术通过提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,解决了由于窄带语音信号声学特征缺失,其直接计算的频谱倾斜度参数较宽带语音信号存在较大误差,导致语音清晰度增强系统无法获取准确的频谱倾斜度信息使增强效果严重下降的问题。本专利技术技术方案提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段,所述的频谱倾斜度重建网络的训练阶段包括以下步骤,步骤S11,通过对高采样率的宽带语音资料降采样获取低采样率的窄带语音资料,建立语音数据集,按比例分成训练集和测试集、验证集语音资料,对数据集中的语音资料进行预处理,所述预处理包括分帧和加窗;步骤S12,输入预处理后的窄带语音资料训练集,进行短时傅里叶变换得到窄带语音频谱,将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入;步骤S13,输入预处理后的宽带语音资料训练集,提取宽带语音信号频谱倾斜度的全极点模型参数,转化成线性频谱对参数,作为频谱倾斜度重建网络的输出;步骤S14,训练频谱倾斜度重建网络,定义感知均方根偏差PRMSD作为评估方法测试频谱倾斜度网络性能,每次评估使用验证集作为评价标准,调试出最优重建网络参数模型,并在测试集中验证最终效果;所述的频谱倾斜度重建网络使用阶段将已训练好的神经网络投入到实际通信的实时信语音号逐帧处理中,步骤S21,实时逐帧输入窄带语音,提取窄带语音的对数幅度谱参数;步骤S22,逐帧输入宽带语音对数幅度谱参数,结合频谱倾斜度重建网络和参数转换重建宽带语音频谱倾斜度的全极点模型参数。而且,宽带和窄带语音资料均包括普通语音和抗噪语音。而且,步骤S12中,短时傅里叶变换的点数为N,频谱本文档来自技高网
...

【技术保护点】
1.一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段,所述的频谱倾斜度重建网络训练阶段包括以下步骤,步骤S11,通过对高采样率的宽带语音资料降采样获取低采样率的窄带语音资料,建立语音数据集,按比例分成训练集和测试集、验证集语音资料,对数据集中的语音资料进行预处理,所述预处理包括分帧和加窗;步骤S12,输入预处理后的窄带语音资料训练集,进行短时傅里叶变换得到窄带语音频谱,将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入;步骤S13,输入预处理后的宽带语音资料训练集,提取宽带语音信号频谱倾斜度的全极点模型参数,转化成线性频谱对参数,作为频谱倾斜度重建网络的输出;步骤S14,训练频谱倾斜度重建网络,定义感知均方根偏差PRMSD作为评估方法测试频谱倾斜度网络性能,每次评估使用验证集作为评价标准,调试出最优重建网络参数模型,并在测试集中验证最终效果;所述的频谱倾斜度重建网络使用阶段将已训练好的神经网络投入到实际通信的实时语音逐帧处理中,包括以下步骤,步骤S21,实时逐帧输入窄带语音,提取窄带语音的对数幅度谱参数;步骤S22,逐帧输入宽带语音对数幅度谱参数,结合频谱倾斜度重建网络和参数转换重建宽带语音频谱倾斜度的全极点模型参数。...

【技术特征摘要】
1.一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段,所述的频谱倾斜度重建网络训练阶段包括以下步骤,步骤S11,通过对高采样率的宽带语音资料降采样获取低采样率的窄带语音资料,建立语音数据集,按比例分成训练集和测试集、验证集语音资料,对数据集中的语音资料进行预处理,所述预处理包括分帧和加窗;步骤S12,输入预处理后的窄带语音资料训练集,进行短时傅里叶变换得到窄带语音频谱,将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入;步骤S13,输入预处理后的宽带语音资料训练集,提取宽带语音信号频谱倾斜度的全极点模型参数,转化成线性频谱对参数,作为频谱倾斜度重建网络的输出;步骤S14,训练频谱倾斜度重建网络,定义感知均方根偏差PRMSD作为评估方法测试频谱倾斜度网络性能,每次评估使用验证集作为评价标准,调试出最优重建网络参数模型,并在测试集中验证最终效果;所述的频谱倾斜度重建网络使用阶段将已训练好的神经网络投入到实际通信的实时语音逐帧处理中,包括以下步骤,步骤S21,实时逐帧输入窄带语音,提取窄带语音的对数幅度谱参数;步骤S22,逐帧输入宽带语音对数幅度谱参数,结合频谱倾斜度重建网络和参数转换重建宽带语音频谱倾斜度的全极点模型参数。2.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,特征在于:宽带和窄带语音资料均包括普通语音和抗噪语音。3.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:步骤S12中,短时傅里叶变换的点数为N,频谱倾斜度重建网络的训练输入的计算公式为:Si(n)表示第i帧窄带语音信号,n为语音信号帧长,xi(k)表示第i帧语音信号的对数幅度谱的值,k为复变函数频域中的复变量基本表示符号,Win表示一种时域上的窗函数;每帧语音信号的对数幅度谱的点数为xi=[xi(1),xi(2)…,xi(C)]为第i帧语音信号的对数幅度谱,对语音数据集中分帧后的窄带语音资料的每一帧信号按照上述第一个公式计算得到该帧信号的对数幅度谱,将其逐行存储到矩阵X中,X表示频谱倾斜度重建网络的输入矩阵,M为X的行数。4.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:步骤S13中,根据第i帧宽带语音信号si(n)计算,得到ai=[ai(1),ai(2)…,ai(P)],为第i帧宽带语音信号频...

【专利技术属性】
技术研发人员:胡瑞敏李罡张锐王晓晨
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1