用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法技术

技术编号：20122436 阅读：30 留言：0更新日期：2019-01-16 12:53

本发明专利技术提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法，包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段，训练阶建立语音数据集，对数据集中的语音资料进行预处理；输入预处理后的窄带语音资料，进行短时傅里叶变换得到窄带语音频谱，将频谱信息对数化获取对数幅度谱；输入预处理后的宽带语音资料，提取宽带语音信号频谱倾斜度的全极点模型参数，转化成线性频谱对参数；训练频谱倾斜度重建网络并使用，重建宽带语音频谱倾斜度的全极点模型参数。本发明专利技术根据窄带语音信号重建宽带语音信号频谱倾斜度参数，适用于所有基于频谱倾斜度特征的语音清晰度增强系统之中，且可适配多语种、多模态的语音信号。

A Method for Reconstruction of Broadband Speech Spectrum Inclination Characteristic Parameters for Speech Intelligence Enhancement

The invention provides a method for rebuilding characteristic parameters of broadband speech spectrum tilt for speech intelligibility enhancement, including training stage and using stage of spectrum tilt rebuilding network based on cyclic neural network, establishing speech data set in training stage, preprocessing speech data in data set, inputting narrowband speech data after preprocessing, and performing short-time Fourier transform. Narrow-band speech spectrum is obtained, and logarithmic spectrum information is logarized to obtain logarithmic amplitude spectrum; input preprocessed broadband speech data, extract all-pole model parameters of broadband speech spectrum tilt, and convert them into linear spectrum pair parameters; train spectrum tilt reconstruction network and use it to reconstruct all-pole model parameters of broadband speech spectrum tilt. According to the narrowband speech signal, the proposed method reconstructs the broadband speech signal spectrum tilt parameter, which is suitable for all speech intelligibility enhancement systems based on the spectrum tilt feature, and can be adapted to multi-lingual and multi-modal speech signals.

全部详细技术资料下载

【技术实现步骤摘要】
用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
本专利技术提供一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法，涉及语音信号处理和通信
，适用于所有基于频谱倾斜度特征的语音清晰度增强系统之中，且可适配多语种、多模态的语音信号。
技术介绍
21世纪以来，移动通信技术迅速发展，手机等移动通信设备快速普及。凭借手机带来的便利，人们得以随时随地使用移动通信设备进行实时语音通信；在这种便利之下，人们不可避免的在车站、餐馆、工厂等多样化嘈杂环境下通话，嘈杂环境中的噪声严重降低了语音通话质量。语音通信流程可以简要分为两个阶段(如图1所示)：第一阶段为说话阶段，说话人向手机说话，手机麦克风采集语音信号，并将信号编码，最后作为上行信号发送至通信信道中；第二阶段为听音阶段，手机从信道中接收到由通信网络发出的下行信号，由手机解码重新生成语音信号，最后由手机播放解码后的语音信号，人耳接收到播放的语音信号，一条语音信息的通信过程完成了。接收下行信号、收听语音内容的过程，站在语音收听者的角度来看，称作近端；发生语音信号、发送上行信号的过程，仍然站在语音收听者的角度来看，称作远端。远端信号处理过程中，研究者们逐步研究出了语音增强技术用于抑制麦克风采集到的语音信号中的环境噪声。在语音增强过程中，一方面利用软件算法，根据语音信号时频特性、声学特性、语言学特性等一系列特征，滤除语音信号之外的能量，并对滤波后信号成分有所缺失的语音信号进行语音特征重建；另一方面利用硬件辅助，在手机上安装多个的专用麦克风用于环境声采集，将语音信号与噪声麦克风采集到的噪声信号进行谱减法或组成...

【技术保护点】
1.一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法，其特征在于：包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段，所述的频谱倾斜度重建网络训练阶段包括以下步骤，步骤S11，通过对高采样率的宽带语音资料降采样获取低采样率的窄带语音资料，建立语音数据集，按比例分成训练集和测试集、验证集语音资料，对数据集中的语音资料进行预处理，所述预处理包括分帧和加窗；步骤S12，输入预处理后的窄带语音资料训练集，进行短时傅里叶变换得到窄带语音频谱，将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入；步骤S13，输入预处理后的宽带语音资料训练集，提取宽带语音信号频谱倾斜度的全极点模型参数，转化成线性频谱对参数，作为频谱倾斜度重建网络的输出；步骤S14，训练频谱倾斜度重建网络，定义感知均方根偏差PRMSD作为评估方法测试频谱倾斜度网络性能，每次评估使用验证集作为评价标准，调试出最优重建网络参数模型，并在测试集中验证最终效果；所述的频谱倾斜度重建网络使用阶段将已训练好的神经网络投入到实际通信的实时语音逐帧处理中，包括以下步骤，步骤S21，实时逐帧输入窄带语音，提取窄带语音的对数幅...

【技术特征摘要】
1.一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法，其特征在于：包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段，所述的频谱倾斜度重建网络训练阶段包括以下步骤，步骤S11，通过对高采样率的宽带语音资料降采样获取低采样率的窄带语音资料，建立语音数据集，按比例分成训练集和测试集、验证集语音资料，对数据集中的语音资料进行预处理，所述预处理包括分帧和加窗；步骤S12，输入预处理后的窄带语音资料训练集，进行短时傅里叶变换得到窄带语音频谱，将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入；步骤S13，输入预处理后的宽带语音资料训练集，提取宽带语音信号频谱倾斜度的全极点模型参数，转化成线性频谱对参数，作为频谱倾斜度重建网络的输出；步骤S14，训练频谱倾斜度重建网络，定义感知均方根偏差PRMSD作为评估方法测试频谱倾斜度网络性能，每次评估使用验证集作为评价标准，调试出最优重建网络参数模型，并在测试集中验证最终效果；所述的频谱倾斜度重建网络使用阶段将已训练好的神经网络投入到实际通信的实时语音逐帧处理中，包括以下步骤，步骤S21，实时逐帧输入窄带语音，提取窄带语音的对数幅度谱参数；步骤S22，逐帧输入宽带语音对数幅度谱参数，结合频谱倾斜度重建网络和参数转换重建宽带语音频谱倾斜度的全极点模型参数。2.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法，特征在于：宽带和窄带语音资料均包括普通语音和抗噪语音。3.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法，其特征在于：步骤S12中，短时傅里叶变换的点数为N，频谱倾斜度重建网络的训练输入的计算公式为：Si(n)表示第i帧窄带语音信号，n为语音信号帧长，xi(k)表示第i帧语音信号的对数幅度谱的值，k为复变函数频域中的复变量基本表示符号，Win表示一种时域上的窗函数；每帧语音信号的对数幅度谱的点数为xi＝[xi(1),xi(2)…,xi(C)]为第i帧语音信号的对数幅度谱，对语音数据集中分帧后的窄带语音资料的每一帧信号按照上述第一个公式计算得到该帧信号的对数幅度谱，将其逐行存储到矩阵X中，X表示频谱倾斜度重建网络的输入矩阵，M为X的行数。4.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法，其特征在于：步骤S13中，根据第i帧宽带语音信号si(n)计算，得到ai＝[ai(1),ai(2)…,ai(P)]，为第i帧宽带语音信号频...

【专利技术属性】
技术研发人员：胡瑞敏，李罡，张锐，王晓晨，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人