语音信号降噪处理方法、传声器和电子设备技术

技术编号：24358025 阅读：66 留言：0更新日期：2020-06-03 02:59

本申请提供一种语音信号降噪处理方法，属于语音处理技术领域，用于解决现有技术中的语音降噪处理方法难以在低功耗、低资源的硬件平台上运行的问题。该方法首先对待处理的带噪语音信号进行短时傅里叶变换，得到带噪频域信号；将带噪频域信号划分为多个子带，基于多个子带、带噪频域信号和带噪语音信号，提取多个信号特征，构成特征向量；将特征向量输入预先训练得到的神经网络模型，通过神经网络模型输出目标函数，根据目标函数和带噪频域信号，计算纯净语音频域信号；对纯净语音频域信号进行短时傅里叶逆变换，得到纯净语音信号。本申请通过减少网络特征输入维度降低运算量，可以在低功耗、低资源硬件平台上实时运行。

Noise reduction method of speech signal, microphone and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
语音信号降噪处理方法、传声器和电子设备
本申请涉及语音处理
，尤其涉及一种语音信号降噪处理方法、传声器和电子设备。
技术介绍
传声器，即麦克风(microphone)，用于将声音信号转换为电信号的能量转换器件，是语音交互系统的必备硬件之一。传声器在拾取语音信号过程中，不可避免的会受到各种环境噪声的影响，比如警笛声、风噪声、周围人说话声等环境噪声，噪声会降低语音信号质量，同时降低设备唤醒率，降低命令词以及语音识别识别率等，从而严重影响此类语音交互系统性能，因此，对于传声器拾取的语音信号进行降噪，尤为必要。受硬件成本以及设备便携性等因素影响，语音交互系统中多采用单个传声器来拾取语音信号。单通道语音降噪算法针对单个传声器设计，具有场景适应性强的特点，被广泛用于各种低成本、便携式、小型化语音交互系统中。单通道语音降噪算法中，噪声功率谱的估计通常采用语音端点检测或者给予最小统计特性方法进行估计，这种估计方式仅对平稳态噪声有较好的估计效果，对于非平稳态噪声估计不准，而在实际应用中，一般需要面临较多非平稳态噪声场景，传统的单...

【技术保护点】
1.一种语音信号降噪处理方法，其特征在于，包括：/n对待处理的带噪语音信号进行短时傅里叶变换，得到带噪频域信号；/n将所述带噪频域信号划分为多个子带，基于所述多个子带、所述带噪频域信号和所述带噪语音信号，提取多个信号特征，构成特征向量，所述特征向量的维度小于或等于M，M为正整数，10≤M≤325；/n将所述特征向量输入预先训练得到的神经网络模型，通过所述神经网络模型输出目标函数，所述目标函数用于表征所述带噪频域信号与纯净语音频域信号的相对函数关系；/n根据所述目标函数和所述带噪频域信号，计算纯净语音频域信号；/n对所述纯净语音频域信号进行短时傅里叶逆变换，得到纯净语音信号。/n

【技术特征摘要】
1.一种语音信号降噪处理方法，其特征在于，包括：
对待处理的带噪语音信号进行短时傅里叶变换，得到带噪频域信号；
将所述带噪频域信号划分为多个子带，基于所述多个子带、所述带噪频域信号和所述带噪语音信号，提取多个信号特征，构成特征向量，所述特征向量的维度小于或等于M，M为正整数，10≤M≤325；
将所述特征向量输入预先训练得到的神经网络模型，通过所述神经网络模型输出目标函数，所述目标函数用于表征所述带噪频域信号与纯净语音频域信号的相对函数关系；
根据所述目标函数和所述带噪频域信号，计算纯净语音频域信号；
对所述纯净语音频域信号进行短时傅里叶逆变换，得到纯净语音信号。

2.如权利要求1所述的方法，其特征在于，基于所述多个子带、所述带噪频域信号和所述带噪语音信号，提取多个信号特征，构成特征向量，具体包括：
针对所述带噪频域信号中的每一帧，执行以下操作：
基于所述带噪频域信号，计算当前一帧对应的多个子带对数谱能量、多个梅尔频率倒谱系数和不同频点间幅度谱的方差；
根据所述带噪语音信号确定当前一帧对应的基波周期，结合所述基波周期，计算基波周期特征；
将所述多个子带对数谱能量、所述多个梅尔频率倒谱系数、所述不同频点间幅度谱的方差以及所述比值，作为提取出的信号特征，构成所述当前一帧对应的特征向量。

3.如权利要求2所述的方法，其特征在于：
将所述带噪语音信号划分为多个子带，具体包括：将所述带噪语音信号划分为Q个子带，1＜Q≤257；
计算当前一帧对应的多个梅尔频率倒谱系数，具体包括：计算当前一帧对应的T个梅尔频率倒谱系数和T个一阶梅尔频率倒谱系数、T个二阶梅尔频率倒谱系数，6≤T≤22。

4.如权利要求1所述的方法，其特征在于，将所述特征向量输入预先训练得到的神经网络模型之前，进一步包括：
构建神经网络模型的网络结构；
获取多个样本纯净语音信号和多个样本环境噪声信号，将所述样本纯净语音信号和所述样本环境噪声信号进行混合，得到样本带噪语音信号；
对待处理的样本带噪语音信号进行短时傅里叶变换，得到样本带噪频域信号，将所述样本带噪频域信号划分为多个子带，基于所述多个子带、所述样本带噪频域信号和所述样本带噪语音信号，提取多个信号特征，构成样本特征向量，所述样本特征向量的维度小于或等于M，M为正整数，10≤M≤325；
将所述样本特征向量作为所述神经网络模型的输入，将所述目标函数作为所述神经网络模型的输出，对所述神经网络模型进行训练，得到优化后的网络参数，所述网络参数包括权重和偏差；
采用所述优化后的网络参数对所述神经网络模型进行初始化，得到训练后的神经网络模型。
...

【专利技术属性】
技术研发人员：王之禹，邱锋海，
申请(专利权)人：北京声加科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人