语音信号降噪处理方法、传声器和电子设备技术

技术编号:24358025 阅读:58 留言:0更新日期:2020-06-03 02:59
本申请提供一种语音信号降噪处理方法,属于语音处理技术领域,用于解决现有技术中的语音降噪处理方法难以在低功耗、低资源的硬件平台上运行的问题。该方法首先对待处理的带噪语音信号进行短时傅里叶变换,得到带噪频域信号;将带噪频域信号划分为多个子带,基于多个子带、带噪频域信号和带噪语音信号,提取多个信号特征,构成特征向量;将特征向量输入预先训练得到的神经网络模型,通过神经网络模型输出目标函数,根据目标函数和带噪频域信号,计算纯净语音频域信号;对纯净语音频域信号进行短时傅里叶逆变换,得到纯净语音信号。本申请通过减少网络特征输入维度降低运算量,可以在低功耗、低资源硬件平台上实时运行。

Noise reduction method of speech signal, microphone and electronic equipment

【技术实现步骤摘要】
语音信号降噪处理方法、传声器和电子设备
本申请涉及语音处理
,尤其涉及一种语音信号降噪处理方法、传声器和电子设备。
技术介绍
传声器,即麦克风(microphone),用于将声音信号转换为电信号的能量转换器件,是语音交互系统的必备硬件之一。传声器在拾取语音信号过程中,不可避免的会受到各种环境噪声的影响,比如警笛声、风噪声、周围人说话声等环境噪声,噪声会降低语音信号质量,同时降低设备唤醒率,降低命令词以及语音识别识别率等,从而严重影响此类语音交互系统性能,因此,对于传声器拾取的语音信号进行降噪,尤为必要。受硬件成本以及设备便携性等因素影响,语音交互系统中多采用单个传声器来拾取语音信号。单通道语音降噪算法针对单个传声器设计,具有场景适应性强的特点,被广泛用于各种低成本、便携式、小型化语音交互系统中。单通道语音降噪算法中,噪声功率谱的估计通常采用语音端点检测或者给予最小统计特性方法进行估计,这种估计方式仅对平稳态噪声有较好的估计效果,对于非平稳态噪声估计不准,而在实际应用中,一般需要面临较多非平稳态噪声场景,传统的单通道语音降噪算法在这些非平稳态噪声场景中无法有效起到降噪作用,导致算法失效。近年来,针对单通道非平稳态噪声降噪问题,出现了基于神经网络的解决方案,这类方案中,有的需要提取上千维度的特征作为神经网络的输入,高纬度的特征输入无疑增加了神经网络运算的复杂度和运算量,导致算法延时大,对实施运算的硬件设备要求较高,难以在低功耗、低资源的硬件平台上实时运行。
技术实现思路
本申请实施例提供了一种语音信号降噪处理方法、传声器和电子设备,用以解决现有技术中的语音信号降噪算法难以在低功耗、低资源硬件平台上实时运行的技术问题。第一方面,本申请提供一种语音信号降噪处理方法,包括:对待处理的带噪语音信号进行短时傅里叶变换,得到带噪频域信号;将所述带噪频域信号划分为多个子带,基于所述多个子带、所述带噪频域信号和所述带噪语音信号,提取多个信号特征,构成特征向量,所述特征向量的维度小于或等于M,M为正整数,10≤M≤325;将所述特征向量输入预先训练得到的神经网络模型,通过所述神经网络模型输出目标函数,所述目标函数用于表征所述带噪频域信号与纯净语音频域信号的相对函数关系;根据所述目标函数和所述带噪频域信号,计算纯净语音频域信号;对所述纯净语音频域信号进行短时傅里叶逆变换,得到纯净语音信号。可选的,基于所述多个子带、所述带噪频域信号和所述带噪语音信号,提取多个信号特征,构成特征向量,具体包括:针对所述带噪频域信号中的每一帧,执行以下操作:基于所述带噪频域信号,计算当前一帧对应的多个子带对数谱能量、多个梅尔频率倒谱系数和不同频点间幅度谱的方差;基于根据所述带噪语音信号确定当前一帧对应的基波周期,结合所述基波周期,计算基波周期特征;将所述多个子带对数谱能量、所述多个梅尔频率倒谱系数、所述不同频点间幅度谱的方差以及所述比值,作为提取出的信号特征,构成所述当前一帧对应的特征向量。可选的,将所述带噪语音信号划分为多个子带,具体包括:将所述带噪语音信号划分为Q个子带,1<Q≤257;计算当前一帧对应的多个梅尔频率倒谱系数,具体包括:计算当前一帧对应的T个梅尔频率倒谱系数和T个一阶梅尔频率倒谱系数、T个二阶梅尔频率倒谱系数,6≤T≤22。可选的,将所述特征向量输入预先训练得到的神经网络模型之前,进一步包括:构建神经网络模型的网络结构;获取多个样本纯净语音信号和多个样本环境噪声信号,将所述样本纯净语音信号和所述样本环境噪声信号进行混合,得到样本带噪语音信号;对待处理的样本带噪语音信号进行短时傅里叶变换,得到样本带噪频域信号,将所述样本带噪频域信号划分为多个子带,基于所述多个子带、所述样本带噪频域信号和所述样本带噪语音信号,提取多个信号特征,构成样本特征向量,所述样本特征向量的维度小于或等于M,M为正整数,10≤M≤325;将所述样本特征向量作为所述神经网络模型的输入,将所述目标函数作为所述神经网络模型的输出,对所述神经网络模型进行训练,得到优化后的网络参数,所述网络参数包括权重和偏差;采用所述优化后的网络参数对所述神经网络模型进行初始化,得到训练后的神经网络模型。可选的,构建神经网络模型的网络结构,具体包括:采用五层网络结构,输入层采用全连接层,所述输入层对应的激活函数为tanh函数;输出层采用全连接层,所述输出层对应的激活函数为sigmoid函数;中间隐藏层采用循环神经网络GRU模型,所述中间隐藏层对应的激活函数采用relu函数以及sigmoid函数,不同的中间隐藏层之间的连接方式包括邻层连接和跨层连接。第二方面,本申请还提供一种传声器,包括存储器和处理器,其中:所述存储器存储有可执行指令;所述处理器,用于读取并执行存储器中存储的可执行指令,以实现如下操作:对待处理的带噪语音信号进行短时傅里叶变换,得到带噪频域信号;将所述带噪频域信号划分为多个子带,基于所述多个子带、所述带噪频域信号和所述带噪语音信号,提取多个信号特征,构成特征向量,所述特征向量的维度小于或等于M,M为正整数,10≤M≤325;将所述特征向量输入预先训练得到的神经网络模型,通过所述神经网络模型输出目标函数,所述目标函数用于表征所述带噪频域信号与纯净语音频域信号的相对函数关系;根据所述目标函数和所述带噪频域信号,计算纯净语音频域信号;对所述纯净语音频域信号进行短时傅里叶逆变换,得到纯净语音信号。可选的,基于所述多个子带、所述带噪频域信号和所述带噪语音信号,提取多个信号特征,构成特征向量时,所述处理器,具体用于实现如下操作:针对所述带噪频域信号中的每一帧,执行以下操作:基于所述带噪频域信号,计算当前一帧对应的多个子带对数谱能量、多个梅尔频率倒谱系数和不同频点间幅度谱的方差;根据所述带噪语音信号确定当前一帧对应的基波周期,结合所述基波周期,计算基波周期特征;将所述多个子带对数谱能量、所述多个梅尔频率倒谱系数、所述不同频点间幅度谱的方差以及所述比值,作为提取出的信号特征,构成所述当前一帧对应的特征向量。可选的,将所述带噪语音信号划分为多个子带,具体包括:将所述带噪语音信号划分为Q个子带,1<Q≤257;计算当前一帧对应的多个梅尔频率倒谱系数,具体包括:计算当前一帧对应的T个梅尔频率倒谱系数和T个一阶梅尔频率倒谱系数、T个二阶梅尔频率倒谱系数,6≤T≤22。第三方面,本申请提供一种电子设备,所述电子设备与传声器信号连接,所述电子设备包括存储器和处理器,其中:所述存储器存储有可执行指令;所述处理器,用于读取并执行存储器中存储的可执行指令,以实现如权利要求1-5任一项所述的方法。在本申请实施例中,首先对待处理的带噪语音信号(一般为时域信号)进行短时傅里叶变换,将变换后的带本文档来自技高网...

【技术保护点】
1.一种语音信号降噪处理方法,其特征在于,包括:/n对待处理的带噪语音信号进行短时傅里叶变换,得到带噪频域信号;/n将所述带噪频域信号划分为多个子带,基于所述多个子带、所述带噪频域信号和所述带噪语音信号,提取多个信号特征,构成特征向量,所述特征向量的维度小于或等于M,M为正整数,10≤M≤325;/n将所述特征向量输入预先训练得到的神经网络模型,通过所述神经网络模型输出目标函数,所述目标函数用于表征所述带噪频域信号与纯净语音频域信号的相对函数关系;/n根据所述目标函数和所述带噪频域信号,计算纯净语音频域信号;/n对所述纯净语音频域信号进行短时傅里叶逆变换,得到纯净语音信号。/n

【技术特征摘要】
1.一种语音信号降噪处理方法,其特征在于,包括:
对待处理的带噪语音信号进行短时傅里叶变换,得到带噪频域信号;
将所述带噪频域信号划分为多个子带,基于所述多个子带、所述带噪频域信号和所述带噪语音信号,提取多个信号特征,构成特征向量,所述特征向量的维度小于或等于M,M为正整数,10≤M≤325;
将所述特征向量输入预先训练得到的神经网络模型,通过所述神经网络模型输出目标函数,所述目标函数用于表征所述带噪频域信号与纯净语音频域信号的相对函数关系;
根据所述目标函数和所述带噪频域信号,计算纯净语音频域信号;
对所述纯净语音频域信号进行短时傅里叶逆变换,得到纯净语音信号。


2.如权利要求1所述的方法,其特征在于,基于所述多个子带、所述带噪频域信号和所述带噪语音信号,提取多个信号特征,构成特征向量,具体包括:
针对所述带噪频域信号中的每一帧,执行以下操作:
基于所述带噪频域信号,计算当前一帧对应的多个子带对数谱能量、多个梅尔频率倒谱系数和不同频点间幅度谱的方差;
根据所述带噪语音信号确定当前一帧对应的基波周期,结合所述基波周期,计算基波周期特征;
将所述多个子带对数谱能量、所述多个梅尔频率倒谱系数、所述不同频点间幅度谱的方差以及所述比值,作为提取出的信号特征,构成所述当前一帧对应的特征向量。


3.如权利要求2所述的方法,其特征在于:
将所述带噪语音信号划分为多个子带,具体包括:将所述带噪语音信号划分为Q个子带,1<Q≤257;
计算当前一帧对应的多个梅尔频率倒谱系数,具体包括:计算当前一帧对应的T个梅尔频率倒谱系数和T个一阶梅尔频率倒谱系数、T个二阶梅尔频率倒谱系数,6≤T≤22。


4.如权利要求1所述的方法,其特征在于,将所述特征向量输入预先训练得到的神经网络模型之前,进一步包括:
构建神经网络模型的网络结构;
获取多个样本纯净语音信号和多个样本环境噪声信号,将所述样本纯净语音信号和所述样本环境噪声信号进行混合,得到样本带噪语音信号;
对待处理的样本带噪语音信号进行短时傅里叶变换,得到样本带噪频域信号,将所述样本带噪频域信号划分为多个子带,基于所述多个子带、所述样本带噪频域信号和所述样本带噪语音信号,提取多个信号特征,构成样本特征向量,所述样本特征向量的维度小于或等于M,M为正整数,10≤M≤325;
将所述样本特征向量作为所述神经网络模型的输入,将所述目标函数作为所述神经网络模型的输出,对所述神经网络模型进行训练,得到优化后的网络参数,所述网络参数包括权重和偏差;
采用所述优化后的网络参数对所述神经网络模型进行初始化,得到训练后的神经网络模型。
...

【专利技术属性】
技术研发人员:王之禹邱锋海
申请(专利权)人:北京声加科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1