一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质技术方案

技术编号:21303930 阅读:32 留言:0更新日期:2019-06-12 09:08
本发明专利技术提供了一种用于数字助听器的环境自适应神经网络降噪方法,包括依次执行如下步骤:预处理步骤:接收带噪语音信号,带噪语音信号经过采样分帧后传输至声学场景识别模块;场景识别步骤:采用声学场景识别模块对所处的声学场景进行识别,然后由声学场景识别模块自主的选择神经网络降噪模块中不同的神经网络模型进行发送;神经网络降噪步骤。本发明专利技术的有益效果是:1.可以保证语音处理的实时性,只进行神经网络的前向传播,运算量不高;2.可以对所处的声学场景进行识别,然后自主地选择不同的神经网络模型,对不同的场景下的噪声进行针对性地降噪处理,能保证更好的语音质量和语音可懂度;3.可以有效地抑制瞬时噪声。

A Noise Reduction Method, System and Storage Medium of Environmental Adaptive Neural Network for Digital Hearing Aid

The invention provides an environment adaptive neural network denoising method for digital hearing aids, which includes the following steps in turn: pre-processing steps: receiving noisy speech signals, transmitting noisy speech signals after sampling and framing to the acoustic scene recognition module; scene recognition steps: using the acoustic scene recognition module to recognize the acoustic scene, and then by the acoustic scene recognition module. Scene recognition module independently chooses different neural network models in the neural network denoising module to send; Neural network denoising steps. The advantages of the present invention are as follows: 1. It can guarantee the real-time performance of speech processing, only forward propagation of the neural network, and the computational complexity is not high; 2. It can recognize the acoustic scene in which it is located, and then independently select different neural network models to process the noise in different scenarios, so as to ensure better speech quality and speech intelligibility; 3. It can identify the acoustic scene in which it is located, and reduce the noise in different scenarios. The instantaneous noise can be effectively suppressed.

【技术实现步骤摘要】
一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
本专利技术涉及软件
,尤其涉及一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质。
技术介绍
目前,市面上的高性能数字助听器都会内置降噪算法,用来消除环境中的背景噪声干扰,以达到满足人耳听觉舒适度的要求。由于数字助听器对语音实时处理的要求,内置在助听器内部的降噪算法多采用谱减法、维纳滤波等运算量较低的算法,这些算法只能应对简单稳定的噪声干扰环境,在低信噪比、瞬时噪声等复杂的噪声环境中性能表现很差,听力损失患者的佩戴使用体验不佳。
技术实现思路
本专利技术公开了一种用于数字助听器的环境自适应神经网络降噪方法,利用深层神经网络强大的映射能力,并结合环境自适应的策略,实现一种应对复杂噪声环境的高性能降噪算法。本专利技术提供了一种用于数字助听器的环境自适应神经网络降噪方法,包括依次执行如下步骤:预处理步骤:接收带噪语音信号,带噪语音信号经过采样分帧后传输至声学场景识别模块;场景识别步骤:采用声学场景识别模块对所处的声学场景进行识别,然后由声学场景识别模块自主的选择神经网络降噪模块中不同的神经网络模型进行发送;神经网络降噪步骤:神经网络降噪模型接收声学场景识别模块发送的分类结果并对不同场景下的噪声进行针对性地降噪处理。作为本专利技术的进一步改进,在所述场景识别步骤中,所述声学场景识别模块采用了对时间序列具有记忆作用的LSTM神经网络结构,具体步骤如下:S1:对每一帧提取设定维数的梅尔倒谱系数特征;S2:由LSTM神经网络读入一帧梅尔倒谱系数特征进行处理,达到一定帧时将输出分类的结果。作为本专利技术的进一步改进,所述LSTM神经网络结构包括输入层、隐藏层和输出层,输出层的神经单元对应不同的场景类别,LSTM神经网络不仅会处理当前的输入,还会与之前保留的输出进行组合,实现记忆的作用,当累计设定帧数的记忆后,输出分类结果。作为本专利技术的进一步改进,所述LSTM神经网络结构记忆更新原理如下:LSTM神经网络结构将当前帧输入的特征tn与之前保留的输出结果hn-1进行组合,同时也将上一帧的状态Cn-1一起输入进去进行判断,产生一个当前帧的输出hn和一个当前帧的输出状态Cn,一直迭代下去,直到满足所需帧的记忆条件后,对最终的输出h进行softmax变换得到输出层的预测概率。作为本专利技术的进一步改进,在所述场景识别步骤中,还包括LSTM神经网络训练时的损失损失函数计算,计算公式如下:其中yi和分别为正确的分类标签和LSTM网络输出层预测的分类结果。作为本专利技术的进一步改进,不同场景下的降噪模型均采用全连接神经网络结构,但所述全连接神经网络结构的层数和每层的神经元个数是不同的;所述全连接神经网络结构的降噪模型包括执行如下步骤:训练数据集步骤:挑选作为训练集的纯净语音数据,然后将噪声数据与纯净语音进行随机混合,获得所需带噪训练数据;模型参数调优步骤:采用最小均方误差作为代价函数,再根据训练集loss值和验证集loss值对模型进行参数调优,得到所需的神经网络结构;训练时,反复进行反向传播算法迭代,能实现较好的噪声抑制效果;所述验证集是挑选作为验证集纯净语音数据,并与噪声数据进行混合,得到验证集带噪语音数据;所述最小均方误差计算公式如下:其中MSE为均方误差。作为本专利技术的进一步改进,除了输出层采用线性层以外,所有的隐藏层单元均采用ReLU激活函数;另外,为了提高网络的泛化能力,每层隐藏层采用0.8丢弃率的正则化方法,且L2正则化项系数设为0.00001;训练时,利用Adam优化算法进行反向传播,以0.0001的学习率迭代200次,便可以实现较好的噪声抑制效果。作为本专利技术的进一步改进,在所述预处理步骤中,麦克风接收到的语音信号,经过采样后,将其分成帧长为256点的时域信号,采样率为16000Hz,每一帧为16ms;在所述步骤S1中,对每一帧提取39维的梅尔倒谱系数特征;在所述步骤S2中,由LSTM神经网络读入一帧梅尔倒谱系数特征进行处理,达到100帧时将输出分类的结果。本专利技术还公开了一种用于数字助听器的环境自适应神经网络降噪系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求所述的方法的步骤。本专利技术还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求所述的方法的步骤。本专利技术的有益效果是:1.可以保证语音处理的实时性,只进行神经网络的前向传播,运算量不高;2.可以对所处的声学场景进行识别,然后自主地选择不同的神经网络模型,对不同的场景下的噪声进行针对性地降噪处理,能保证更好的语音质量和语音可懂度;3.可以有效地抑制瞬时噪声;4.可以在低信噪比环境下实现更好的降噪效果。附图说明图1是本专利技术环境自适应降噪算法框图;图2是本专利技术LSTM网络结构图;图3是本专利技术LSTM单元的运行机理图;图4是本专利技术全连接神经网络降噪模型框图;图5是本专利技术PESQ指标评测结果图;图6是本专利技术STOI指标评测结果图。具体实施方式本专利技术公开了一种用于数字助听器的环境自适应神经网络降噪方法,该方法以场景识别模块作为决策驱动模块,根据不同的声学场景选择对应的神经网络降噪模型,来实现对不同噪声类型的抑制。本专利技术的整个算法系统包含两大部分,一个是场景识别模块,另一个是神经网络降噪模块,如图1所示。图1是本专利技术整个神经网络降噪系统的算法框图,由声学场景识别模块和多个不同场景下的降噪模型组成。带噪语音信号经过采样分帧后,首先会送到场景识别模块来确定当前的场景类型,随后会被送到相应的神经网络降噪模型,实现降噪过程。整个算法系统的核心部分在于识别模块和降噪模块两个部分,下面将分别进行详细的介绍:声学场景识别模块,采用了对时间序列具有记忆作用的LSTM(LongShort-TermMemory)神经网络进行设计;首先,麦克风接收到的语音信号,经过采样后,将其分成帧长为256点的时域信号,采样率为16000Hz,每一帧为16ms;接下来,对每一帧提取39维的梅尔倒谱系数特征(MelFrequencyCepstrumCoefficient,MFCC),LSTM网络每次读入一帧MFCC特征进行处理,但是只有满100帧时才会输出分类的结果,也就是说每隔1.6S更新一下当前的环境分类结果。LSTM神经网络的结构如图2所示,其中输入层的神经单元数为39,递归隐藏层的神经单元数为512,输出层的神经单元数为9(对应着9种场景类别:工厂、街道、地铁站、火车站、餐厅、运动场、飞机舱内、汽车内部、室内场景),相应的训练数据,是从freesound网站[1]上下载的,每种场景约2个小时的音频;LSTM网络不仅会处理当前的输入,还会与之前保留的输出进行组合,实现记忆的作用,当累计满100帧的记忆后,输出分类结果。LSTM单元的记忆更新机理如图3所示,其中Cn-1Cn-1表示上一帧留存的状态,fn表示当前帧遗忘门的输出,un表示当前帧更新门的输出,On表示当前帧输出门的输出,Cn表示当前帧的留存状态,hn表示当前帧的输出。LSTM单元将当前帧输入的特征tn与之前保留的输出结果hn-1进行组合,同时也将上一帧的状态Cn-1一本文档来自技高网...

【技术保护点】
1.一种用于数字助听器的环境自适应神经网络降噪方法,其特征在于,包括依次执行如下步骤:预处理步骤:接收带噪语音信号,带噪语音信号经过采样分帧后传输至声学场景识别模块;场景识别步骤:采用声学场景识别模块对所处的声学场景进行识别,然后由声学场景识别模块自主的选择神经网络降噪模块中不同的神经网络模型进行发送;神经网络降噪步骤:神经网络降噪模型接收声学场景识别模块发送的分类结果并对不同场景下的噪声进行针对性地降噪处理。

【技术特征摘要】
1.一种用于数字助听器的环境自适应神经网络降噪方法,其特征在于,包括依次执行如下步骤:预处理步骤:接收带噪语音信号,带噪语音信号经过采样分帧后传输至声学场景识别模块;场景识别步骤:采用声学场景识别模块对所处的声学场景进行识别,然后由声学场景识别模块自主的选择神经网络降噪模块中不同的神经网络模型进行发送;神经网络降噪步骤:神经网络降噪模型接收声学场景识别模块发送的分类结果并对不同场景下的噪声进行针对性地降噪处理。2.根据权利要求1所述的环境自适应神经网络降噪方法,其特征在于,在所述场景识别步骤中,所述声学场景识别模块采用了对时间序列具有记忆作用的LSTM神经网络结构,具体步骤如下:S1:对每一帧提取设定维数的梅尔倒谱系数特征;S2:由LSTM神经网络读入一帧梅尔倒谱系数特征进行处理,达到一定帧时将输出分类的结果。3.根据权利要求2所述的环境自适应神经网络降噪方法,其特征在于,所述LSTM神经网络结构包括输入层、隐藏层和输出层,输出层的神经单元对应不同的场景类别,LSTM神经网络不仅会处理当前的输入,还会与之前保留的输出进行组合,实现记忆的作用,当累计达到设定帧数的记忆后,输出分类结果。4.根据权利要求3所述的环境自适应神经网络降噪方法,其特征在于,所述LSTM神经网络结构记忆更新原理如下:LSTM神经网络结构将当前帧输入的特征tn与之前保留的输出结果hn-1进行组合,同时也将上一帧的状态Cn-1一起输入进去进行判断,产生一个当前帧的输出hn和一个当前帧的输出状态Cn,一直迭代下去,直到满足所需帧的记忆条件后,对最终的输出h进行softmax变换得到输出层的预测概率。5.根据权利要求4所述的环境自适应神经网络降噪方法,其特征在于,在所述场景识别步骤中,还包括LSTM神经网络训练时的损失损失函数计算,计算公式如下:其中yi和分别为正确的分类标签和LSTM网络输出层预测的分类结果。6.根据权利要求1所述的环境自适应神经网络降噪方法,其特征...

【专利技术属性】
技术研发人员:张禄王明江张啟权轩晓光张馨孙凤娇
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1