当前位置: 首页 > 专利查询>天津大学专利>正文

基于循环神经网络的数字助听器声场识别算法及硬件实现方法技术

技术编号:25126470 阅读:37 留言:0更新日期:2020-08-05 02:56
本发明专利技术公开一种基于循环神经网络的数字助听器声场识别算法及硬件实现方法。该数字助听器声场识别算法是通过全相位滤波器组对音频进行滤波分析,该滤波器组按人耳听觉特征将输入音频划分为16通道,然后对音频进行计算提取16维特征值;将16维特征值输入至三层循环神经网络进行特征分类,得到声场环境分类的结果;根据不同的声场环境相应地调整助听器的特性参数。本发明专利技术提通过对音频信号按照人耳听觉特征划分的Bark频标进行通道分解,对当前声场环境提取音频特征值,然后对提取的音频特征值进行分类从而识别出当前声场环境的类别,然后控制助听器根据当前声场环境调整适宜的助听模式,从而提高了言语可懂度和舒适度,达到更适宜的听力改善效果。

【技术实现步骤摘要】
基于循环神经网络的数字助听器声场识别算法及硬件实现方法
本专利技术涉及数字信号处理
,特别是涉及一种基于循环神经网络的数字助听器声场识别算法及硬件实现方法。
技术介绍
除人工耳蜗和临床手术外,助听器在医学界被广泛认为是有效改善听力的便携生物医学设备,是听障患者听力干预和康复最有效的手段之一,但目前助听器的普及率并不高,在助听器使用者的反馈情况来看,有62.3%的助听器用户对助听器效果是不满意的,其中主要原因之一是助听器会增加背景噪声,复杂多样的声音环境会使得助听器的性能出现很大的偏差,声源复杂的噪声环境下,助听器的啸叫和放大后的噪声容易给佩戴者造成强烈的不适感,难以分辨和理解各种声音。现代数字助听器允许用户手动切换不同的助听模式,例如可以调整麦克风,降噪级别,啸叫抑制等。但是,助听器使用者通常无法快速准确地根据当前声学环境切换到最适合的程序,并且由于老年人是助听器用户的主要人群,辨别声场环境再寻找合适的助听器调整程序有一定难度。
技术实现思路
本专利技术的目的是旨在解决现有助听器在不同的声学环境中助听效果差异大等问题,以期提高助听器的助听效果,而提供一种基于循环神经网络的数字助听器声场识别算法及硬件实现方法,其具有自动场景分类功能,可实时地对周围的声场环境进行分类判别,即通过识别助听器用户当前所在的声场环境,自动感测当前的声场状况并自动切换到最佳拟合程序,使得助听器可以根据当前声场环境调整适宜的助听模式,极大地改善助听器的实用性;且声场识别算法效率高,计算复杂度低,易于硬件实现。为实现本专利技术的目的所采用的技术方案是:一种基于循环神经网络的数字助听器声场识别算法,包括步骤:S1.通过全相位滤波器组对音频进行滤波分析,该滤波器组按人耳听觉特征将输入音频划分为16通道,然后对音频进行计算提取16维特征值;S2.将16维特征值输入至三层循环神经网络进行特征分类,得到声场环境分类的结果;S3.根据不同的声场环境相应地调整助听器的特性参数。本专利技术提出的基于循环神经网络的数字助听器声场识别方法,通过对音频信号按照人耳听觉特征划分的Bark频标进行通道分解,对当前声场环境提取音频特征值,然后对提取的音频特征值进行分类从而识别出当前声场环境的类别,然后控制助听器根据当前声场环境调整适宜的助听模式,从而提高了言语可懂度和舒适度,达到更适宜的听力改善效果。附图说明图1是16通道幅度响应曲线;图2是音频经滤波器组滤波后16通道频谱图;图3是原音频频谱图;图4是滤波器组处理后频谱图;图5是原音频和滤波器组处理后音频的互相关值;图6是声场识别系统的整体框图;图7是单个滤波器硬件设计图;图8是全连接层计算单元的结构图;图9是GRU层计算单元的结构图。具体实施方式以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术通过全相位滤波器组对音频进行滤波分析,该滤波器组按人耳听觉特征将输入音频划分为16通道,然后对音频进行计算提取16维特征值,并将特征值输入至三层循环神经网络进行特征分类,最后得到声场分类的结果;根据不同的声场环境相应地调整助听器的特性参数,从而提高言语可懂度和舒适度,达到更适宜的听力改善效果。本专利技术基于循环神经网络的数字助听器声场识别算法,分为特征提取和特征识别两个部分,按照如下步骤进行处理,即完成声场环境的分类识别:第一部分:特征提取步骤1.样本分段:以fs=16kHz的采样速率对音频采样,获得L个样点,然后对其分段处理,生成各子分段,x(k-N+1,k-N+2,…,k+N-1),其中N=256,k=N,N+1,…,L-N,x包含2N-1个样点。步骤2.确定长度为N的目标频率向量H:Bark频标是临界频带的计量单位,其拟合公式为zf=26.81/(1+(1960/f))-0.53,式中zf表示临界频带,单位为Bark,f表示频率,单位为Hz。设定人耳听域范围为50Hz至8000Hz,根据bark域转换公式即可确定bark域范围;对bark域进行通道数量的均分得到一系列bark域等距点,再由Bark域的最小频率可以得到bark域各频带范围;根据逆变换公式f=((bark+0.53)*1960)/(26.28-bark)计算线性频频带分布,进而可以确定滤波器组的频率向量H。对于16通道256阶滤波器组,H为16×256的特征向量。步骤3计算滤波器系数向量hi:对频率向量H进行IFFT得到hi=[h(0)h(1)…h(N-1)]T,i=1,2,…,16.按照FIR滤波器构造方式将hi扩展为长度2N-1的系数,即hi=[hi(0),hi(1),,,,hi(N-1),hi(1),…,hi(N-1)].步骤4双窗全相位滤波处理:用长度为N的前窗f、后窗b进行卷积得到卷积窗win,win(k)=b(k)*f(-k),k=-N-1,…,N-1,这里前窗与后窗都使用汉明窗,然后对卷积窗进行归一化处理:w(k)=win(k)/max(win(k)),k=-N+1,…,N-1;步骤5计算滤波器组抽头系数h1i:将步骤4得到的卷积窗w(k)与步骤3得到得到滤波器系数向量hi相乘,即h(k)=hi×w(k),i=1,…,16,k=-N+1,…,N-1,取前256个系数作为抽头系数h1i,即h1i=[h(0),h(1),,,,h(N-1)]。步骤6滤波输出计算:将步骤1的2N-1个分段样本x按抽头系数相等的样本点进行相加,即x=[x(k-N+1,k-N+2,…,k-1)+x(k+1,k+2,…,k+N-1),x(k)+0],k=N,N+1,…,L-N,其中x(k)为2N-1的中间点,不与其他序列点对称,因此加0,然后将x与步骤5得到的抽头系数h1i进行相乘累加,即得到一个通道滤波器的输出。对于序列长度为L的音频数据,经过16通道滤波器组处理后将输出16×L的音频数据。步骤7特征值计算:对步骤6得到的序列长为L的16通道音频分段进行特征值计算,每段时长为50ms,对于16kHz采样率,50ms对应得音频的序列点数为l=800,对该序列求能量均方值,并取对数,作为16维的特征值。设单个通道的输出语音为yi(n),特征值为mi,则有第二部分:特征识别步骤1全连接层:将第一部分特征提取得到的16维特征值输入第一层神经网络,该层为全连接层,激活函数为relu,节点数为16。训练完毕的全连接层提供16×16维权值,以及16个节点的偏置值,则经过第一层全连接层处理后的输出为:步骤2GRU层:第一层全连接层16节点输出值qi入到第二层神经网络,该层为GRU层,激活函数为sigmoid和tanh,节点数为16。训练完毕的GRU层提供权值和偏置值,GRU层处理的计算过程为:...

【技术保护点】
1.基于循环神经网络的数字助听器声场识别算法,其特征在于,包括步骤:/nS1.通过全相位滤波器组对音频进行滤波分析,该滤波器组按人耳听觉特征将输入音频划分为16通道,然后对音频进行计算提取16维特征值;/nS2.将16维特征值输入至三层循环神经网络进行特征分类,得到声场环境分类的结果;/nS3.根据不同的声场环境相应地调整助听器的特性参数。/n

【技术特征摘要】
1.基于循环神经网络的数字助听器声场识别算法,其特征在于,包括步骤:
S1.通过全相位滤波器组对音频进行滤波分析,该滤波器组按人耳听觉特征将输入音频划分为16通道,然后对音频进行计算提取16维特征值;
S2.将16维特征值输入至三层循环神经网络进行特征分类,得到声场环境分类的结果;
S3.根据不同的声场环境相应地调整助听器的特性参数。


2.根据权利要求1所述基于循环神经网络的数字助听器声场识别算法,其特征在于,步骤S1的具体步骤如下:
S11.样本分段:以一定的采样速率对音频采样,获得L个样点,然后分段处理,生成各个子分段x(k-N+1,k-N+2,…,k+N-1),其中N=256,k=N,N+1,…,L-N,x包含2N-1个样点;
S12.确定长度为N的目标频率向量H;根据bark域转换公式确定bark域范围,对bark域进行通道数量均分得到一系列bark域等距点,再由Bark域最小频率得到bark域各频带范围;根据逆变换公式f=((bark+0.53)*1960)/(26.28-bark)计算线性频频带分布,进而确定滤波器组的频率向量H;
S13.计算滤波器系数向量hi;对频率向量H进行IFFT得到hi=[h(0)h(1)…h(N-1)]T,i=1,2,…,16.按照FIR滤波器构造方式将hi扩展为长度2N-1的系数,即hi=[hi(0),hi(1),,,,hi(N-1),hi(1),…,hi(N-1)];
S14.双窗全相位滤波处理:用长度为N的前窗f、后窗b进行卷积得到卷积窗win,然后对卷积窗win归一化处理,w(k)=win(k)/max(win(k)),k=-N+1,…,N-1;
S15.计算滤波器组抽头系数h1i:将卷积窗w(k)与滤波器系数向量hi相乘,取前256个系数作为抽头系数h1i,h1i=[h(0),h(1),,,,h(N-1)];
S16.滤波输出计算:将2N-1个分段样本x按抽头系数相等的样本点进行相加,然后将x与滤波器组抽头系数h1i进行相乘累加,即得到一个通道滤波器的输出;对于序列长度为L的音频数据,经过16通道滤波器组处理后输出16×L的音频数据;一个通道滤波器的输出为



S17.特征值计算:对序列长为L的16通道音频分段进行特征值计算,得到16维特征值;



式中,yi(n)为单个通道的输出语音,mi为特征值。


3.根据权利要求1所述基于循环神经网络的数字助听器声场识别算法,其特征在于,步骤S2的具体步骤如下:
S21.将得到的16维特征值输入第一层神经网络,该层为全连接层,激活函数为relu,节点数为16;训练完毕的全连接层提供16×16维权值以及16个节点的偏置值,则经过第一层全连接层处...

【专利技术属性】
技术研发人员:陈霏韩悦
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1