【技术实现步骤摘要】
一种基于神经网络的场景自适应助听器音频增强系统
[0001]本专利技术涉及音频增强技术,特别是涉及一种基于神经网络的场景自适应助听器音频增强系统。
技术介绍
[0002]我国现有约3000万名听力残障患者。通过佩戴助听器,可以显著改善听力残障患者的交流能力,提升生活质量。传统助听器只是机械地同时放大音频和噪声的音量,使用体验较差。而应用人工智能技术的智能数字助听器可以在不同条件下针对性地对某些声音进行增强,从而进一步提升助听器的使用体验。在现实生活中,我们期望助听器能够根据所处场景的不同,有选择性地增强或抑制某种声音。例如在参加会议时,使用者会希望助听器能够增强人声。在居家生活中,助听器可以对一些外界噪音进行抑制。而在街道上行走时,助听器不能抑制汽车鸣笛等声音,否则将会导致安全隐患。
[0003]对于此问题,目前尚未有一套完整的解决方案。要实现上述效果,需要组合多个单独的方法,具体来说主要是通过引入一个单独的场景分类模块,对现在所处场景进行判断,然后根据场景选择不同的音频增强方法。此种方案主要存在以下两个问题:(1) ...
【技术保护点】
【技术特征摘要】
1.一种基于神经网络的场景自适应助听器音频增强系统,其特征在于,包括基于神经网络的多模态场景特征提取模块和音频增强模块,所述多模态场景特征提取模块对场景进行多模态场景特征提取,所述多模态场景特征包括所述场景的音频和图像特征;所述音频增强模块使用所述多模态场景特征编码进行音频增强,从而根据所述场景的信息生成对应的增强音频,联合使用音频和图像特征来提高对所述场景的感知能力。2.如权利要求1所述的场景自适应助听器音频增强系统,其特征在于,所述多模态场景特征提取模块包括基于卷积视觉Transformer的图像特征提取器、基于卷积神经网络的音频特征提取器以及基于多层感知机的特征融合网络和场景分类器,所述图像特征提取器用于提取场景的图像特征,所述音频特征提取器用于提取场景的音频特征,得到的图像特征和音频特征由所述特征融合网络进行特征融合,所述场景分类器进行场景类别的预测。3.如权利要求2所述的场景自适应助听器音频增强系统,其特征在于,所述图像特征提取器的卷积视觉Transformer模型分为三个阶段,通过在特征图上进行卷积操作,融合局部特征同时减少图像序列的长度,最后将模型输出的分类token作为图像特征。4.如权利要求2或3所述的场景自适应助听器音频增强系统,其特征在于,所述音频特征提取器采用卷积神经网络CNN14提取音频特征,通过3
×
3卷积核的堆叠,实现对频谱不同尺度的关注,进而对音频场景进行分类;优选地,提取倒数第二个全连接层的输出作为音频特征。5.如权利要求2至4任一项所述的场景自适应助听器音频增强系统,其特征在于,所述特征融合网络和场景分类器使用多层感知机模型来构建,所述特征融合网络和所述场景分类器根据提取的图像特征...
【专利技术属性】
技术研发人员:吴志勇,杨玉杰,蔡新宇,陈玉鹏,
申请(专利权)人:鹏城实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。