当前位置: 首页 > 专利查询>索诺瓦公司专利>正文

听力系统上的音频信号处理方法、听力系统和用于音频信号处理的神经网络技术方案

技术编号:38077485 阅读:16 留言:0更新日期:2023-07-06 08:45
本公开描述了用于音频信号处理的方法、听力系统和神经网络。听力系统(1)包括神经网络(6)。输入音频信号(I)至少部分地通过听力系统(1)的处理单元(4)的手段被处理成输出音频信号(O)。输入音频信号(I)的音频信号处理包括:通过神经网络(6)执行音频信号处理以执行音频信号处理的步骤,确定类似于由神经网络(6)进行的音频信号处理的可靠性的置信度参数(C),并根据置信度参数(C)引导音频信号处理。特别合适的神经网络(6)被配置为解决基于回归的声学处理任务并附加地确定置信度参数(C)。学处理任务并附加地确定置信度参数(C)。学处理任务并附加地确定置信度参数(C)。

【技术实现步骤摘要】
听力系统上的音频信号处理方法、听力系统和用于音频信号处理的神经网络


[0001]本专利技术技术涉及一种用于听力系统上的音频信号处理的方法和听力系统,尤其是听力设备系统。本专利技术技术还涉及一种用于音频信号处理的神经网络,特别是一种用于音频信号的基于回归的声学处理的神经网络。

技术介绍

[0002]听力设备和听力设备上的音频信号处理在现有技术中是已知的。神经网络可用于听力设备系统上的音频信号处理,例如,用于音频信号的分类或音频信号的增强。在许多情况下,神经网络的处理产生的结果优于常规的音频信号处理例程。然而,虽然在大多数情况下产生可靠的结果,但神经网络处理可能针对某些音频信号失败,从而导致伪影和/或对处理后的音频信号的质量产生负面影响。特别是对于高性能音频处理神经网络,基于要处理的音频信号,特别是这些音频信号的复杂度水平,网络输出的可靠性可能存在相关差异。

技术实现思路

[0003]本专利技术技术的一个目的是提供一种改进的用于听力系统上的音频信号处理的方法,特别是一种不那么容易受到神经网络的错误音频信号处理的有害影响的方法。
[0004]该目的通过具有独立权利要求1中提供的步骤的方法来实现。听力系统具有音频输入单元、用于音频信号处理的处理单元和音频输出单元。听力系统还包括用于音频信号处理的神经网络。通过音频输入单元的手段接收输入音频信号。输入音频信号至少部分地通过处理单元的手段被处理成输出音频信号。输入音频信号的音频信号处理包括由神经网络执行音频信号处理以执行音频信号处理的步骤,确定类似于有神经网络处理音频信号的可靠性的置信度参数,以及根据置信度参数引导(steer)音频信号处理。输出音频信号通过音频输出单元的手段输出。通过确定置信度参数,该方法允许监视由神经网络处理音频信号的可靠性。通过基于置信度参数引导音频信号处理,如果置信度参数指示神经网络处理的可靠性低,则可以采取适当的措施,从而导致改进的和更可靠的音频信号处理。特别是,即使在神经网络可能导致较差结果甚至完全无法处理音频信号的情况下,该方法也会产生可靠的音频信号处理。因此,该方法允许使用神经网络的音频信号处理具有更稳健的性能。特别是,听力系统可以处理更广泛的用例,包括神经网络本身将难以应对的复杂的听力场景。由此,提高了音频信号处理的整体质量。伪影、对可理解性和/或其他分散注意力的行为的不利影响(例如从对话中随机丢弃单词)被减少,特别是被避免。输出的输出音频信号具有整体更好的质量。
[0005]该方法的一个特别有利的方面是神经网络,特别是网络权重,可以在没有高性能风险的情况下在现场更新。
[0006]在本专利技术技术的意义上的听力系统是一个或多个设备的系统,该系统由用户使用,例如由听力受损的用户使用,以增强他或她的听力体验。听力体验的增强包括但不限于
调节声音以更好地可被用户接收,特别是被听力受损的用户接收。听力体验的增强还可以包括提高可懂度和/或用户接收到的一般声音质量,例如用户正在收听的音乐的声音质量。听力系统的示例性设备可以包括但不限于台式麦克风、扩音器,特别是条形音箱、头戴式耳机(headphones)、耳塞式耳机(earphones)、头戴式受话器(headsets)和/或听力保护设备。
[0007]示例性听力系统可以包括一个或多个听力设备。这种听力系统可能特别适合改善听力受损者的听力体验。包括一个或多个听力设备的听力系统也称为听力设备系统。
[0008]在本专利技术技术的上下文中的听力设备可以是可佩戴的听力设备,特别是可佩戴的助听器,或可植入的听力设备,特别是可植入的助听器,或具有植入物的听力设备,特别是具有植入物的助听器。可植入的助听器例如是中耳植入物、耳蜗植入物、脑干植入物或骨锚式助听器。可佩戴听力设备例如是耳后设备、耳内设备、眼镜听力设备或骨传导听力设备。特别地,可佩戴听力设备可以是耳后助听器、耳内助听器、眼镜助听器或骨传导助听器。可佩戴听力设备还可以是头戴式耳机、耳塞式耳机、头戴式受话器和/或听力保护设备。示例性头戴式耳机可以是所谓的可听或智能头戴式耳机。
[0009]听力设备系统可以包括一个或多个听力设备。例如,听力设备系统可以包括两个听力设备,特别是两个助听器。例如,听力设备可以是分别与用户的左耳和右耳相关联的可佩戴或植入式听力设备。
[0010]特别合适的听力系统(尤其是听力设备系统)可以包括一个或多个外围设备。外围设备在本专利技术技术的意义上是听力系统的设备,其不是听力设备,尤其不是助听器。特别地,一个或多个外围设备可以包括移动设备,特别是智能手表、平板电脑和/或智能手机。外围设备可以由相应移动设备的组件实现,特别是相应智能手表、平板电脑和/或智能手机。特别优选地,移动设备的标准硬件组件借助适用的听力系统软件用于此目的,例如以在移动设备上安装和可执行的应用(app)的形式。附加地或可替代地,一个或多个外围设备可以包括无线麦克风。无线麦克风是听力受损者所使用的辅助收听设备,以用于提高在嘈杂环境和远距离讲话的理解力。这样的无线麦克风包括例如体戴式麦克风或台式麦克风。其他合适的外围设备可以包括但不限于扩音器,例如条形音箱和/或电视连接器。
[0011]示例性听力系统可以包括一个或多个听力设备和一个或多个外围设备,例如智能手机和/或无线麦克风。一个或多个听力设备可以与至少一个外围设备进行数据连接,特别是无线数据连接。
[0012]音频信号可以是携带声学信息的任何电信号。特别地,音频信号可以包括未处理的或原始的音频数据,例如原始音频记录或原始音频波形,和/或处理过的音频数据,例如提取的音频特征、压缩的音频数据、谱,特别是频谱、倒谱(cepstrum)和/或倒谱系数。在本专利技术技术的上下文中的不同音频信号可以是不同种类的。例如,音频输入单元所接收的输入音频信号可以是环境声音的未经处理的记录。神经网络要处理的音频信号(例如提供给神经网络输入的音频信号输入)可以是处理过的音频数据,特别是可以是处理过的输入音频信号的形式。例如,要由神经网络处理的音频信号可以基于输入音频信号的谱,特别是频谱。例如,输入音频信号可以通过快速傅里叶变换(FFT)来变换。输入到神经网络的音频信号可以包括倒谱。例如,输入到神经网络的音频信号可以包括梅尔频率倒谱系数(Mel

Frequency Cepstral Coefficient,MFCC)和/或其他倒谱系数。
[0013]音频输入单元可以是被配置为接收输入音频信号的任何单元。接收输入音频信号
应理解为音频输入单元基于输入音频信号所接收的数据或信号来提供输入音频信号。具体地,音频输入单元可以被配置为基于其他种类的信号来生成输入音频信号。例如,输入音频信号可以被配置为将声学声音变换成输入音频信号。例如,音频输入单元可以被配置为记录声学声音,特别是环境声音,并将记录的声音变换成输入音频信号。音频输入单元可以是声电换能器的形式,例如麦克风。附加地或可替代地,音频输入单元可以被配置为直接接收输入音频信号。例如,输入音频信号可以由另一个设备提供(特别是生成),并且本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于听力系统上的音频信号处理的方法,所述听力系统(1)具有音频输入单元(3),用于音频信号处理的处理单元(4),音频输出单元(5),以及用于音频信号处理的神经网络(6;20),并且所述方法包括以下步骤:通过所述音频输入单元(3)接收输入音频信号(I),至少部分地通过所述处理单元(4)对所述输入音频信号(I)进行音频信号处理以得到输出音频信号(O),包括通过所述神经网络(6)执行音频信号处理,以用于执行所述音频信号处理的步骤,确定与由所述神经网络(6)进行的所述音频信号处理的可靠性类似的置信度参数(C),以及根据所述置信度参数(C)引导所述音频信号处理,通过所述音频输出单元(5)输出所述输出音频信号(O)。2.根据权利要求1所述的方法,其中,所述置信度参数(C)确定所述神经网络(6;20)的网络输出(A1;NO)是否用于所述音频信号处理的进一步处理步骤中。3.根据权利要求1或2中任一项所述的方法,其中,所述置信度参数(C)由所述神经网络(6;20)确定。4.根据权利要求1至3中任一项所述的方法,其中,所述神经网络执行分类任务,特别是执行音频场景分类。5.根据权利要求1至3中任一项所述的方法,其中,所述神经网络(6;20)执行基于回归的声学处理以获得网络输出音频数据(A1;NO)。6.根据权利要求5所述的方法,其中,所述神经网络(6;20)除了所述网络输出音频数据(A1;NO)之外还输出所述置信度参数(C)。7.根据权利要求5或6中任一项所述的方法,其中,由所述神经网络(6;20)进行的所述基于回归的声学处理是根据所述置信度参数(C)修改的。8.根据前述权利要求中任一项所述的方法,其中,所述输出音频信号(O)包括初级音频信号(A1)和次级音频信号(A2)的混合,所述初级音频信号(A1)是使用由所述神经网络(6)进行的音频信号处理获得的,所述次级音频信号(A2)是在不使用由所述神经网络(6)进行的音频信号处理的情况下获得的,并且其中,初级音频信号(A1)和次级音频信号(A2)的混合比是基于所述置信度参数(C)确定的。9....

【专利技术属性】
技术研发人员:P
申请(专利权)人:索诺瓦公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1