用于目标声音检测的方法及装备技术

技术编号:35559654 阅读:10 留言:0更新日期:2022-11-12 15:42
一种用于执行目标声音检测的设备包括一个或多个处理器。该一个或多个处理器包括配置成存储音频数据的缓冲器、以及目标声音检测器。该目标声音检测器包括第一级和第二级。第一级包括配置成处理该音频数据的二元目标声音分类器。第一级被配置成响应于检测到目标声音而激活第二级。第二级被配置成响应于检测到该目标声音而从该缓冲器接收该音频数据。该目标声音而从该缓冲器接收该音频数据。该目标声音而从该缓冲器接收该音频数据。

【技术实现步骤摘要】
【国外来华专利技术】用于目标声音检测的方法及装备
[0001]I.相关申请的交叉引用
[0002]本申请要求来自于2020年4月1日提交的共同所有的美国非临时专利申请No.16/837,420的优先权权益,该申请通过援引被整体纳入。
[0003]II.领域
[0004]本公开一般涉及在音频数据中检测目标声音。
[0005]III.相关技术描述
[0006]音频上下文检测通常被用于使电子设备能够基于该电子设备所捕获的音频来标识上下文信息。例如,电子设备可以分析所接收到的声音以确定该声音是否指示预定的声音事件。作为另一示例,电子设备可以分析所接收到的声音以分类周围环境,诸如家庭环境或办公室环境。“常通”的音频上下文检测系统使电子设备能够连续扫描音频输入以检测该音频输入中的声音事件。然而,音频上下文检测系统的连续操作导致相对较大的功耗,这在移动设备中实现时会降低电池寿命。此外,系统复杂性和功耗随着音频上下文检测系统被配置成检测的声音事件的数目的增加而增加。
[0007]IV.概述
[0008]根据本公开的一个实现,用于执行声音检测的设备包括一个或多个处理器。该一个或多个处理器包括配置成存储音频数据的缓冲器。该一个或多个缓冲器还包括:包含第一级和第二级的目标声音检测器。第一级包括配置成处理该音频数据的二元目标声音分类器。第一级被配置成响应于第一级检测到目标声音而激活第二级。第二级被配置成响应于检测到该目标声音而从该缓冲器接收该音频数据。
[0009]根据本公开的另一实现,目标声音检测的方法包括将音频数据存储在缓冲器中。该方法还包括:在目标声音检测器的第一级中使用二元目标声音分类器来处理该缓冲器中的该音频数据;以及响应于第一级检测到目标声音而激活该目标声音检测器的第二级。该方法进一步包括:在第二级中使用多目标声音分类器来处理来自该缓冲器的该音频数据。
[0010]根据本公开的另一实现,计算机可读存储设备存储指令,这些指令在由一个或多个处理器执行时使该一个或多个处理器:将音频数据存储在缓冲器中;以及在目标声音检测器的第一级中使用二元目标声音分类器来处理该缓冲器中的该音频数据。这些指令在由该一个或多个处理器执行时还使得该一个或多个处理器:响应于第一级检测到目标声音而激活该目标声音检测器的第二级;以及在第二级中使用多目标声音分类器来处理来自该缓冲器的该音频数据。
[0011]根据本公开的另一实现,一种装备包括用于检测目标声音的装置。用于检测该目标声音的装置包括第一级和第二级。第一级包括用于生成音频数据的二元目标声音分类以及用于响应于将该音频数据分类为包括目标声音而激活第二级的装置。该装备还包括:用于缓冲音频数据和用于响应于将该音频数据分类为包括该目标声音而向第二级提供该音频数据的装置。
[0012]V.附图简述
[0013]图1是根据本公开的一些示例的包括包含多级目标声音检测器的设备的系统的特
定解说性实现的示图。
[0014]图2是根据本公开的一些示例的对图1的设备的特定实现的示图。
[0015]图3是根据本公开的一些示例的对包括多级音频场景检测器的图1的设备的另一特定实现的示图。
[0016]图4是根据本公开的一些示例的可被纳入多级音频场景检测器的组件的特定示例的示图。
[0017]图5是根据本公开的一些示例的可被纳入多级音频场景检测器的组件的另一特定示例的示图。
[0018]图6是根据本公开的一些示例的对包括场景检测器的图1的设备的另一特定实现的示图。
[0019]图7是根据本公开的一些示例的可被纳入图6的设备中的组件的特定示例的示图。
[0020]图8是根据本公开的一些示例的可被纳入图6的设备中的组件的另一特定示例的示图。
[0021]图9解说了根据本公开的一些示例的包括多级目标声音检测器的集成电路的示例。
[0022]图10是根据本公开的一些示例的包括多级目标声音检测器的交通工具的第一示例的示图。
[0023]图11是根据本公开的一些示例的包括多级目标声音检测器的交通工具的第二示例的示图。
[0024]图12是根据本公开的一些示例的包括多级目标声音检测器的头戴式设备(诸如虚拟现实或增强现实头戴式设备)的示图。
[0025]图13是根据本公开的一些示例的包括多级目标声音检测器的可穿戴电子设备的示图。
[0026]图14是根据本公开的一些示例的包括多级目标声音检测器的声控扬声器系统的示图。
[0027]图15是根据本公开的一些示例的可由图1的设备执行的目标声音检测方法的特定实现的示图。
[0028]图16是根据本公开的一些示例的可操作用于执行目标声音检测器的设备的特定解说性示例的框图。
[0029]VI.详细描述
[0030]公开了使用多级目标声音检测器以降低功耗的设备和方法。由于连续扫描音频输入以检测该音频输入中的音频事件的常通声音检测系统导致相对较大的功耗,所以当该常通声音检测系统在功率受限的环境中(诸如在移动设备中实现时),电池寿命会缩短。虽然可以通过减少声音检测系统被配置成检测的音频事件的数目来减少功耗,但是减少音频事件的数目降低了声音检测系统的利用。
[0031]如本文中所描述的,多级目标声音检测器支持针对常通操作使用相对较低的功率来检测相对较大量的感兴趣目标声音。该多级目标声音检测器包括第一级,该第一级支持音频数据在所有感兴趣的目标声音(作为一群)与非目标声音之间的二元分类。多级目标声音检测器包括第二级,该第二级用于执行进一步的分析并将音频数据分类为包括感兴趣目
标声音中的特定的一个或多个目标声音。第一级的二元分类由于低复杂度和小存储器占用而使得低功耗能够在常通操作状态中支持声音事件检测。第二级包括更强大的目标声音分类器,该目标声音分类器用于区分目标声音并减少或消除可能由第一级生成的假阳性(例如,对目标声音的不准确检测)。
[0032]在一些实现中,响应于在音频数据中检测到感兴趣目标声音中的一个或多个目标声音,第二级(例如,从睡眠状态)被激活以使得能够实现对音频数据的更强大的处理。在第二级完成对音频数据的处理之际,第二级可以返回到低功率状态。通过针对常通操作使用第一级的低复杂度二元分类并选择性地激活第二级的更强大的目标声音分类器,目标声音检测器能够以针对常通操作的降低的平均功耗来实现高性能的目标声音分类。
[0033]在一些实现中,多级环境场景检测器包括常通的第一级并且还包括更强大的第二级,该第一级检测是否已发生环境场景改变,该第二级在第一级检测到环境中的改变时被选择性地激活。在一些示例中,第一级包括二元分类器,该二元分类器被配置成在不标识任何特定环境场景的情况下检测音频数据是否表示环境场景改变。在其他示例中,分层场景改变检测器包括配置成在第一级中检测相对较少数目的宽泛类别(例如,室内、室外和在交通工具中)的分类器,并且第二级中更强大的分类器被配置成检测更大数目的更具体的环境场景(例如,在汽车中、在火车上、在家里、在办公室中等)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于执行声音检测的设备,所述设备包括:一个或多个处理器,所述一个或多个处理器包括:配置成存储音频数据的缓冲器;以及包括第一级和第二级的目标声音检测器,所述第一级包括配置成处理所述音频数据的二元目标声音分类器,所述第一级被配置成响应于所述第一级检测到目标声音而激活所述第二级,并且所述第二级被配置成响应于检测到所述目标声音而从所述缓冲器接收所述音频数据。2.如权利要求1所述的设备,其中所述二元目标声音分类器被进一步配置成:生成包括第一值和第二值的二元信号,其中所述第一值被设为响应于检测到所述音频数据中存在多个目标声音中的任一目标声音而激活所述第二级;以及所述第二值被设为响应于检测到所述多个目标声音中没有一个目标声音在所述音频数据中而抑制生成所述信号。3.如权利要求1所述的设备,其中所述二元目标声音分类器包括神经网络。4.如权利要求1所述的设备,其中所述二元目标声音分类器包括贝叶斯分类器或高斯混合模型(GMM)分类器中的至少一者。5.如权利要求1所述的设备,其中所述第二级包括配置成生成检测器输出的多目标声音分类器,所述检测器输出针对多个目标声音中的每个目标声音指示所述音频数据中存在或不存在该目标声音,并且其中所述多个目标声音对应于声音事件的多个类别。6.如权利要求1所述的设备,其中所述二元目标声音分类器和所述缓冲器被包括在低功率域中并且被配置成在常通模式中操作,并且其中所述第二级被配置成响应于接收到所述信号而从低功率状态转换到活跃状态。7.如权利要求1所述的设备,其中所述信号对应于唤醒中断信号。8.如权利要求1所述的设备,其中所述第一级被进一步配置成响应于所述第一级检测到目标声音而激活相机。9.如权利要求8所述的设备,进一步包括场景检测器,所述场景检测器被配置成至少部分地基于来自所述相机的输入信号来分类所述设备的环境,其中所述第二级包括多目标声音分类器,所述多目标声音分类器被配置成从声音事件的多个类别之中分类出所述音频数据,并且其中所述多目标声音分类器的操作至少部分地基于所述场景检测器所分类的环境。10.如权利要求9所述的设备,其中所述多目标声音分类器被调整以聚焦于声音事件的所述多个类别中与所述环境相对应的一个或多个特定类别。11.如权利要求9所述的设备,其中所述多目标声音分类器被进一步配置成:从声音事件类别的多个集合中选择与所述环境相对应的声音事件类别的特定集合;以及基于所述特定集合的声音事件类别来分类所述音频数据。12.如权利要求1所述的设备,其中所述目标声音检测器被配置成:从一个或多个训练数据集合之中选择与所述设备的所检测环境相对应的特定训练数据集合,并且基于所述特定训练数据集合来处理所述音频数据。13.如权利要求12所述的设备,其中所述环境基于相机、位置检测系统、或音频场景检
测器中的至少一者来被检测。14.如权利要求1所述的设备,进一步包括音频场景检测器,所述音频场景检测器被配置成:响应于所述二元目标声音分类器检测到所述音频数据中存在多个目标声音中的任一目标声音而被激活,所述音频场景检测器包括:音频场景改变检测器,所述音频场景改变检测器被配置成处理所述音频数据以及响应于检测到音频场景改变而生成场景改变信号;以及音频场景分类器,所述音频场景分类器被配置成响应于检测到所述音频场景改变而从所述缓冲器接收所述音频数据。15.如权利要求14所述的设备,其中所述音频场景分类器被配置成根据多个音频场景类别来分类所述音频数据,所述多个音频场景类别包括以下至少两者:在家里、在办公室中、在餐厅中、在汽车中、在火车上、在街道上、室内或室外。16.如权利要求14所述的设备,其中所述音频场景改变检测器被进一步配置成:基于检测噪声统计或非平稳声音统计中的至少一者的改变来检测所述音频场景改变。17.如权利要求14所述的设备,其中所述音频场景改变检测器包括使用与场景之间的转换相对应的音频数据来训练的分类器。18.如权...

【专利技术属性】
技术研发人员:P
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1