用于目标声音检测的方法及装备技术

技术编号：35559654 阅读：10 留言：0更新日期：2022-11-12 15:42

一种用于执行目标声音检测的设备包括一个或多个处理器。该一个或多个处理器包括配置成存储音频数据的缓冲器、以及目标声音检测器。该目标声音检测器包括第一级和第二级。第一级包括配置成处理该音频数据的二元目标声音分类器。第一级被配置成响应于检测到目标声音而激活第二级。第二级被配置成响应于检测到该目标声音而从该缓冲器接收该音频数据。该目标声音而从该缓冲器接收该音频数据。该目标声音而从该缓冲器接收该音频数据。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于目标声音检测的方法及装备
[0001]I.相关申请的交叉引用
[0002]本申请要求来自于2020年4月1日提交的共同所有的美国非临时专利申请No.16/837,420的优先权权益，该申请通过援引被整体纳入。
[0003]II.领域
[0004]本公开一般涉及在音频数据中检测目标声音。
[0005]III.相关技术描述
[0006]音频上下文检测通常被用于使电子设备能够基于该电子设备所捕获的音频来标识上下文信息。例如，电子设备可以分析所接收到的声音以确定该声音是否指示预定的声音事件。作为另一示例，电子设备可以分析所接收到的声音以分类周围环境，诸如家庭环境或办公室环境。“常通”的音频上下文检测系统使电子设备能够连续扫描音频输入以检测该音频输入中的声音事件。然而，音频上下文检测系统的连续操作导致相对较大的功耗，这在移动设备中实现时会降低电池寿命。此外，系统复杂性和功耗随着音频上下文检测系统被配置成检测的声音事件的数目的增加而增加。
[0007]IV.概述
[0008]根据本公开的一个实现，用于执行声音检测的设备包括一个或多个处理器。该一个或多个处理器包括配置成存储音频数据的缓冲器。该一个或多个缓冲器还包括：包含第一级和第二级的目标声音检测器。第一级包括配置成处理该音频数据的二元目标声音分类器。第一级被配置成响应于第一级检测到目标声音而激活第二级。第二级被配置成响应于检测到该目标声音而从该缓冲器接收该音频数据。
[0009]根据本公开的另一实现，目标声音检测的方法包括将音频数据存储在缓冲器...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于执行声音检测的设备，所述设备包括：一个或多个处理器，所述一个或多个处理器包括：配置成存储音频数据的缓冲器；以及包括第一级和第二级的目标声音检测器，所述第一级包括配置成处理所述音频数据的二元目标声音分类器，所述第一级被配置成响应于所述第一级检测到目标声音而激活所述第二级，并且所述第二级被配置成响应于检测到所述目标声音而从所述缓冲器接收所述音频数据。2.如权利要求1所述的设备，其中所述二元目标声音分类器被进一步配置成：生成包括第一值和第二值的二元信号，其中所述第一值被设为响应于检测到所述音频数据中存在多个目标声音中的任一目标声音而激活所述第二级；以及所述第二值被设为响应于检测到所述多个目标声音中没有一个目标声音在所述音频数据中而抑制生成所述信号。3.如权利要求1所述的设备，其中所述二元目标声音分类器包括神经网络。4.如权利要求1所述的设备，其中所述二元目标声音分类器包括贝叶斯分类器或高斯混合模型(GMM)分类器中的至少一者。5.如权利要求1所述的设备，其中所述第二级包括配置成生成检测器输出的多目标声音分类器，所述检测器输出针对多个目标声音中的每个目标声音指示所述音频数据中存在或不存在该目标声音，并且其中所述多个目标声音对应于声音事件的多个类别。6.如权利要求1所述的设备，其中所述二元目标声音分类器和所述缓冲器被包括在低功率域中并且被配置成在常通模式中操作，并且其中所述第二级被配置成响应于接收到所述信号而从低功率状态转换到活跃状态。7.如权利要求1所述的设备，其中所述信号对应于唤醒中断信号。8.如权利要求1所述的设备，其中所述第一级被进一步配置成响应于所述第一级检测到目标声音而激活相机。9.如权利要求8所述的设备，进一步包括场景检测器，所述场景检测器被配置成至少部分地基于来自所述相机的输入信号来分类所述设备的环境，其中所述第二级包括多目标声音分类器，所述多目标声音分类器被配置成从声音事件的多个类别之中分类出所述音频数据，并且其中所述多目标声音分类器的操作至少部分地基于所述场景检测器所分类的环境。10.如权利要求9所述的设备，其中所述多目标声音分类器被调整以聚焦于声音事件的所述多个类别中与所述环境相对应的一个或多个特定类别。11.如权利要求9所述的设备，其中所述多目标声音分类器被进一步配置成：从声音事件类别的多个集合中选择与所述环境相对应的声音事件类别的特定集合；以及基于所述特定集合的声音事件类别来分类所述音频数据。12.如权利要求1所述的设备，其中所述目标声音检测器被配置成：从一个或多个训练数据集合之中选择与所述设备的所检测环境相对应的特定训练数据集合，并且基于所述特定训练数据集合来处理所述音频数据。13.如权利要求12所述的设备，其中所述环境基于相机、位置检测系统、或音频场景检
测器中的至少一者来被检测。14.如权利要求1所述的设备，进一步包括音频场景检测器，所述音频场景检测器被配置成：响应于所述二元目标声音分类器检测到所述音频数据中存在多个目标声音中的任一目标声音而被激活，所述音频场景检测器包括：音频场景改变检测器，所述音频场景改变检测器被配置成处理所述音频数据以及响应于检测到音频场景改变而生成场景改变信号；以及音频场景分类器，所述音频场景分类器被配置成响应于检测到所述音频场景改变而从所述缓冲器接收所述音频数据。15.如权利要求14所述的设备，其中所述音频场景分类器被配置成根据多个音频场景类别来分类所述音频数据，所述多个音频场景类别包括以下至少两者：在家里、在办公室中、在餐厅中、在汽车中、在火车上、在街道上、室内或室外。16.如权利要求14所述的设备，其中所述音频场景改变检测器被进一步配置成：基于检测噪声统计或非平稳声音统计中的至少一者的改变来检测所述音频场景改变。17.如权利要求14所述的设备，其中所述音频场景改变检测器包括使用与场景之间的转换相对应的音频数据来训练的分类器。18.如权...

【专利技术属性】
技术研发人员：P，
申请(专利权)人：高通股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人