声音事件检测学习制造技术

技术编号:34082965 阅读:19 留言:0更新日期:2022-07-11 19:19
一种设备,包括处理器,该处理器被配置为接收音频数据样本并将音频数据样本提供给第一神经网络以生成对应于第一组声音类别的第一输出。处理器还被配置为将音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二输出。第二组声音类别的第二类别计数大于第一组声音类别的第一类别计数。处理器还被配置为将第一输出提供给神经适配器以生成对应于第二组声音类别的第三输出。处理器还被配置为将第二输出和第三输出提供给合并适配器以基于音频数据样本生成声音事件识别数据。以基于音频数据样本生成声音事件识别数据。以基于音频数据样本生成声音事件识别数据。

【技术实现步骤摘要】
【国外来华专利技术】声音事件检测学习
[0001]要求优先权
[0002]本申请要求于2019年11月25日提交的共同拥有的美国临时专利申请第62/939,801号和2020年11月24日提交的美国非临时专利申请第17/102,797号的优先权,其中每一个的内容都明确地以全文引用的方式并入本文。


[0003]本公开整体涉及声音事件检测和更新声音事件检测模型。

技术介绍

[0004]技术的进步导致了更小且更强大的计算设备。例如,目前存在各种各样的便携式个人计算设备,包括无线电话(诸如移动电话和智能电话)、平板电脑和膝上型计算机,它们体积小、重量轻且易于用户携带。这些设备可以通过无线网络传送语音和数据包。此外,许多这样的设备包含附加功能,诸如数码相机、数码摄像机、数码记录器和音频文件播放器。此外,此类设备可以处理可执行指令,包括可用于访问互联网的软件应用程序,诸如网络浏览器应用程序。因此,这些设备可以包括显著的计算能力。
[0005]声音事件检测(SED)是最近取得进展的一个研究领域。SED尝试识别音频信号中的声音事件(例如,关门的猛然砰声、汽本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种设备,包括:处理器,所述处理器配置为:接收音频数据样本;将所述音频数据样本提供给第一神经网络,所述第一神经网络被训练以生成对应于第一组声音类别的第一类别计数的第一输出;将所述音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二类别计数的第二输出,所述第二类别计数大于所述第一类别计数;将所述第一输出提供给神经适配器以生成对应于所述第二组声音类别的所述第二类别计数的第三输出;以及将所述第二输出和所述第三输出提供给合并适配器以基于所述音频数据样本生成声音事件识别数据。2.根据权利要求1所述的设备,其中,所述第一神经网络具有基础拓扑结构和第一输出层,并且所述第二神经网络具有所述基础拓扑结构和第二输出层,并且其中,所述第一输出层包括第一节点计数,所述第二输出层包括第二节点计数,并且所述第二节点计数大于所述第一节点计数。3.根据权利要求2所述的设备,其中,所述神经适配器具有包括所述第一节点计数的输入层和包括所述第二节点计数的输出层。4.根据权利要求1所述的设备,其中,所述合并适配器被配置为逐个元素地合并所述第二输出和所述第三输出以形成合并输出。5.根据权利要求4所述的设备,其中,所述合并适配器被配置为基于所述合并输出生成包括所述声音事件识别数据的输出数据。6.根据权利要求1所述的设备,其中,所述音频数据样本包括从音频数据中提取的特征。7.根据权利要求1所述的设备,其中,所述音频数据样本包括从音频数据中提取的梅尔谱特征。8.根据权利要求1所述的设备,还包括一个或多个麦克风,所述一个或多个麦克风耦合到所述处理器并被配置为捕获音频数据以生成所述音频数据样本。9.根据权利要求8所述的设备,其中,所述处理器和所述一个或多个麦克风集成在移动计算设备内,并且所述音频数据表示所述移动计算设备的声学环境。10.根据权利要求8所述的设备,其中,所述处理器和所述一个或多个麦克风集成在载具内。11.根据权利要求8所述的设备,其中,所述处理器和所述一个或多个麦克风集成在可穿戴设备内,并且所述音频数据表示所述可穿戴设备的声学环境。12.根据权利要求8所述的设备,其中,所述处理器和所述一个或多个麦克风集成在头戴式耳机中,并且所述音频数据表示所述头戴式耳机的声学环境。13.根据权利要求1所述的设备,其中,所述处理器被包括在集成电路中。14.一种方法,包括:接收音频数据样本;由处理器将所述音频数据样本提供给第一神经网络,所述第一神经网络被训练以生成
对应于第一组声音类别的第一类别计数的第一输出;由所述处理器将所述音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二类别计数的第二输出,所述第二类别计数大于所述第一类别计数;由所述处理器将所述第一输出提供给神经适配器以生成对应于所述第二组声音类别的所述第二类别计数的第三输出;以及由所述处理器将所述第二输出和所述第三输出提供给合并适配器以基于所述音频数据样本生成声音事件识别数据。15.根据权利要求14所述的方法,其中,所述第一神经网络具有基础拓扑结构和第一输出层,并且所述第二神经网络具有所述基础拓扑结构和第二输出层,并且其中,所述第一输出层包括第一节点计数,所述第二输出层包括第二节点计数,并且所述第二节点计数大于所述第一节点计数。16.根据权利要求15所述的方法,其中,所述神经适配器具有包括所述第一节点计数的输入层和包括所述第二节点计数的...

【专利技术属性】
技术研发人员:F萨基Y郭E维瑟E许
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1