自适应声音事件分类制造技术

技术编号:38228148 阅读:8 留言:0更新日期:2023-07-25 17:57
一种设备包括一个或多个处理器,该一个或多个处理器被配置成向声音事件分类模型提供音频数据样本。该一个或多个处理器还被配置成:基于声音事件分类模型的响应于音频数据样本的输出来确定音频数据样本的声音类别是否被声音事件分类模型识别出。该一个或多个处理器被进一步配置成:基于确定声音类别未被识别出,确定声音事件分类模型是否对应于与音频数据样本相关联的音频场景。该一个或多个处理器还被配置成:基于确定声音事件分类模型对应于与音频数据样本相关联的音频场景,存储基于音频数据样本的模型更新数据。频数据样本的模型更新数据。频数据样本的模型更新数据。

【技术实现步骤摘要】
【国外来华专利技术】自适应声音事件分类
[0001]I.优先权要求
[0002]本申请要求于2020年11月24日提交的共同拥有的美国非临时专利申请No.17/102,724的优先权权益,其内容通过援引整体明确纳入于此。
[0003]II.领域
[0004]本公开一般涉及自适应声音事件分类。
[0005]III.相关技术描述
[0006]技术进步已导致更小且更强大的计算设备。例如,当前存在各种各样的便携式个人计算设备,包括小型、轻量级且易于用户携带的无线电话(诸如移动和智能电话、平板设备和膝上型计算机)。这些设备可以在无线网络上传达语音和数据分组。此外,许多此类设备结合了附加功能性,诸如数字静止相机、数字视频相机、数字录音机和音频文件播放器。此外,此类设备可以处理可执行指令,包括可用于访问因特网的软件应用(诸如web浏览器应用)。如此,这些设备可以包括重要的计算能力,包括例如尝试识别音频信号中的声音事件(例如,摔门、汽车喇叭等)的声音事件分类(SEC)系统。
[0007]SEC系统一般使用监督式机器学习技术进行训练以识别经标记训练数据中所标识的一组特定声音。结果,每个SEC系统都倾向于特定领域(例如,能够对一组预定声音进行分类)。在该SEC系统被训练之后,难以更新该SEC系统以识别未在经标记训练数据中所标识的新声音类别。附加地,SEC系统被训练以检测的一些声音类别可表示具有相较于经标记训练数据中所表示的更多变体的声音事件。为了解说,经标记训练数据可包括许多不同门铃的音频数据样本,但不太可能包括门铃声音的所有现有变体。重新训练SEC系统以识别用于训练SEC系统的训练数据中未表示的新声音可涉及使用新经标记训练数据集来完全重新训练SEC系统;除了原始训练数据之外,该新经标记训练数据集还包括该新声音的示例。结果,训练SEC系统以识别新声音(无论是针对新声音类别还是针对现有声音类别的变体)需要与生成全新SEC系统大致相同的计算资源(例如,处理器循环、存储器等)。此外,随时间推移,随着更多的声音被添加以被识别,必须被维持和用于训练SEC系统的音频数据样本的数目可能变得难处理。
[0008]IV.概述
[0009]在特定方面,一种设备包括一个或多个处理器,该一个或多个处理器被配置成:向声音事件分类模型提供音频数据样本,以及接收该声音事件分类模型的响应于这些音频数据样本的输出。该一个或多个处理器还被配置成:基于该输出来确定这些音频数据样本的声音类别是否被该声音事件分类模型识别出。该一个或多个处理器被进一步配置成:基于确定该声音类别未被识别出,确定该声音事件分类模型是否对应于与这些音频数据样本相关联的音频场景。该一个或多个处理器还被配置成:基于确定该声音事件分类模型对应于与这些音频数据样本相关联的该音频场景,存储基于这些音频数据样本的模型更新数据。在特定方面,一种方法包括由一个或多个处理器提供音频数据样本作为声音事件分类模型的输入。该方法还包括由该一个或多个处理器基于该声音事件分类模型的响应于这些音频数据样本的输出来确定这些音频数据样本的声音类别是否被该声音事件分类模型识别出。
该方法进一步包括:基于确定该声音类别未被识别出,由该一个或多个处理器确定该声音事件分类模型是否对应于与这些音频数据样本相关联的音频场景。该方法还包括:基于确定该声音事件分类模型对应于与这些音频数据样本相关联的该音频场景,由该一个或多个处理器存储基于这些音频数据样本的模型更新数据。
[0010]在特定方面,一种设备包括用于向声音事件分类模型提供音频数据样本的装置。该设备还包括用于基于该声音分类模型的输出来确定这些音频数据样本的声音类别是否被该声音事件分类模型识别出的装置。该设备进一步包括用于响应于确定该声音类别未被识别出而确定该声音事件分类模型是否对应于与这些音频数据样本相关联的音频场景的装置。该设备还包括用于响应于确定该声音事件分类模型对应于与这些音频数据样本相关联的该音频场景来存储基于这些音频数据样本的模型更新数据的装置。
[0011]在特定方面,一种包括指令的非瞬态计算机可读存储介质,这些指令在由处理器执行时使该处理器提供音频数据样本作为声音事件分类模型的输入。这些指令在由处理器执行时还使该处理器基于该声音事件分类模型的响应于这些音频数据样本的输出来确定这些音频数据样本的声音类别是否被该声音事件分类模型识别出。这些指令在由处理器执行时进一步使该处理器:基于确定该声音类别未被识别出,确定该声音事件分类模型是否对应于与这些音频数据样本相关联的音频场景。这些指令在由处理器执行时还使该处理器:基于确定该声音事件分类模型对应于与这些音频数据样本相关联的该音频场景,存储基于这些音频数据样本的模型更新数据。
[0012]本公开的其他方面、优点、和特征将在阅读整个申请后变得明了,整个申请包括以下章节:附图简述、详细描述、以及权利要求。
[0013]V.附图简述
[0014]图1是被配置成响应于音频数据样本而生成声音标识数据并被配置成更新声音事件分类模型的设备的示例的框图。
[0015]图2是解说根据特定示例的更新声音事件分类模型以计及漂移的各方面的示图。
[0016]图3是解说根据特定示例的更新声音事件分类模型以计及新声音类别的各方面的示图。
[0017]图4是解说图1的设备的操作的特定示例的示图。
[0018]图5是解说图1的设备的操作的另一特定示例的示图。
[0019]图6是解说图1的设备的特定示例的框图。
[0020]图7是纳入图1的设备的各方面的交通工具的解说性示例。
[0021]图8解说了纳入图1的设备的各方面的虚拟现实、混合现实或增强现实头戴式设备。
[0022]图9解说了纳入图1的设备的各方面的可穿戴电子设备。
[0023]图10解说了纳入图1的设备的各方面的语音控制扬声器系统。
[0024]图11解说了纳入图1的设备的各方面的相机。
[0025]图12解说了纳入图1的设备的各方面的移动设备。
[0026]图13解说了纳入图1的设备的各方面的空中设备。
[0027]图14解说了纳入图1的设备的各方面的头戴式设备。
[0028]图15解说了纳入图1的设备的各方面的电器。
[0029]图16是解说图1的设备的操作方法的示例的流程图。
[0030]VI.详细描述
[0031]声音事件分类模型可以使用机器学习技术来训练。例如,神经网络可以使用反向传播或其他机器学习训练技术被训练为声音事件分类器。以这种方式训练的神经网络在本文中被称为“声音事件分类模型”。以这种方式训练的声音事件分类模型可以足够小(就占用的存储空间而言)和足够简单(就在操作期间使用的计算资源而言),以便便携式计算设备存储和使用该声音事件分类模型。相比于被用于使用声音事件分类模型来执行声音事件分类的处理资源,训练声音事件分类模型的过程使用多得多的处理资源。附加地,训练过程使用大的经标记训练数据集,其包括针对声音事件分类模型正在被训练以检测的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种设备,包括:一个或多个处理器,所述一个或多个处理器被配置成:向声音事件分类模型提供音频数据样本;基于所述声音事件分类模型的响应于所述音频数据样本的输出来确定所述音频数据样本的声音类别是否被所述声音事件分类模型识别出;基于确定所述声音类别未被识别出,确定所述声音事件分类模型是否对应于与所述音频数据样本相关联的音频场景;以及基于确定所述声音事件分类模型对应于与所述音频数据样本相关联的所述音频场景,存储基于所述音频数据样本的模型更新数据。2.如权利要求1所述的设备,进一步包括话筒,所述话筒耦合到所述一个或多个处理器并且被配置成捕获与所述音频数据样本相对应的音频数据。3.如权利要求1所述的设备,进一步包括存储器,所述存储器耦合到所述一个或多个处理器并且被配置成存储多个声音事件分类模型,其中所述一个或多个处理器被配置成从所述多个声音事件分类模型当中选择所述声音事件分类模型。4.如权利要求3所述的设备,进一步包括一个或多个传感器,所述一个或多个传感器被配置成生成与所述音频数据样本相关联的传感器数据,其中所述一个或多个处理器被配置成基于所述传感器数据来选择所述声音事件分类模型。5.如权利要求4所述的设备,其中所述一个或多个传感器包括相机和定位传感器。6.如权利要求3所述的设备,进一步包括一个或多个输入设备,所述一个或多个输入设备被配置成接收标识所述音频场景的输入,其中所述一个或多个处理器被配置成基于所述音频场景来选择所述声音事件分类模型。7.如权利要求3所述的设备,其中所述一个或多个处理器被配置成基于所述音频数据样本何时被接收到来选择所述声音事件分类模型。8.如权利要求3所述的设备,其中所述存储器进一步存储指示一个或多个设备设置的设置数据,并且其中所述一个或多个处理器被配置成基于所述设置数据来选择所述声音事件分类模型。9.如权利要求1所述的设备,其中所述一个或多个处理器被进一步配置成基于确定所述声音类别被识别出而生成指示与所述音频数据样本相关联的所述声音类别的输出。10.如权利要求1所述的设备,其中所述一个或多个处理器被进一步配置成:基于确定所述声音事件分类模型不对应于与所述音频数据样本相关联的所述音频场景,将与所述音频数据样本相对应的音频数据存储为用于新声音事件分类模型的训练数据。11.如权利要求1所述的设备,其中所述声音事件分类模型被进一步配置成生成与所述输出相关联的置信度量,并且其中所述一个或多个处理器被配置成基于所述置信度量来确定所述声音类别是否被所述声音事件分类模型识别出。12.如权利要求1所述的设备,其中所述一个或多个处理器被进一步配置成基于所述模型更新数据来更新所述声音事件分类模型。13.如权利要求1所述的设备,进一步包括一个或多个输入设备,所述一个或多个输入设备被配置成接收标识所述音频场景的输入,其中所述一个或多个处理器被配置成基于所述输入来确定所述声音事件分类模型是否对应于所述音频场景。
14.如权利要求1所述的设备,进一步包括一个或多个传感器,所述一个或多个传感器被配置成生成与所述音频数据样本相关联的传感器数据,其中所述一个或多个处理器被配置成基于所述传感器数据来确定所述声音事件分类模型是否对应于所述音频场景。15.如权利要求14所述的设备,其中所述一个或多个传感器包括相机和定位传感器。16.如权利要求14所述的设备,其中所述一个或多个处理器被进一步配置成基于与所述音频数据样本相关联的时间戳来确定所述声音事件分类模型是否对应于所述音频场景。17.如权利要求1所述的设备,其中所述声音事件分类模型被训练以识别特定声音类别,并且所述模型更新数据包括漂移数据,所述漂移数据表示所述特定声音...

【专利技术属性】
技术研发人员:F
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1