自适应声音事件分类制造技术

技术编号：38228148 阅读：8 留言：0更新日期：2023-07-25 17:57

一种设备包括一个或多个处理器，该一个或多个处理器被配置成向声音事件分类模型提供音频数据样本。该一个或多个处理器还被配置成：基于声音事件分类模型的响应于音频数据样本的输出来确定音频数据样本的声音类别是否被声音事件分类模型识别出。该一个或多个处理器被进一步配置成：基于确定声音类别未被识别出，确定声音事件分类模型是否对应于与音频数据样本相关联的音频场景。该一个或多个处理器还被配置成：基于确定声音事件分类模型对应于与音频数据样本相关联的音频场景，存储基于音频数据样本的模型更新数据。频数据样本的模型更新数据。频数据样本的模型更新数据。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】自适应声音事件分类
[0001]I.优先权要求
[0002]本申请要求于2020年11月24日提交的共同拥有的美国非临时专利申请No.17/102,724的优先权权益，其内容通过援引整体明确纳入于此。
[0003]II.领域
[0004]本公开一般涉及自适应声音事件分类。
[0005]III.相关技术描述
[0006]技术进步已导致更小且更强大的计算设备。例如，当前存在各种各样的便携式个人计算设备，包括小型、轻量级且易于用户携带的无线电话(诸如移动和智能电话、平板设备和膝上型计算机)。这些设备可以在无线网络上传达语音和数据分组。此外，许多此类设备结合了附加功能性，诸如数字静止相机、数字视频相机、数字录音机和音频文件播放器。此外，此类设备可以处理可执行指令，包括可用于访问因特网的软件应用(诸如web浏览器应用)。如此，这些设备可以包括重要的计算能力，包括例如尝试识别音频信号中的声音事件(例如，摔门、汽车喇叭等)的声音事件分类(SEC)系统。
[0007]SEC系统一般使用监督式机器学习技术进行训练以识别经标记训练数据中所标识的一组特定声音。结果，每个SEC系统都倾向于特定领域(例如，能够对一组预定声音进行分类)。在该SEC系统被训练之后，难以更新该SEC系统以识别未在经标记训练数据中所标识的新声音类别。附加地，SEC系统被训练以检测的一些声音类别可表示具有相较于经标记训练数据中所表示的更多变体的声音事件。为了解说，经标记训练数据可包括许多不同门铃的音频数据样本，但不太可能包括门铃声音的所有现有变体。重新训...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种设备，包括：一个或多个处理器，所述一个或多个处理器被配置成：向声音事件分类模型提供音频数据样本；基于所述声音事件分类模型的响应于所述音频数据样本的输出来确定所述音频数据样本的声音类别是否被所述声音事件分类模型识别出；基于确定所述声音类别未被识别出，确定所述声音事件分类模型是否对应于与所述音频数据样本相关联的音频场景；以及基于确定所述声音事件分类模型对应于与所述音频数据样本相关联的所述音频场景，存储基于所述音频数据样本的模型更新数据。2.如权利要求1所述的设备，进一步包括话筒，所述话筒耦合到所述一个或多个处理器并且被配置成捕获与所述音频数据样本相对应的音频数据。3.如权利要求1所述的设备，进一步包括存储器，所述存储器耦合到所述一个或多个处理器并且被配置成存储多个声音事件分类模型，其中所述一个或多个处理器被配置成从所述多个声音事件分类模型当中选择所述声音事件分类模型。4.如权利要求3所述的设备，进一步包括一个或多个传感器，所述一个或多个传感器被配置成生成与所述音频数据样本相关联的传感器数据，其中所述一个或多个处理器被配置成基于所述传感器数据来选择所述声音事件分类模型。5.如权利要求4所述的设备，其中所述一个或多个传感器包括相机和定位传感器。6.如权利要求3所述的设备，进一步包括一个或多个输入设备，所述一个或多个输入设备被配置成接收标识所述音频场景的输入，其中所述一个或多个处理器被配置成基于所述音频场景来选择所述声音事件分类模型。7.如权利要求3所述的设备，其中所述一个或多个处理器被配置成基于所述音频数据样本何时被接收到来选择所述声音事件分类模型。8.如权利要求3所述的设备，其中所述存储器进一步存储指示一个或多个设备设置的设置数据，并且其中所述一个或多个处理器被配置成基于所述设置数据来选择所述声音事件分类模型。9.如权利要求1所述的设备，其中所述一个或多个处理器被进一步配置成基于确定所述声音类别被识别出而生成指示与所述音频数据样本相关联的所述声音类别的输出。10.如权利要求1所述的设备，其中所述一个或多个处理器被进一步配置成：基于确定所述声音事件分类模型不对应于与所述音频数据样本相关联的所述音频场景，将与所述音频数据样本相对应的音频数据存储为用于新声音事件分类模型的训练数据。11.如权利要求1所述的设备，其中所述声音事件分类模型被进一步配置成生成与所述输出相关联的置信度量，并且其中所述一个或多个处理器被配置成基于所述置信度量来确定所述声音类别是否被所述声音事件分类模型识别出。12.如权利要求1所述的设备，其中所述一个或多个处理器被进一步配置成基于所述模型更新数据来更新所述声音事件分类模型。13.如权利要求1所述的设备，进一步包括一个或多个输入设备，所述一个或多个输入设备被配置成接收标识所述音频场景的输入，其中所述一个或多个处理器被配置成基于所述输入来确定所述声音事件分类模型是否对应于所述音频场景。
14.如权利要求1所述的设备，进一步包括一个或多个传感器，所述一个或多个传感器被配置成生成与所述音频数据样本相关联的传感器数据，其中所述一个或多个处理器被配置成基于所述传感器数据来确定所述声音事件分类模型是否对应于所述音频场景。15.如权利要求14所述的设备，其中所述一个或多个传感器包括相机和定位传感器。16.如权利要求14所述的设备，其中所述一个或多个处理器被进一步配置成基于与所述音频数据样本相关联的时间戳来确定所述声音事件分类模型是否对应于所述音频场景。17.如权利要求1所述的设备，其中所述声音事件分类模型被训练以识别特定声音类别，并且所述模型更新数据包括漂移数据，所述漂移数据表示所述特定声音...

【专利技术属性】
技术研发人员：F，
申请(专利权)人：高通股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人