当前位置: 首页 > 专利查询>英特尔公司专利>正文

基于对事件子部分的序列的建模的声音事件检测制造技术

技术编号:21609022 阅读:22 留言:0更新日期:2019-07-13 19:27
本公开涉及基于对事件子部分的序列的建模的声音事件检测。提供了用于声音事件检测的技术。根据实施例的实现该技术的方法包括从接收到的音频信号提取声音特征。声音特征可以包括例如,音频信号的一个或多个短期傅里叶变换帧或其他频谱能量特性。该方法还包括对所提取的声音特征应用受训分类器以识别并标记音频信号的声音事件子部分并生成与这些子部分相关联的分数。该方法还包括执行声音事件子部分和相关联的分数的序列解码,以基于事件子部分的分数和时间排序来检测感兴趣的目标声音事件。在通过对包括目标声音事件的训练数据应用的无监督子空间聚类技术生成的声音事件子部分上训练分类器。

Sound Event Detection Based on Modeling Sequences of Subparts of Events

【技术实现步骤摘要】
基于对事件子部分的序列的建模的声音事件检测
本文的实施例一般地涉及基于对事件子部分的序列的建模的声音事件检测。
技术介绍
声音事件检测在与物联网(IoT)、智能家居技术、以及数字监控系统有关的应用中扮演越来越重要的角色。通常有用的是,检测/辨认系统能够对所选择的感兴趣的声音事件(例如,射击、打碎玻璃、哭泣的婴儿、或者指示可能需要相关方关注的情况的其他声音)做出响应。现有的辨认系统一般需要在包含感兴趣的事件类型的声音训练数据序列上进行训练。需要对这些事件进行标记并且必须提供这些事件在数据序列中的位置,这通常是一项耗时且昂贵的任务。另外,这些现有的系统通常不能提供这些应用中的一些应用所必需的、期望等级的精确度(例如,在检测率和错误警报率方面)。
技术实现思路
根据本公开的一方面,提供了一种处理器实现的用于检测声音事件的方法,所述方法包括:由基于处理器的系统从音频信号提取一个或多个声音特征;由所述基于处理器的系统向所提取的一个或多个声音特征应用受训分类器,以识别所述音频信号的声音事件子部分并生成与所述子部分相关联的分数;以及由所述基于处理器的系统执行所述声音事件子部分和相关联的分数的序列解码,以检测声音事件。根据本公开的另一方面,提供了一种用于声音事件检测的系统,所述系统包括:特征提取电路,其从音频信号提取声音特征;分类器电路,其基于所提取的声音特征识别所述音频信号的声音事件子部分,并生成与所述子部分相关联的分数;以及序列解码器电路,其执行所述声音事件子部分和相关联的分数的序列解码以检测声音事件。根据本公开的又一方面,提供了至少一种非暂态计算机可读存储介质,其上编码有指令,所述指令在被一个或多个处理器执行时导致用于检测声音事件的操作,所述操作包括:从音频信号提取一个或多个声音特征;向所提取的一个或多个声音特征应用受训分类器以识别所述音频信号的声音事件子部分并生成与所述子部分相关联的分数;以及执行所述声音事件子部分和相关联的分数的序列解码以检测声音事件。附图说明本专利或申请文件包含至少一幅彩图。本专利或专利申请公开和彩图的副本将由官方根据请求和必要费用的支付提供。参考附图,所请求的主题的实施例的特征和优点将随着下面的详细描述的进行而变得显而易见,其中,相同的标号描绘相似的部分。图1是根据本公开某些实施例配置的声音事件检测系统的顶级框图。图2是根据本公开某些实施例配置的聚类电路的更详细框图。图3示出了根据本公开某些实施例的声波波形、声音特征、和标记。图4示出了根据本公开某些实施例配置的受训分类器的输入和输出。图5提供了根据本公开某些实施例的事件标记和聚类标记的图形比较。图6示出了根据本公开某些实施例配置的序列解码器电路的状态。图7是示出根据本公开某些实施例的用于声音事件检测的方法的流程图。图8是示意性地示出根据本公开某些实施例的被配置为执行声音事件检测的计算平台的框图。尽管将参考说明性实施例继续进行下面的详细描述,但是其很多替代、修改、和变形将根据本公开变得显而易见。具体实施方式总体而言,本公开提供了用于基于对感兴趣的事件的子部分序列的建模进行声音事件检测的技术。声音事件一般包括多个顺序子部分,这些子部分中的每个子部分都可以具有不同的可识别特性。根据本公开将明白的是,子部分的数目根据情况而不同,但是一般包括两个以上不同的可辨别子部分。例如,打碎玻璃的声音可以包括与最初的破碎相关联的尖锐的冲击声、然后是随着破碎传遍玻璃的噼啪声、再后是随着碎片破裂并掉落到周围区域的第三种不同的声音。根据本公开,任意数目的其他的这种多部分声音事件将是显而易见的。该技术总地包括训练阶段和推理或应用阶段,并且可以被实现在例如,计算系统或者可由这种系统控制或以其他方式执行的软件产品中(尽管其他实施例将是显而易见的)。该系统或产品被配置为检测给定的整体音频信号中可能出现的一个或多个感兴趣的声音事件(例如,目标声音事件)。注意,整体音频信号本身可以包括一个或多个实际的声音事件,每个声音事件包括多个子部分。根据一个实施例,训练识别感兴趣的事件的每个声音子部分并对这些声音子部分进行评分的分类器。分类器可以是例如,深度神经网络。随后将受训分类器应用于从被提供用于分析的信号提取的声音特征,并且推断或以其他方式生成子部分分数的序列。如前所述,声音特征可以包括音频信号的短期傅里叶变换或任何其他频谱能量特性。序列解码器随后执行声音事件子部分和相关联的分数的序列解码,以辨认这些子部分的正确时间序列,根据这些子部分的正确时间序列可以确定事件检测。由于分类器有效地对给定的声音事件的多个子部分的不同特性进行建模而不是尝试辨认该事件整体,所以事件检测性能改善了(例如,更少的错误或不正确检测)。另外,由于序列解码将时间次序强加到子部分上,所以检测性能更加可靠和鲁棒。在一些这样的实施例中,在通过对包括目标声音事件的训练数据应用的无监督子空间聚类技术生成的声音事件子部分上训练分类器,如下面将更详细地解释的。无监督子空间聚类技术的使用提供的额外好处在于,不需要利用声音事件的开始点和停止点对训练数据进行注释,如下面将解释的。这个好处允许训练数据的生成更高效且合算。将明白的是,本文中描述的技术允许基于利用更精细等级的粒度对事件子部分进行建模来改善声音事件检测,这提高了分类器的辨别力(相比试图辨认事件整体的现有系统)。所公开的技术可以被实现在包括膝上型计算机、平板计算机、智能电话、工作台、嵌入系统或设备在内的各种平台上实现。这些技术尤其适合用在数字信号处理器(DSP)或其他专用超低功率硬件上。这些技术还可以被实现在硬件或软件或它们的组合中。图1是根据本公开某些实施例配置的声音事件检测系统100的顶级框图。系统100被示出为包括特征提取电路109、聚类电路102、分类器训练电路104、受训分类器106、以及序列解码器电路108。在高等级,声音事件检测系统100接收包含目标声音事件的训练数据110,并使用无监督子空间聚类在这些事件的子部分120上执行分类器训练,如下面更详细地解释的。受训分类器106随后可以被用在操作模式中,以基于聚类的子部分来检测接收到的音频信号130中的感兴趣的声音事件(例如,目标事件)。特征提取电路109、聚类电路102、以及分类器训练电路104被用在声音事件检测系统100的训练模式中。特征提取电路109、受训分类器106、以及序列解码器电路108被用在声音事件检测系统100的操作模式中。特征提取电路109被配置为从所提供的音频信号(例如,包含目标声音事件的训练数据或训练信号110、以及将在其上执行事件检测的音频信号130)提取声音特征。在一些实施例中,所提取的声音特征包括音频信号的短期傅里叶变换(STFT)帧。在一些实施例中,根据本公开,声音特征可以包括滤波器组特征、梅尔频率倒谱系数(MFCC)、频谱形状描述符、或者其他已知的声音特征度量。图3示出了从包含目标声音事件数据220的信号提取的示例声音特征160。在一些实施例中,STFT间隔或帧长度306可以大约为50毫秒(ms)。如在声音特征160中可以看到的,事件开始处的特征特性显著不同于事件中间和末尾处的特征特性。因此,通过增加下至子部分等级的建模粒度,可以将分类器训练地更适合数据。聚类电路102被本文档来自技高网...

【技术保护点】
1.一种处理器实现的用于检测声音事件的方法,所述方法包括:由基于处理器的系统从音频信号提取一个或多个声音特征;由所述基于处理器的系统向所提取的一个或多个声音特征应用受训分类器,以识别所述音频信号的声音事件子部分并生成与所述子部分相关联的分数;以及由所述基于处理器的系统执行所述声音事件子部分和相关联的分数的序列解码,以检测声音事件。

【技术特征摘要】
2017.12.07 US 15/834,8381.一种处理器实现的用于检测声音事件的方法,所述方法包括:由基于处理器的系统从音频信号提取一个或多个声音特征;由所述基于处理器的系统向所提取的一个或多个声音特征应用受训分类器,以识别所述音频信号的声音事件子部分并生成与所述子部分相关联的分数;以及由所述基于处理器的系统执行所述声音事件子部分和相关联的分数的序列解码,以检测声音事件。2.如权利要求1所述的方法,其中,所述序列解码基于所述声音事件子部分的时间排序和对所述相关联的分数与阈值分数值的比较。3.如权利要求1所述的方法,还包括:在通过对训练数据应用的子空间聚类生成的声音事件子部分上训练所述分类器,所述训练数据包括目标声音事件。4.如权利要求3所述的方法,其中,所述子空间聚类是基于k-means聚类、高斯混合模型聚类、以及DenStream聚类中的至少一者的无监督子空间聚类。5.如权利要求3所述的方法,还包括:至少针对包括目标声音事件的所述训练数据的子集生成参考注释,所述参考注释指示所述目标声音事件的子部分,并且其中,所述子空间聚类是基于约束k-means聚类、播种k-means聚类、以及高斯混合模型聚类和DenStream聚类的半监督变体中的至少一者的半监督子空间聚类。6.如权利要求1-5中任一项所述的方法,其中,所述序列解码基于加权有限状态转换器、循环神经网络(RNN)、以及长短期记忆RNN中的至少一者。7.如权利要求1-5中任一项所述的方法,其中,所提取的一个或多个声音特征包括表示所述音频信号的至少一部分的短期傅里叶变换、表示所述音频信号的至少一部分的滤波器组特征、表示所述音频信号的至少一部分的梅尔频率倒谱系数、以及表示所述音频信号的至少一部分的频谱形状描述符中的至少一者。8.如权利要求1-5中任一项所述的方法,其中,所述分类器是深度神经网络、支持向量机、决策树分类器、k最近邻分类器、随机森林分类器、梯度提升分类器、以及基于逻辑回归的分类器中的至少一者。9.一种用于声音事件检测的系统,所述系统包括:特征提取电路,其从音频信号提取声音特征;分类器电路,其基于所提取的声音特征识别所述音频信号的声音事件子部分,并生成与所述子部分相关联的分数;以及序列解码器电路,其执行所述声音事件子部分和相关联的分数的序列解码以检测声音事件。10.如权利要求9所述的系统,其中,所述序列解码基于所述声音事件子部分的时间排序和对所述相关联的分数与阈值分数值的比较。11.如权利要求9所述的系统,还包括:分类器训练电路,其在通过对训练数据应用的子空间聚类生成的声音事件子部分上训练所述分类器,所述训练数据包括目标声音事件。12.如权利要求11所述的系统,其中,所述子空间聚类是基于k-means聚类、高斯混合模型聚类、以及DenStream聚类中的至少一者的无监督子空间聚类。13.如权利要求11所述的系统,其中,所述训练数据的至少一个子集包括目标声音事件和相关联的参考注释,所述参考注释指示所述目标声音事件的子部...

【专利技术属性】
技术研发人员:库巴·洛帕特卡托比亚斯·博克雷马特乌什·考特瑞斯基
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1