用于检测声音事件的装置和方法以及存储介质制造方法及图纸

技术编号：29704677 阅读：15 留言：0更新日期：2021-08-17 14:33

本公开内容涉及用于检测声音事件的装置、用于检测声音事件的方法及其上存储有程序的计算机可读存储介质。根据本公开内容的一个实施例，该用于检测声音事件的装置，包括：变换单元，被配置成通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据；以及声音事件分类器，被配置成通过使用神经网络处理复数谱数据来确定声音事件关于多种候选事件类型的概率。本公开内容的方法、装置和存储介质至少能有助于实现如下效果之一：区分更多类型的声音事件，以及改善声音事件检测的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
用于检测声音事件的装置和方法以及存储介质
本公开内容涉及事件检测，尤其涉及用于检测声音事件的方法、装置及存储介质。
技术介绍
声音携带着大量与日常生活中所接触的环境有关的环境信息，例如环境中发生的各种事件的事件信息。这些事件信息对于环境检测、事件检测是有用的。随着深度学习的发展，智能系统有能力利用神经网络、人工智能模型、分类器通过对声音数据的处理而识别环境中所发生的事件。例如，使用分类器基于声音数据确定声音数据所对应的事件类型或声音数据所包含的事件类型。事件类型例如包括：玻璃碎裂、金属撞击及机动车驶过等。目前检测声音事件的方法多关注从频域幅度谱获得的信息。充分利用声音数据，提高用于检测声音事件的分类器的性能是具有挑战的。
技术实现思路
在下文中将给出关于本公开内容的简要概述，以便提供关于本公开内容的某些方面的基本理解。应当理解，此概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分，也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。专利技术人对于用于检测声音事件的分类器有以下构思。通过对表征声音事件的波形的声音数据进行变换可以得到信息不仅包括幅度，还具有相位。虽然人类听觉对声音的相位不敏感，但是对于基于神经网络的检测声音事件的分类器来说，更多的类型的数据，意味着可以从更多的维度分析问题、解决问题。因此，使用合适的数据处理方法，将相位也纳入分析范围，有可能改善用于检测声音事件的分类器的性能。<...

【技术保护点】
1.一种用于检测声音事件的装置，其特征在于，所述装置包括：/n变换单元，被配置成通过对表征所述声音事件的波形的声音数据进行傅里叶变换确定包括与所述波形的幅度和相位有关的多个复数向量的复数谱数据；以及/n声音事件分类器，被配置成通过使用神经网络处理所述复数谱数据来确定所述声音事件关于多种候选事件类型的概率。/n

【技术特征摘要】
1.一种用于检测声音事件的装置，其特征在于，所述装置包括：
变换单元，被配置成通过对表征所述声音事件的波形的声音数据进行傅里叶变换确定包括与所述波形的幅度和相位有关的多个复数向量的复数谱数据；以及
声音事件分类器，被配置成通过使用神经网络处理所述复数谱数据来确定所述声音事件关于多种候选事件类型的概率。

2.根据权利要求1所述的装置，其中，所述声音事件分类器包括：
特征提取单元，被配置成通过执行关于所述复数谱数据的二维卷积来从所述复数谱数据提取深度特征；
上下文信息提取单元，被配置成通过使用复数序列网络在时间上整合所述深度特征来提取表征所述声音事件的上下文信息的上下文信息特征；以及
概率确定单元，被配置成基于由所述上下文信息提取单元输出的所述上下文信息特征确定所述声音事件关于所述多种候选事件类型的概率。

3.根据权利要求2所述的装置，其中，所述特征提取单元包括卷积神经网络和堆叠单元，所述卷积神经网络包括以层叠式结构连接的多个复数卷积单元，所述多个复数卷积单元中的每个被配置成执行复数二维卷积，并且所述堆叠单元被配置成将所述卷积神经网络输出的特征图从三维变为二维以输出所述深度特征。

4.根据权利要求3所述的装置，其中，所述多个复数卷积单元中的每个包括卷积计算单元、归一化单元、激活单元和最大池化单元。

5.根据权利要求3所述的装置，其中，所述复数序列网络包括以层叠式结构连接多个门控激活时间卷积单元，并且所述多个门控激活时间卷积单元中的每个包括一维扩张卷积单元和门控激活单元。

6.根据权利要求5所述的装...

【专利技术属性】
技术研发人员：林慧镔，石自强，刘柳，刘汝杰，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人