用于检测声音事件的装置和方法以及存储介质制造方法及图纸

技术编号:29704677 阅读:15 留言:0更新日期:2021-08-17 14:33
本公开内容涉及用于检测声音事件的装置、用于检测声音事件的方法及其上存储有程序的计算机可读存储介质。根据本公开内容的一个实施例,该用于检测声音事件的装置,包括:变换单元,被配置成通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据;以及声音事件分类器,被配置成通过使用神经网络处理复数谱数据来确定声音事件关于多种候选事件类型的概率。本公开内容的方法、装置和存储介质至少能有助于实现如下效果之一:区分更多类型的声音事件,以及改善声音事件检测的准确度。

【技术实现步骤摘要】
用于检测声音事件的装置和方法以及存储介质
本公开内容涉及事件检测,尤其涉及用于检测声音事件的方法、装置及存储介质。
技术介绍
声音携带着大量与日常生活中所接触的环境有关的环境信息,例如环境中发生的各种事件的事件信息。这些事件信息对于环境检测、事件检测是有用的。随着深度学习的发展,智能系统有能力利用神经网络、人工智能模型、分类器通过对声音数据的处理而识别环境中所发生的事件。例如,使用分类器基于声音数据确定声音数据所对应的事件类型或声音数据所包含的事件类型。事件类型例如包括:玻璃碎裂、金属撞击及机动车驶过等。目前检测声音事件的方法多关注从频域幅度谱获得的信息。充分利用声音数据,提高用于检测声音事件的分类器的性能是具有挑战的。
技术实现思路
在下文中将给出关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,此概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。专利技术人对于用于检测声音事件的分类器有以下构思。通过对表征声音事件的波形的声音数据进行变换可以得到信息不仅包括幅度,还具有相位。虽然人类听觉对声音的相位不敏感,但是对于基于神经网络的检测声音事件的分类器来说,更多的类型的数据,意味着可以从更多的维度分析问题、解决问题。因此,使用合适的数据处理方法,将相位也纳入分析范围,有可能改善用于检测声音事件的分类器的性能。<br>根据本公开内容的一个方面,提供了一种用于检测声音事件的装置,其特征在于,装置包括:变换单元,被配置成通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据;以及声音事件分类器,被配置成通过使用神经网络处理复数谱数据来确定声音事件关于多种候选事件类型的概率。根据本公开内容的一个方面,提供了一种用于检测声音事件的方法,包括:通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据;以及通过使用基于神经网络的声音事件分类器处理复数谱数据来确定声音事件关于多种候选事件类型的概率。根据本公开内容的另一方面,提供了一种其上存储有程序的计算机可读存储介质,在程序由至少一个处理器执行时,程序使得至少一个处理器实现用于检测声音事件的方法,其中,方法包括:通过对表征声音事件的波形的声音数据进行傅里叶变换确定包括与波形的幅度和相位有关的多个复数向量的复数谱数据;以及通过使用基于神经网络的声音事件分类器处理复数谱数据来确定声音事件关于多种候选事件类型的概率。本公开内容的方法、装置和存储介质至少能有助于实现如下效果之一:区分更多类型的声音事件,以及改善声音事件检测的准确度。附图说明参照附图下面说明本公开内容的实施例,这将有助于更加容易地理解本公开内容的以上和其他目的、特点和优点。附图只是为了示出本公开内容的原理。在附图中不必依照比例绘制出单元的尺寸和相对位置。相同的附图标记可以表示相同的特征。在附图中:图1示出了根据本公开内容的一个实施例的用于检测声音事件的装置;图2示出了根据本公开内容的一个实施例的声音事件分类器;图3示出了根据本公开内容的一个实施例的特征提取单元;图4示出了根据本公开内容的一个实施例的复数卷积单元;图5示出了根据本公开内容的一个实施例的在时间步方向展开的复数序列网络示意图;图6示出了根据本公开内容的一个实施例的复数序列网络;图7示出了根据本公开内容的一个实施例的用于检测声音事件的方法的流程图;图8示出了根据本公开内容的一个实施例的用于训练基于神经网络的声音事件分类器的方法的流程图;以及图9示出了根据本公开内容的一个实施例的信息处理设备的示例性框图。具体实施方式在下文中将结合附图对本公开内容的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施例的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施例的不同而有所改变。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开内容,在附图中仅仅示出了与根据本公开内容的方案密切相关的装置结构,而省略了与本公开内容关系不大的其他细节。应理解的是,本公开内容并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中,在可行的情况下,实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。本公开内容的一个方面提供用于检测声音事件的装置。下面参照图1对该装置进行示例性描述。图1示出了根据本公开内容的一个实施例的用于检测声音事件的装置10。装置10包括变换单元101和声音事件分类器103。如图1中所示,变换单元101接收表征声音事件的波形的声音数据Ds并对声音数据进行处理,其中,所述处理包括傅里叶变换。优选的,选择短时傅里叶变换对声音数据进行变换。通过傅里叶变换可以输出多个复数向量,每个复数向量是由波形的幅度信息和相位信息共同确定,因此,复数向量与波形的幅度和相位有关。这些复数向量构成本公开内中的复数谱数据Dc。本公开内容中复数向量用符号V来指示,V可以用式(1)来表示。V=vR+ivI(1)其中,vR和vI为实数向量。声音事件分类器103是基于神经网络的分类器,其接收变换单元101输出的包括复数向量的复数谱数据Dc。在存储Dc时,复数谱数据Dc可以被存储为由Dc中的复数的实部构成的实部矩阵和由Dc中的复数的虚部构成的虚部矩阵。声音事件分类器103可以通过使用神经网络对复数谱数据Dc进行处理来确定声音数据Ds中所包含的事件关于多种候选事件类型的概率p1,p2,……。并且可以将声音事件分类器103进一步被配置成输出声音数据中所包含的事件的标签(即,事件类型)和该标签所对应的概率。例如,声音事件分类器103可以被配置成:输出最大概率所对应的事件类型作为声音数据所表征的事件的事件类型标签。本公开内容的声音事件分类器使用复合有波形的幅度和相位信息的用复数表示的复数特征以充分使用声音数据来对声音事件进行检测,使得有可能区分更多的声音事件类型和/或提高检测结果的准确度。下面参照图2描述本公开内容的一种示例性的声音事件分类器。该声音事件分类器能够针对包括复数向量的复数谱数据Dc进行处理。图2示出了根据本公开内容的一个实施例的声音事件分类器23。声音事件分类器23包括特征提取单元201、上下文信息提取单元203和概率确定单元203。如图2中所示,特征提取单元201接收包含复数向量的复数谱数据Dc。特征提取单元201可以从复数谱数据Dc提取特征,考虑到该特征是通过深度神经网络提取的,所以以下将其称为深度特征,并用符号x指代。特征提取单元201包括能本文档来自技高网...

【技术保护点】
1.一种用于检测声音事件的装置,其特征在于,所述装置包括:/n变换单元,被配置成通过对表征所述声音事件的波形的声音数据进行傅里叶变换确定包括与所述波形的幅度和相位有关的多个复数向量的复数谱数据;以及/n声音事件分类器,被配置成通过使用神经网络处理所述复数谱数据来确定所述声音事件关于多种候选事件类型的概率。/n

【技术特征摘要】
1.一种用于检测声音事件的装置,其特征在于,所述装置包括:
变换单元,被配置成通过对表征所述声音事件的波形的声音数据进行傅里叶变换确定包括与所述波形的幅度和相位有关的多个复数向量的复数谱数据;以及
声音事件分类器,被配置成通过使用神经网络处理所述复数谱数据来确定所述声音事件关于多种候选事件类型的概率。


2.根据权利要求1所述的装置,其中,所述声音事件分类器包括:
特征提取单元,被配置成通过执行关于所述复数谱数据的二维卷积来从所述复数谱数据提取深度特征;
上下文信息提取单元,被配置成通过使用复数序列网络在时间上整合所述深度特征来提取表征所述声音事件的上下文信息的上下文信息特征;以及
概率确定单元,被配置成基于由所述上下文信息提取单元输出的所述上下文信息特征确定所述声音事件关于所述多种候选事件类型的概率。


3.根据权利要求2所述的装置,其中,所述特征提取单元包括卷积神经网络和堆叠单元,所述卷积神经网络包括以层叠式结构连接的多个复数卷积单元,所述多个复数卷积单元中的每个被配置成执行复数二维卷积,并且所述堆叠单元被配置成将所述卷积神经网络输出的特征图从三维变为二维以输出所述深度特征。


4.根据权利要求3所述的装置,其中,所述多个复数卷积单元中的每个包括卷积计算单元、归一化单元、激活单元和最大池化单元。


5.根据权利要求3所述的装置,其中,所述复数序列网络包括以层叠式结构连接多个门控激活时间卷积单元,并且所述多个门控激活时间卷积单元中的每个包括一维扩张卷积单元和门控激活单元。


6.根据权利要求5所述的装...

【专利技术属性】
技术研发人员:林慧镔石自强刘柳刘汝杰
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1