音频场景识别方法、装置、电子设备及介质制造方法及图纸

技术编号:24410149 阅读:48 留言:0更新日期:2020-06-06 08:50
本申请提供一种音频场景识别方法及装置、一种电子设备以及一种计算机可读介质。其中,所述方法包括:接收音频数据,并对所述音频数据进行音频分割,形成多个音频片段;基于所述多个音频片段进行音频事件检测,得到音频事件检测结果;根据所述音频事件检测结果及预设识别模型,对所述音频数据进行场景识别并标注。由于是首先从音频数据中识别出一段背景声音,然后通过该背景声音确定音频数据的可能边界,这种方法避免了底层音频的特征提取。通过原始音频数据的采样值来实现音频数据的分割,从而减少了人工手工标注量,提高了相关算法的运行效率,对音频标注规范提供了统一标准。

Audio scene recognition methods, devices, electronic equipment and media

【技术实现步骤摘要】
音频场景识别方法、装置、电子设备及介质
本申请涉及音频识别
,具体涉及一种音频场景识别方法及装置、一种电子设备以及一种计算机可读介质。
技术介绍
音频场景识别是指对于一个音频数据,识别出该音频数据所发生的环境,或者换句话说,音频场景识别是指通过音频信息来感知周围环境。音频场景识别技术具有非常广泛的应用价值,将其用于移动终端设备可以使设备很好地感知周围环境,进而能自动地调整设备状态。基于文本的音频检索技术,是把每段音频作为一个对象存储在数据库中,一般通过音频名字(关键字)以及文本信息对其进行标注,音频的检索,是根据该音频的关键字描述进行精确查找或模糊查找。可见,这种基于文本的音频检索技术,是通过文本检索技术进行的,音频信息在整个检索过程中没起到任何作用。现在大部分的音频检索系统都是基于文本的音频检索,如各大音乐搜索引擎目前均采用这种基于文本的音频检索方式来检索音频。现实生活中,我们接触到的声音极其广泛,从大自然的声音如风雨声、动物的叫声、流水声,到生活中各种声音如机器轰鸣、汽车发动机声,以及在计算机中接触到的各种音频、语音和合成的声音。而传统的基于文本的音频检索技术,需要人工提前对音频库中的音频进行归纳和注释,音频检索结果也完全依赖于人工标注的音频名称、编号、注释等信息。但因为每一段音频都需要进行文字标注,因此如果音频数据库较大的话,标注需要大量的人工劳动,并且这种文字标注有很强的人为主观性,对于同一段音频标注,不同人可能有不同的看法,因此标注信息将不尽一致,且少量的文字很难充分表达一个音频的内涵。
技术实现思路
本申请的目的是提供一种音频场景识别方法及装置、一种电子设备以及一种计算机可读介质。本申请第一方面提供一种音频场景识别方法,包括:接收音频数据,并对所述音频数据进行音频分割,形成多个音频片段;基于所述多个音频片段进行音频事件检测,得到音频事件检测结果;根据所述音频事件检测结果及预设识别模型,对所述音频数据进行场景识别并标注。在一些可能的实现方式中,所述对所述音频数据进行音频分割,形成多个音频片段,包括:将所述音频数据输入预设背景声音识别模型,获得所述音频数据中的背景声音;提取所述音频数据的波形值组成一个矩阵,并将该矩阵和所述背景声音都投影到特征空间中,获得所述音频数据的特征向量和所述背景声音的特征向量;计算所述音频数据的特征向量和所述背景声音的特征向量的归一化距离;根据所述归一化距离确定所述音频数据的分割点位置,根据所述分割点位置对所述音频数据进行音频分割,形成多个音频片段。在一些可能的实现方式中,所述基于所述多个音频片段进行音频事件检测,得到音频事件检测结果,包括:根据预设谱聚类算法,对所述多个音频片段进行音频事件检测,获得每个音频片段的音频事件检测结果;所述音频事件检测结果包括:音频事件发生的频率、总时间长度、重要性及标签。在一些可能的实现方式中,所述根据所述音频事件检测结果及预设识别模型,对所述音频数据进行场景识别并标注,包括:根据所述音频事件检测结果,将音频片段按照重要性进行排序,按照降序序列对音频片段在事件轴上进行扩展得到音频场景数据;通过预设识别模型对所述音频数据对应的音频场景数据进行场景识别并标注。本申请第二方面提供一种音频场景识别装置,包括:分割模块,用于接收音频数据,并对所述音频数据进行音频分割,形成多个音频片段;检测模块,用于基于所述多个音频片段进行音频事件检测,得到音频事件检测结果;识别模块,用于根据所述音频事件检测结果及预设识别模型,对所述音频数据进行场景识别并标注。在一些可能的实现方式中,所述分割模块,具体用于:将所述音频数据输入预设背景声音识别模型,获得所述音频数据中的背景声音;提取所述音频数据的波形值组成一个矩阵,并将该矩阵和所述背景声音都投影到特征空间中,获得所述音频数据的特征向量和所述背景声音的特征向量;计算所述音频数据的特征向量和所述背景声音的特征向量的归一化距离;根据所述归一化距离确定所述音频数据的分割点位置,根据所述分割点位置对所述音频数据进行音频分割,形成多个音频片段。在一些可能的实现方式中,所述检测模块,具体用于:根据预设谱聚类算法,对所述多个音频片段进行音频事件检测,获得每个音频片段的音频事件检测结果;所述音频事件检测结果包括:音频事件发生的频率、总时间长度、重要性及标签。在一些可能的实现方式中,所述识别模块,具体用于:根据所述音频事件检测结果,将音频片段按照重要性进行排序,按照降序序列对音频片段在事件轴上进行扩展得到音频场景数据;通过预设识别模型对所述音频数据对应的音频场景数据进行场景识别并标注。本申请第三方面提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现本申请第一方面所述的方法。本申请第四方面提供一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现本申请第一方面所述的方法。相较于现有技术,本申请提供的音频场景识别方法、装置、电子设备及介质,接收音频数据,并对所述音频数据进行音频分割,形成多个音频片段;基于所述多个音频片段进行音频事件检测,得到音频事件检测结果;根据所述音频事件检测结果及预设识别模型,对所述音频数据进行场景识别并标注。由于是首先从音频数据中识别出一段背景声音,然后通过该背景声音确定音频数据的可能边界,这种方法避免了底层音频的特征提取。通过原始音频数据的采样值来实现音频数据的分割,从而减少了人工手工标注量,提高了相关算法的运行效率,对音频标注规范提供了统一标准。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本申请的一些实施方式所提供的一种音频场景识别方法的流程图;图2示出了本申请的一些具体实施方式所提供的一种音频场景识别方法的流程图;图3示出了本申请的一些实施方式所提供的一种对分割的音频片段进行谱聚类的流程图;图4示出了本申请的一些实施方式所提供的一种音频场景识别装置的示意图;图5示出了本申请的一些实施方式所提供的一种电子设备的示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申本文档来自技高网
...

【技术保护点】
1.一种音频场景识别方法,其特征在于,包括:/n接收音频数据,并对所述音频数据进行音频分割,形成多个音频片段;/n基于所述多个音频片段进行音频事件检测,得到音频事件检测结果;/n根据所述音频事件检测结果及预设识别模型,对所述音频数据进行场景识别并标注。/n

【技术特征摘要】
1.一种音频场景识别方法,其特征在于,包括:
接收音频数据,并对所述音频数据进行音频分割,形成多个音频片段;
基于所述多个音频片段进行音频事件检测,得到音频事件检测结果;
根据所述音频事件检测结果及预设识别模型,对所述音频数据进行场景识别并标注。


2.根据权利要求1所述的方法,其特征在于,所述对所述音频数据进行音频分割,形成多个音频片段,包括:
将所述音频数据输入预设背景声音识别模型,获得所述音频数据中的背景声音;
提取所述音频数据的波形值组成一个矩阵,并将该矩阵和所述背景声音都投影到特征空间中,获得所述音频数据的特征向量和所述背景声音的特征向量;
计算所述音频数据的特征向量和所述背景声音的特征向量的归一化距离;
根据所述归一化距离确定所述音频数据的分割点位置,根据所述分割点位置对所述音频数据进行音频分割,形成多个音频片段。


3.根据权利要求2所述的方法,其特征在于,所述基于所述多个音频片段进行音频事件检测,得到音频事件检测结果,包括:
根据预设谱聚类算法,对所述多个音频片段进行音频事件检测,获得每个音频片段的音频事件检测结果;
所述音频事件检测结果包括:音频事件发生的频率、总时间长度、重要性及标签。


4.根据权利要求3所述的方法,其特征在于,所述根据所述音频事件检测结果及预设识别模型,对所述音频数据进行场景识别并标注,包括:
根据所述音频事件检测结果,将音频片段按照重要性进行排序,按照降序序列对音频片段在事件轴上进行扩展得到音频场景数据;
通过预设识别模型对所述音频数据对应的音频场景数据进行场景识别并标注。


5.一种音频场景识别装置,其特征在于,包括:
分割模块,用于接收音频数据,并对所述音频数据进行音频分割,形成多个音频...

【专利技术属性】
技术研发人员:陈剑超肖龙源李稀敏蔡振华刘晓葳
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1