音频场景识别方法、装置、电子设备及介质制造方法及图纸

技术编号：24410149 阅读：52 留言：0更新日期：2020-06-06 08:50

本申请提供一种音频场景识别方法及装置、一种电子设备以及一种计算机可读介质。其中，所述方法包括：接收音频数据，并对所述音频数据进行音频分割，形成多个音频片段；基于所述多个音频片段进行音频事件检测，得到音频事件检测结果；根据所述音频事件检测结果及预设识别模型，对所述音频数据进行场景识别并标注。由于是首先从音频数据中识别出一段背景声音，然后通过该背景声音确定音频数据的可能边界，这种方法避免了底层音频的特征提取。通过原始音频数据的采样值来实现音频数据的分割，从而减少了人工手工标注量，提高了相关算法的运行效率，对音频标注规范提供了统一标准。

Audio scene recognition methods, devices, electronic equipment and media

全部详细技术资料下载

【技术实现步骤摘要】
音频场景识别方法、装置、电子设备及介质
本申请涉及音频识别
，具体涉及一种音频场景识别方法及装置、一种电子设备以及一种计算机可读介质。
技术介绍
音频场景识别是指对于一个音频数据，识别出该音频数据所发生的环境，或者换句话说，音频场景识别是指通过音频信息来感知周围环境。音频场景识别技术具有非常广泛的应用价值，将其用于移动终端设备可以使设备很好地感知周围环境，进而能自动地调整设备状态。基于文本的音频检索技术，是把每段音频作为一个对象存储在数据库中，一般通过音频名字(关键字)以及文本信息对其进行标注，音频的检索，是根据该音频的关键字描述进行精确查找或模糊查找。可见，这种基于文本的音频检索技术，是通过文本检索技术进行的，音频信息在整个检索过程中没起到任何作用。现在大部分的音频检索系统都是基于文本的音频检索，如各大音乐搜索引擎目前均采用这种基于文本的音频检索方式来检索音频。现实生活中，我们接触到的声音极其广泛，从大自然的声音如风雨声、动物的叫声、流水声，到生活中各种声音如机器轰鸣、汽车发动机声，以及在计算机中接触...

【技术保护点】
1.一种音频场景识别方法，其特征在于，包括：/n接收音频数据，并对所述音频数据进行音频分割，形成多个音频片段；/n基于所述多个音频片段进行音频事件检测，得到音频事件检测结果；/n根据所述音频事件检测结果及预设识别模型，对所述音频数据进行场景识别并标注。/n

【技术特征摘要】
1.一种音频场景识别方法，其特征在于，包括：
接收音频数据，并对所述音频数据进行音频分割，形成多个音频片段；
基于所述多个音频片段进行音频事件检测，得到音频事件检测结果；
根据所述音频事件检测结果及预设识别模型，对所述音频数据进行场景识别并标注。

2.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行音频分割，形成多个音频片段，包括：
将所述音频数据输入预设背景声音识别模型，获得所述音频数据中的背景声音；
提取所述音频数据的波形值组成一个矩阵，并将该矩阵和所述背景声音都投影到特征空间中，获得所述音频数据的特征向量和所述背景声音的特征向量；
计算所述音频数据的特征向量和所述背景声音的特征向量的归一化距离；
根据所述归一化距离确定所述音频数据的分割点位置，根据所述分割点位置对所述音频数据进行音频分割，形成多个音频片段。

3.根据权利要求2所述的方法，其特征在于，所述基于所述多个音频片段进行音频事件检测，得到音频事件检测结果，包括：
根据预设谱聚类算法，对所述多个音频片段进行音频事件检测，获得每个音频片段的音频事件检测结果；
所述音频事件检测结果包括：音频事件发生的频率、总时间长度、重要性及标签。

4.根据权利要求3所述的方法，其特征在于，所述根据所述音频事件检测结果及预设识别模型，对所述音频数据进行场景识别并标注，包括：
根据所述音频事件检测结果，将音频片段按照重要性进行排序，按照降序序列对音频片段在事件轴上进行扩展得到音频场景数据；
通过预设识别模型对所述音频数据对应的音频场景数据进行场景识别并标注。

5.一种音频场景识别装置，其特征在于，包括：
分割模块，用于接收音频数据，并对所述音频数据进行音频分割，形成多个音频...

【专利技术属性】
技术研发人员：陈剑超，肖龙源，李稀敏，蔡振华，刘晓葳，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人