一种音频事件检测模型生成方法、装置、设备及存储介质制造方法及图纸

技术编号：40841654 阅读：6 留言：0更新日期：2024-04-01 15:08

本申请公开了一种音频事件检测模型生成方法、装置、设备及存储介质，涉及音频事件检测技术领域。该方法包括：对获取到的N个原始音频数据进行标注，得到标注后的N个目标音频数据，以及N个目标音频数据各自的标签信息，N为大于1的整数；对N个目标音频数据进行特征提取，得到N个目标音频数据的第一特征向量数据；基于扩散模型以及设定的增强模式，对第一特征向量数据进行特征增强，得到增强后的特征向量数据；对该增强后的特征向量数据进行筛选，得到符合筛选要求的目标特征向量数据；根据N个目标音频数据各自的标签信息、第一特征向量数据，以及目标特征向量数据，生成音频事件检测模型，用以提高音频事件检测模型的泛化性和检测性能。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音频事件检测，尤其涉及一种音频事件检测模型生成方法、装置、设备及存储介质。

技术介绍

1、近几年，随着声学技术在不断发展，音频事件检测技术在机器人技术、智能家居、医疗保健以及基于音频的索引和检索等领域有着广泛的应用。音频事件检测是从连续音频数据当中检测是否发生了某类事件，这些事件可能包括噪音、哭声等。

2、音频事件检测模型离不开数量庞大、质量可靠及标签完善的音频数据集的支持，且部分音频事件类别较为罕见，比如枪声数据。在实际场景中，对真实的枪声数据进行大量采集、解析、处理等，较为困难且成本较高，进而导致音频事件检测模型的训练更加困难，泛化性能较差。

技术实现思路

1、本申请提供了一种音频事件检测模型生成方法、装置、设备及存储介质，用以提高音频事件检测模型的泛化性和检测性能。

2、第一方面，提供一种音频事件检测模型生成方法，包括：

3、对获取到的n个原始音频数据进行标注，得到标注后的n个目标音频数据，以及所述n个目标音频数据各自的标签信息，所述n为大于1的整数；

4、对所述n个目标音频数据进行特征提取，得到所述n个目标音频数据的第一特征向量数据；

5、基于扩散模型以及设定的增强模式，对所述第一特征向量数据进行特征增强，得到增强后的特征向量数据；

6、对所述增强后的特征向量数据进行筛选，得到符合筛选要求的目标特征向量数据；

7、根据所述n个目标音频数据各自的标签信息、所述第一特征向量数据，以及所

8、本申请实施例中，技术效果如下：

9、由于经过对原始音频数据的标注，以及对目标音频数据的提特征提取后，可将上述的音频数据进行标记，并将音频数据从时域信号转化为方便处理的第一特征向量数据，更加适合后续音频事件检测模型的构建；再由于基于扩散模型以及设定的增强模式，对该第一特征向量数据进行特征增强，因此增加了第一特征向量数据的多样性，针对稀缺的音频数据也无需进行大量采集，也节约了音频事件检测模型的构建成本；再由于针对增强后的特征向量数据进行筛选，因此可保证特征向量数据的质量，也保证了后续生成的音频事件检测模型具有较好的泛化性和检测性能。

10、在一种可能实现的方式中，所述基于扩散模型以及设定的增强模式，对所述第一特征向量数据进行特征增强，得到增强后的特征向量数据，包括：

11、当所述设定的增强模式为在线模式时，将所述第一特征向量数据编码成第一低维数据，并在所述扩散模型中加入第一随机噪声，根据所述第一随机噪声对所述第一低维数据进行扩散，得到扩散后的第一低维数据；

12、对所述扩散后的第一低维数据进行逆扩散，得到逆扩散后的第一低维数据，以及第二随机噪声；

13、根据所述第一随机噪声、所述第二随机噪声、所述逆扩散后的第一低维数据、所述扩散后的第一低维数据、以及获取到的第一音频文本数据，计算所述扩散模型的第一损失函数；

14、根据所述第一损失函数确定增强后的第二特征向量数据。

15、通过上述方式，基于扩散模型来增加该特征向量数据的数量和多样性，且相较于对抗神经网络，该扩散模型更具稳定性。

16、在一种可能实现的方式中，对所述增强后的特征向量数据进行筛选，包括：

17、当所述第一损失函数满足第一损失函数阈值时，根据约束函数，对所述第二特征向量数据进行筛选；其中，所述约束函数满足以下表达式：

18、所述γ表征设定的上限比例，所述es表征在得到所述第一损失函数时，所述扩散模型所经历过的训练轮次，所述β表征设定的训练轮次，所述λ表征在所述es之后，每隔所述β个训练轮次调整一次设定的第一比例。

19、通过上述方式，由于在线模式下，扩散模型在训练过程中是不断优化的，产生的第二特征向量数据质量也是从差到强，因此在筛选的过程中，可基于损失函数的比较，对扩散模型增强后的第二特征向量数据进行筛选和控制，可控制后续用于训练音频检测事件模型的特征向量数据的数量，还可避免生成低质量的特征向量数据对模型训练产生不好的影响，从而有助于提高音频检测事件模型的检测性能和泛化性。

20、在一种可能实现的方式中，所述基于扩散模型以及设定的增强模式，对所述第一特征向量数据进行特征增强，得到增强后的特征向量数据，包括：

21、当所述设定的增强模式为离线模式时，将获取到的第三随机噪声和/或第二音频文本数据、所述第一特征向量数据输入到所述扩散模型中，输出得到增强后的第三特征向量数据。

22、通过上述方式，基于扩散模型来增加该特征向量数据的数量和多样性，且相较于对抗神经网络，该扩散模型更具稳定性。

23、在一种可能实现的方式，所述对所述增强后的特征向量数据进行筛选，包括以下任意一种方式：

24、根据设定的第二比例，对所述第三特征向量数据进行筛选；

25、根据预训练模型，对所述第三特征向量数据进行筛选；其中，所述预训练模型用于识别所述第三特征向量数据中各特征向量数据各自的类别。

26、通过上述方式，由于离线模式下，扩散模型中的生成网络单元不再参与训练，输出的第三特征向量数据相对稳定，因此在筛选过程中，可通过指定的比例进行筛选，或通过预训练模型进行筛选，可控制后续用于训练音频检测事件模型的特征向量数据的质量与数量，且相比在线模式，提高了数据处理的效率，减少资源的消耗。

27、在一种可能实现的方式中，所述将根据所述n个目标音频数据各自的标签信息、所述第一特征向量数据，以及所述目标特征向量数据，生成音频事件检测模型，包括：

28、对所述n个目标音频数据各自的标签信息、所述第一特征向量数据、所述目标特征向量数据进行迭代训练；

29、当满足设定的迭代训练结束条件时，训练得到所述音频事件检测模型；其中，所述迭代训练结束条件包括迭代训练次数达到设定次数阈值、迭代训练后所产生的第二损失函数小于设定的第二损失函数阈值中至少一种。

30、在一种可能实现的方式中，所述生成音频事件检测模型之后，还包括：

31、将待检测的音频事件输入到所述音频事件检测模型中，输出得到所述音频事件的检测结果，所述检测结果包括发生所述音频事件的概率值；

32、若所述音频事件的概率值满足设定的概率阈值，则输出所述用于提示发生所述音频事件的提示信息。

33、通过上述方式，基于设定的概率阈值，进一步对音频事件检测模型进行了优化。

34、第二方面，提供一种音频事件检测模型生成装置，包括：

35、标注模块，于对获取到的n个原始音频数据进行标注，得到标注后的n个目标音频数据，以及所述n个目标音频数据各自的标签信息，所述n为大于1的整数；

36、特征提取模块，用于对所述n个目标音频数据进行特征提取，得到所述n个目标音频数据的第一特征向量数据；

37、特征增本文档来自技高网...

【技术保护点】

1.一种音频事件检测模型生成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述基于扩散模型以及设定的增强模式，对所述第一特征向量数据进行特征增强，得到增强后的特征向量数据，包括：

3.如权利要求2所述的方法，其特征在于，所述对所述增强后的特征向量数据进行筛选，包括：

4.如权利要求1所述的方法，其特征在于，所述基于扩散模型以及设定的增强模式，对所述第一特征向量数据进行特征增强，得到增强后的特征向量数据，包括：

5.如权利要求4所述的方法，其特征在于，所述对所述增强后的特征向量数据进行筛选，包括以下任意一种方式：

6.如权利要求1所述的方法，其特征在于，所述对所述N个目标音频数据进行特征提取，包括：

7.如权利要求1-6任一项所述的方法，其特征在于，所述将根据所述N个目标音频数据各自的标签信息、所述第一特征向量数据，以及所述目标特征向量数据，生成音频事件检测模型，包括：

8.如权利要求1-6任一项所述的方法，其特征在于，所述生成音频事件检测模型之后，还包括：

9.一种

10.一种电子设备，其特征在于，包括：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法步骤。

...

【技术特征摘要】

1.一种音频事件检测模型生成方法，其特征在于，包括：

3.如权利要求2所述的方法，其特征在于，所述对所述增强后的特征向量数据进行筛选，包括：

5.如权利要求4所述的方法，其特征在于，所述对所述增强后的特征向量数据进行筛选，包括以下任意一种方式：

6.如权利要求1所述的方法，其特...

【专利技术属性】
技术研发人员：杜海云，吴人杰，黄昀，方瑞东，史巍，林聚财，殷俊，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人