模型生成方法、声音事件检测方法、装置、介质及设备制造方法及图纸

技术编号：37787793 阅读：11 留言：0更新日期：2023-06-09 09:18

本公开涉及一种模型生成方法、声音事件检测方法、装置、介质及设备。方法包括：提取第一样本音频的音频特征，并将音频特征输入声音事件检测模型，得到第一检测结果；根据第一样本音频的第一标注结果和第一检测结果，确定模型的目标损失，目标损失包括交叉熵损失和连续性错误惩罚损失；根据目标损失进行模型参数更新。由于连续性检测错误是造成误识别的主要原因，因此在声音事件检测模型训练过程中，将连续性错误惩罚项作为模型训练过程中的损失函数的一部分，此方法训练出的模型可以在保证高准确率的同时，保持声音事件召回率不降低，即可以在不引入更多漏识别的情况下，极大地减少影响用户体验的误识别，从而提升声音事件检测的精度和用户体验。的精度和用户体验。的精度和用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
模型生成方法、声音事件检测方法、装置、介质及设备

[0001]本公开涉及音频处理
，具体地，涉及一种模型生成方法、声音事件检测方法、装置、介质及设备。

技术介绍

[0002]声音事件检测的目标是检测一段音频中发生的所有声音事件，需要识别出具体的声音事件类别，并给出各类声音事件的起止时间。声音事件检测广泛应用于各种领域，例如，野生动物检测、智能音频字幕等领域。大多数领域对于声音事件检测模型的准确率要求极高，例如，在智能字幕中，插入错误(即，误识别，将其他声音误识别为目标声音事件)对用户的体验影响远远大于删除错误(即，漏识别，没有识别出目标声音事件)，有部分删除错误基本不会影响用户体验，但是如果有少量插入错误就会有严重的后果。因此，如何提升声音事件检测模型的准确率，对于提升声音事件检测的精度和用户体验具有重要意义。

技术实现思路

[0003]提供该部分内容以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
[0004]第一方面，本公开提供一种声音事件检测模型生成方法，包括：获取第一样本音频和所述第一样本音频的第一标注结果，其中，所述第一标注结果包括所述第一样本音频中各类声音事件的起止时间；提取所述第一样本音频的音频特征，并将所述第一样本音频的音频特征输入到声音事件检测模型中，得到第一检测结果；根据所述第一标注结果和所述第一检测结果，确定所述声音事件检测模型的目标损...

【技术保护点】

【技术特征摘要】
1.一种声音事件检测模型生成方法，其特征在于，包括：获取第一样本音频和所述第一样本音频的第一标注结果，其中，所述第一标注结果包括所述第一样本音频中各类声音事件的起止时间；提取所述第一样本音频的音频特征，并将所述第一样本音频的音频特征输入到声音事件检测模型中，得到第一检测结果；根据所述第一标注结果和所述第一检测结果，确定所述声音事件检测模型的目标损失，其中，所述目标损失包括交叉熵损失和连续性错误惩罚损失，所述连续性错误惩罚损失与所述第一检测结果中连续检测错误的音频帧数呈正相关关系；根据所述目标损失对所述声音事件检测模型进行模型参数更新。2.根据权利要求1所述的方法，其特征在于，所述第一检测结果包括所述第一样本音频中每一第一音频帧属于各类声音事件的预测概率；所述连续性错误惩罚损失通过以下方式确定：针对每一所述第一音频帧，根据所述第一标注结果，确定该第一音频帧的标注声音事件类别；确定所述标注声音事件类别的独热码；针对每一类声音事件，根据该第一音频帧属于该类声音事件的预测概率和该第一音频帧的相邻音频帧属于该类声音事件的预测概率，确定该第一音频帧属于该类声音事件的连续性错误惩罚权重，其中，所述连续性错误惩罚权重与该第一音频帧及其相邻音频帧中连续检测错误的音频帧数呈正相关关系；根据所述第一检测结果、每一所述连续性错误惩罚权重以及每一所述独热码，确定所述连续性错误惩罚损失。3.一种声音事件检测方法，其特征在于，包括：获取待检测音频；提取所述待检测音频的音频特征，并将所述待检测音频的音频特征输入到预先训练好的声音事件检测模型，得到第二检测结果，其中，所述声音事件检测模型是根据权利要求1或2所述的声音事件检测模型生成方法生成的；根据所述第二检测结果，确定所述待检测音频中各类声音事件的起止时间。4.根据权利要求3所述的方法，其特征在于，所述第二检测结果包括所述待检测音频中每一第二音频帧属于各类声音事件的预测概率；所述根据所述第二检测结果，确定所述待检测音频中各类声音事件的起止时间，包括：针对每一所述第二音频帧，根据该第二音频帧属于各类声音事件的预测概率，确定该第二音频帧的预测声音事件类别；根据每一所述第二音频帧的预测声音事件类别，确定所述待检测音频中各类声音事件的起止时间。5.根据权利要求4所述的方法，其特征在于，所述根据每一所述第二音频帧的预测声音事件类别，确定所述待检测音频中各类声音事件的起止时间，包括：针对所述待检测音频中的每一类声音事件，根据每一所述第二音频帧的预测声音事件类别，从所述待检测音频中确定属于该类声音事件的第二音频帧，得到参考音频帧；根据所述参考音频帧，对所述待检测音频进行编码，得到编码序列，其中，所述编码...

【专利技术属性】
技术研发人员：何珂鑫，贾少勇，何怡，马泽君，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人