模型生成方法、声音事件检测方法、装置、介质及设备制造方法及图纸

技术编号:37787793 阅读:11 留言:0更新日期:2023-06-09 09:18
本公开涉及一种模型生成方法、声音事件检测方法、装置、介质及设备。方法包括:提取第一样本音频的音频特征,并将音频特征输入声音事件检测模型,得到第一检测结果;根据第一样本音频的第一标注结果和第一检测结果,确定模型的目标损失,目标损失包括交叉熵损失和连续性错误惩罚损失;根据目标损失进行模型参数更新。由于连续性检测错误是造成误识别的主要原因,因此在声音事件检测模型训练过程中,将连续性错误惩罚项作为模型训练过程中的损失函数的一部分,此方法训练出的模型可以在保证高准确率的同时,保持声音事件召回率不降低,即可以在不引入更多漏识别的情况下,极大地减少影响用户体验的误识别,从而提升声音事件检测的精度和用户体验。的精度和用户体验。的精度和用户体验。

【技术实现步骤摘要】
模型生成方法、声音事件检测方法、装置、介质及设备


[0001]本公开涉及音频处理
,具体地,涉及一种模型生成方法、声音事件检测方法、装置、介质及设备。

技术介绍

[0002]声音事件检测的目标是检测一段音频中发生的所有声音事件,需要识别出具体的声音事件类别,并给出各类声音事件的起止时间。声音事件检测广泛应用于各种领域,例如,野生动物检测、智能音频字幕等领域。大多数领域对于声音事件检测模型的准确率要求极高,例如,在智能字幕中,插入错误(即,误识别,将其他声音误识别为目标声音事件)对用户的体验影响远远大于删除错误(即,漏识别,没有识别出目标声音事件),有部分删除错误基本不会影响用户体验,但是如果有少量插入错误就会有严重的后果。因此,如何提升声音事件检测模型的准确率,对于提升声音事件检测的精度和用户体验具有重要意义。

技术实现思路

[0003]提供该部分内容以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]第一方面,本公开提供一种声音事件检测模型生成方法,包括:获取第一样本音频和所述第一样本音频的第一标注结果,其中,所述第一标注结果包括所述第一样本音频中各类声音事件的起止时间;提取所述第一样本音频的音频特征,并将所述第一样本音频的音频特征输入到声音事件检测模型中,得到第一检测结果;根据所述第一标注结果和所述第一检测结果,确定所述声音事件检测模型的目标损失,其中,所述目标损失包括交叉熵损失和连续性错误惩罚损失,所述连续性错误惩罚损失与所述第一检测结果中连续检测错误的音频帧数呈正相关关系;根据所述目标损失对所述声音事件检测模型进行模型参数更新。
[0005]第二方面,本公开提供声音事件检测方法,包括:获取待检测音频;提取所述待检测音频的音频特征,并将所述待检测音频的音频特征输入到预先训练好的声音事件检测模型,得到第二检测结果,其中,所述声音事件检测模型是根据本公开第一方面提供的所述声音事件检测模型生成方法生成的;根据所述第二检测结果,确定所述待检测音频中各类声音事件的起止时间。
[0006]第三方面,本公开提供一种声音事件检测模型生成装置,包括:第一获取模块,用于获取第一样本音频和所述第一样本音频的第一标注结果,其中,所述第一标注结果包括所述第一样本音频中各类声音事件的起止时间;第一检测模块,用于提取所述第一样本音频的音频特征,并将所述第一样本音频的音频特征输入到声音事件检测模型中,得到第一检测结果;第一确定模块,用于根据所述第一标注结果和所述第一检测结果,确定所述声音事件检测模型的目标损失,其中,所述目标损失包括交叉熵损失和连续性错误惩罚损失,所
述连续性错误惩罚损失与所述第一检测结果中连续检测错误的音频帧数呈正相关关系;更新模块,用于根据所述目标损失对所述声音事件检测模型进行模型参数更新。
[0007]第四方面,本公开提供一种声音事件检测装置,包括:第二获取模块,用于获取待检测音频;第二检测模块,用于提取所述待检测音频的音频特征,并将所述待检测音频的音频特征输入到预先训练好的声音事件检测模型,得到第二检测结果,其中,所述声音事件检测模型是根据本公开第一方面提供的所述声音事件检测模型生成方法生成的;第二确定模块,用于根据所述第二检测结果,确定所述待检测音频中各类声音事件的起止时间。
[0008]第五方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面提供的所述声音事件检测模型生成方法的步骤或者本公开第二方面提供的所述声音事件检测方法的步骤。
[0009]第六方面,本公开提供一种电子设备,包括:存储装置,其上存储有至少一个计算机程序;至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现本公开第一方面提供的所述声音事件检测模型生成方法的步骤或者本公开第二方面提供的所述声音事件检测方法的步骤。
[0010]在上述技术方案中,由于连续性检测错误是造成误识别的主要原因,因此在声音事件检测模型训练过程中,将连续性错误惩罚项作为模型训练过程中的损失函数的一部分,此方法训练出的模型可以在保证高准确率的同时,保持声音事件召回率不降低,即可以在不引入更多漏识别的情况下,极大地减少影响用户体验的误识别,从而提升声音事件检测的精度和用户体验。
[0011]本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0012]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
[0013]图1是根据一示例性实施例示出的一种声音事件检测模型生成方法的流程图。
[0014]图2是根据一示例性实施例示出的一种确定连续性错误惩罚损失的方法的流程图。
[0015]图3是根据一示例性实施例示出的一种声音事件检测方法的流程图。
[0016]图4是根据一示例性实施例示出的一种声音事件检测模型生成装置的框图。
[0017]图5是根据一示例性实施例示出的一种声音事件检测装置的框图。
[0018]图6是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
[0019]正如
技术介绍
中论述的那样,大多数领域对于声音事件检测模型的准确率要求极高。例如,野生动物检测,通过检测动物的叫声实现轨迹追踪,野生动物监测系统采集到的数据可用来分析野生动物的物种组成、分布、种群数量、行为等基础信息,从而为野生动物保护管理和资源利用提供重要参考资料。又如智能音频字幕,常见的音频字幕是将音频自动转写为文字展示出来,更进一步可以用声音事件检测将鼓掌声等无法直接转写的内容用
符号展现在字幕中,丰富字幕展示效果。这些应用场景对声音事件检测模型的检测准确率要求极高。
[0020]现阶段,为了获得高准确率的声音事件检测模型,通常是在模型预测阶段,对需要高准确率的声音事件类别使用较大的决策阈值,但这种方式在提高模型检测准确率的同时,会导致模型的声音事件召回率降低。由于单纯的提高决策阈值并没有为这个模型引入额外的信息,所以提升模型准确率会付出召回下降的代价。
[0021]鉴于此,本公开提供一种模型生成方法、声音事件检测方法、装置、介质及设备。
[0022]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0023]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声音事件检测模型生成方法,其特征在于,包括:获取第一样本音频和所述第一样本音频的第一标注结果,其中,所述第一标注结果包括所述第一样本音频中各类声音事件的起止时间;提取所述第一样本音频的音频特征,并将所述第一样本音频的音频特征输入到声音事件检测模型中,得到第一检测结果;根据所述第一标注结果和所述第一检测结果,确定所述声音事件检测模型的目标损失,其中,所述目标损失包括交叉熵损失和连续性错误惩罚损失,所述连续性错误惩罚损失与所述第一检测结果中连续检测错误的音频帧数呈正相关关系;根据所述目标损失对所述声音事件检测模型进行模型参数更新。2.根据权利要求1所述的方法,其特征在于,所述第一检测结果包括所述第一样本音频中每一第一音频帧属于各类声音事件的预测概率;所述连续性错误惩罚损失通过以下方式确定:针对每一所述第一音频帧,根据所述第一标注结果,确定该第一音频帧的标注声音事件类别;确定所述标注声音事件类别的独热码;针对每一类声音事件,根据该第一音频帧属于该类声音事件的预测概率和该第一音频帧的相邻音频帧属于该类声音事件的预测概率,确定该第一音频帧属于该类声音事件的连续性错误惩罚权重,其中,所述连续性错误惩罚权重与该第一音频帧及其相邻音频帧中连续检测错误的音频帧数呈正相关关系;根据所述第一检测结果、每一所述连续性错误惩罚权重以及每一所述独热码,确定所述连续性错误惩罚损失。3.一种声音事件检测方法,其特征在于,包括:获取待检测音频;提取所述待检测音频的音频特征,并将所述待检测音频的音频特征输入到预先训练好的声音事件检测模型,得到第二检测结果,其中,所述声音事件检测模型是根据权利要求1或2所述的声音事件检测模型生成方法生成的;根据所述第二检测结果,确定所述待检测音频中各类声音事件的起止时间。4.根据权利要求3所述的方法,其特征在于,所述第二检测结果包括所述待检测音频中每一第二音频帧属于各类声音事件的预测概率;所述根据所述第二检测结果,确定所述待检测音频中各类声音事件的起止时间,包括:针对每一所述第二音频帧,根据该第二音频帧属于各类声音事件的预测概率,确定该第二音频帧的预测声音事件类别;根据每一所述第二音频帧的预测声音事件类别,确定所述待检测音频中各类声音事件的起止时间。5.根据权利要求4所述的方法,其特征在于,所述根据每一所述第二音频帧的预测声音事件类别,确定所述待检测音频中各类声音事件的起止时间,包括:针对所述待检测音频中的每一类声音事件,根据每一所述第二音频帧的预测声音事件类别,从所述待检测音频中确定属于该类声音事件的第二音频帧,得到参考音频帧;根据所述参考音频帧,对所述待检测音频进行编码,得到编码序列,其中,所述编码...

【专利技术属性】
技术研发人员:何珂鑫贾少勇何怡马泽君
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1