声音事件检测模型训练方法及声音事件检测方法技术

技术编号:22078720 阅读:55 留言:0更新日期:2019-09-12 15:11
本申请公开一种声音事件检测模型训练方法,所述声音事件检测模型包括卷积神经网络和循环神经网络,所述方法包括:为所述卷积神经网络的多个卷积层中的至少一个配置下采样层,用于下采样所述卷积神经网络的神经元的时间分辨率;配置所述循环神经网络,用于根据所述卷积神经网络所输出的声音特征信息进行声音事件分类。本申请通过在卷积神经网络进行声音特征信息提取时进行神经元层面的时间分辨率的下采样,从而能够获取事件分界更清晰的声音特征信息,便于后续循环神经网络据此进行声音事件的分类,提高了声音事件分类的准确性,降低了声音事件分类的难度。

Training Method of Sound Event Detection Model and Sound Event Detection Method

【技术实现步骤摘要】
声音事件检测模型训练方法及声音事件检测方法
本申请涉及人工智能
,尤其涉及一种声音事件检测模型训练方法及声音事件检测方法。
技术介绍
随着人工智能和深度神经网络在图像,视频,和语音等领域的大火,AI在音频领域,包括场景分类,音频事件检测,网络音视频的应用需求也越来越多。DCASE(DetectionandClassificationofAcousticScenesandEvents)是音频场景和音频事件的分类与检测的简称。DCASE的应用场景十分广泛,如智能家居,无人驾驶,复杂场景中的语音识别等。SED(声音事件检测)本质上是一个半监督的持续时间估计问题,这意味着在训练期间硬标签(时间戳)不可用。然而,由于缺乏关于事件的先验知识,从弱标签获得合理的持续时间估计是困难的。专利技术人在实现本申请的过程中发现识别和分析阻碍当前SED的三个关键问题:1)在训练期间,通过平均池化汇集时间维度来获得弱标签估计。这种方法有利于长事件而忽略了短事件[16];2)在获得每帧预测之后,使用中值滤波来平滑事件预测,这进一步有益于长事件;3)神经网络预测是在非常精细的范围内进行的。由于该任务的嘈杂性,本文档来自技高网...

【技术保护点】
1.一种声音事件检测模型训练方法,所述声音事件检测模型包括卷积神经网络和循环神经网络,所述方法包括:为所述卷积神经网络的多个卷积层中的至少一个配置下采样层,用于下采样所述卷积神经网络的神经元的时间分辨率;配置所述循环神经网络,用于根据所述卷积神经网络所输出的声音特征信息进行声音事件分类。

【技术特征摘要】
1.一种声音事件检测模型训练方法,所述声音事件检测模型包括卷积神经网络和循环神经网络,所述方法包括:为所述卷积神经网络的多个卷积层中的至少一个配置下采样层,用于下采样所述卷积神经网络的神经元的时间分辨率;配置所述循环神经网络,用于根据所述卷积神经网络所输出的声音特征信息进行声音事件分类。2.根据权利要求1所述的方法,其中,为所述循环神经网络配置线性softmax函数对所述循环神经网络进行优化训练。3.根据权利要求1所述的方法,其中,为所述下采样层配置平均采样率阈值和最大采样率阈值,以下采样所述卷积神经网络的神经元的时间分辨率。4.根据权利要求3所述的方法,其中,所述平均采样率阈值配置为:0.2;所述最大采样率阈值配置为:0.75。5.根据权利要求1所述的方法,其中,还包括:对输入至所述卷积神经网络的信号进行如下预处理:对待处理声音信号,每20ms计算一个2048点傅立叶变换,窗口长度为40ms...

【专利技术属性】
技术研发人员:俞凯丁翰林
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1