当前位置: 首页 > 专利查询>上海大学专利>正文

基于深度学习的声音事件检测与定位方法技术

技术编号:24994017 阅读:47 留言:0更新日期:2020-07-24 17:56
本发明专利技术涉及一种基于深度学习的声音事件检测与定位方法,包括以下步骤:步骤一,分割数据集;步骤二,预处理,即将包含声音信号的数据集进行特征提取得到Log‑Mel谱图和GCC‑PHAT;步骤三,构建深度学习模型,即借鉴ResNet框架,构建出结合ResNet框架和RNN相结合的一种网络架构,并且层与层之间复合了池化、正则化、归一化模块用于优化特征提取提高非线性度;步骤四:两步训练,即先进行SED任务的训练,得到最佳模型并将训练结果作为特征输入到DOA任务的训练中;之后再进行DOA任务的训练,最终得到最佳训练模型。本发明专利技术首先提取出适合于该任务训练的特征,从而提高了抗混响性能,并提出一种新的框架结构来解决网络加深却导致精度下降的问题,最终提高了预测的精度。

【技术实现步骤摘要】
基于深度学习的声音事件检测与定位方法
本专利技术涉及一种基于深度学习的声音事件检测与定位方法,应用于机器人、自然科学、环境监测、导航等

技术介绍
近些年,随着数字信号处理技术和神经网络技术的发展,声音定位技术取得了巨大的发展。例如,Soumitro等人提出了一种基于CNN(卷积神经网络)的单源DOA(DirectionOfArrival,波达方向估计)估计方法,该方法是对麦克风接收信号做短期傅立叶变换,然后将相位分量作为整个CNN网络的输入,通过三层卷积层和两层完全连接层,使用softmax激活函数来获得输出的分层后验概率。实验表明,该方法在噪声和混响声学环境中可以胜过变换加权可控响应功率(SRP-PHAT:SteeredResponsePower-PhaseTransform)。然而它不适用于多个声源环境,并且声源的估计角度不能在空间上定位。为了适应多声源环境,作者还提出了一种改进的方法来解决混合时间结构数据集中多时间帧角度的多源DOA估计问题。并且还验证了M个麦克风DOA估计性能最优需要M-1层卷积层。该网络结构可以适应广泛的噪声环境,但是在动态声学环境中估计性能差,并且当麦克风的数量增加时计算复杂度高。声音检测与定位(soundeventlocationanddetection)是确定每个活动声音事件并估计它们各自的空间位置的组合任务。2017年Sharathadavanne等人提出了利用RNN(循环神经网络)与CNN的结合成CRNN(卷积循环神经网络)实现DOA估计,这种基于CRNN的神经网络将多声道音频作为输入,首先提取所有声道的频谱图,之后使用CRNN将谱图的相位和幅度顺序地映射到两个输出。后来,Sharathadavanne等人在CRNN网络下提出了将SED(声音事件的检测)与声音定位的DOA估计联合起来,第一输出为多标签多分类任务的声音事件检测,另一输出为DOA估计,定位于以麦克风为原点的3D笛卡尔坐标。这是一种基于回归方法的定位方法,提高了召回率,但是错误率却明显高于基于分类方法的DOA估计。YinC等人在CRNN基础上又做出了框架以及输入的改变,将与原来SED和DOA同时训练任务改为先训练SED再训练DOA的两步任务,避免了训练过程中两种loss值相互的影响,并将SED训练结果作为掩码输入到DOA的训练种去,同时加深网络结构,除此以外,作者又将特征提取由原来的幅度相位谱图改为了Log-Mel(对数梅尔)谱图和更适合网络训练的GCC-PHAT(相位加权的广义互相关变换),利用该方法对比之前Sharathadavanne网络有了巨大提升。但是研究同时发现,将网络进一步加深时结果不稳定下降了精度。在YinC等人提出两阶段训练后,其它研究人员也借鉴了这个思想,开始将联合训练改为分步训练。KyoungjinNoh提出了三阶段训练,首先提取MRCG(多分辨率耳蜗图)经过CRNN训练得到两个模型,一个是最多只有一个声音源,另一个是包括最多两个的多声音源,该步骤称为SAD;其次提取Log-Mel谱图作为输入训练得到SED;最后提取GCC-PHAT作为输入训练得到DOA。文章为了增加数据集量,随机选取不重叠音频文件进行混合。框架上,SAD使用尺寸为3*1的三层CNN再加两层GRU(门控循环单元)最后经过两层全连接层;SED与SAD类似,但是CNN层处是在原来基础上再同时加入6层卷积层并行训练最后结合输入到GRU层,其中6层卷积层每两层加入一个池化层,且每两层的卷积尺寸都为1*3和3*1,这实际上是为了将卷积尺寸扩大为3*3;DOA使用8层尺寸为3*3的卷积层,并在每层加入池化层和BN(BatchNorm标准化)层,之后加上FC(全连接层),且该文章DOA也使用分类(角度分为36*9)。该方法DOA精度很高但是SED精度较差,且由于分步进行,复杂度较高。
技术实现思路
针对现有技术的不足,本专利技术提出一种基于深度学习的声音事件检测与定位方法,该方法为了解决采用现有深度学习模型进行声音事件检测与定位存在抗混响性能差、网络加深导致精度下降问题,使用两步骤训练即首先进行SED部分,检测声音事件的发生和偏移,并将文本标签与检测到的声音事件进一步关联;之后进行DOA部分训练,计算出定位声源位置的误差。该方法最终进一步降低了SED的错误率,提高了DOA估计精度。为了实现上述目的,本专利技术的构思是:首先将包含声音信号的数据集分为训练集,验证集和测试集;然后进行预处理,也就是提取出适合于该任务训练的特征;之后构建出适合于该任务训练的神经网络结构并进行训练;最后通过训练得到SED和DOA误差率最低的最佳模型。根据上述专利技术构思,本专利技术采用的技术方案是:一种基于深度学习的声音事件检测与定位方法,具体包括以下步骤:步骤一,分割数据集,即将数据集分为训练集、验证集、测试集,并按照一定比例划分;步骤二,预处理,即将包含声音信号的数据集进行特征提取得到适合于SED训练的Log-Mel谱图和计算速度快且有一定抗混响能力的GCC-PHAT;步骤三,构建深度学习模型,即借鉴在计算机视觉领域常用的用于解决层数加深精度下降问题的ResNet(残差网络)框架,构建出结合ResNet框架和RNN相结合的一种网络架构,并且层与层之间复合了池化、正则化、归一化模块用于优化特征提取提高非线性度;步骤四:两步训练,即先进行SED任务的训练,得到最佳模型并将训练结果作为特征输入到DOA任务的训练中;之后再进行DOA任务的训练,最终得到最佳训练模型。与现有技术相比,本专利技术具有如下突出的优点和实质性特征:本方法通过采用预处理技术提取出适合于该任务训练的特征,从而改善了抗混响性能,并提出一种结合ResNet和RNN网络的神经网络框架,解决网络加深却导致精度下降的问题,最终提高了预测的精度。附图说明图1为本专利技术一种基于深度学习的声音事件检测与定位方法的流程图。图2为本专利技术的神经网络框架结构示意图。图3为本专利技术神经网络中ResNet层详细示意图。具体实施方式为了更好地理解本专利技术的技术方案,以下结合附图作进一步的详细描述:本方法的流程参见图1,本专利技术提出一种基于深度学习的声音事件检测与定位方法,该方法为了保持低复杂,使用两步骤训练即首先进行SED(声音事件检测)部分,检测声音事件的发生和偏移,并将文本标签与检测到的声音事件进一步关联;之后进行DOA部分训练,计算出定位声源位置的误差。该方法最终进一步降低了SED的错误率,提高了DOA估计精度。具体实施步骤如下:步骤S1:分割数据集;将数据集分为训练集、验证集、测试集,并按照一定比例划分,具体如下:数据集由四个交叉验证拆分组成,分别是1、2、3、4部分。第一组是训练集使用3和4部分,验证集使用2部分,测试集使用1部分;第二组是训练集使用4和1部分,验证集使用3部分,测试集使用2部分;第三组是训练集使用1和2部分,验证集使用4部分,测试集使用3部分;第四组是训练集使本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的声音事件检测与定位方法,其特征在于,具体包括以下步骤:/n步骤一,分割数据集,即将数据集分为训练集、验证集、测试集,并按照一定比例划分;/n步骤二,预处理,即将包含声音信号的数据集进行特征提取得到适合于SED训练的Log-Mel谱图和计算速度快且有一定抗混响能力的GCC-PHAT;/n步骤三,构建深度学习模型,即借鉴在计算机视觉领域常用的用于解决层数加深精度下降问题的ResNet残差网络框架,构建出结合ResNet框架和RNN相结合的一种网络架构,并且层与层之间复合了池化、正则化、归一化模块用于优化特征提取提高非线性度;/n步骤四:两步训练,即先进行SED任务的训练,得到最佳模型并将训练结果作为特征输入到DOA任务的训练中;之后再进行DOA任务的训练,最终得到最佳训练模型。/n

【技术特征摘要】
1.一种基于深度学习的声音事件检测与定位方法,其特征在于,具体包括以下步骤:
步骤一,分割数据集,即将数据集分为训练集、验证集、测试集,并按照一定比例划分;
步骤二,预处理,即将包含声音信号的数据集进行特征提取得到适合于SED训练的Log-Mel谱图和计算速度快且有一定抗混响能力的GCC-PHAT;
步骤三,构建深度学习模型,即借鉴在计算机...

【专利技术属性】
技术研发人员:齐子禛黄青华鲁乃达房伟伦
申请(专利权)人:上海大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1