基于深度学习的声音事件检测与定位方法技术

技术编号：24994017 阅读：52 留言：0更新日期：2020-07-24 17:56

本发明专利技术涉及一种基于深度学习的声音事件检测与定位方法，包括以下步骤：步骤一，分割数据集；步骤二，预处理，即将包含声音信号的数据集进行特征提取得到Log‑Mel谱图和GCC‑PHAT；步骤三，构建深度学习模型，即借鉴ResNet框架，构建出结合ResNet框架和RNN相结合的一种网络架构，并且层与层之间复合了池化、正则化、归一化模块用于优化特征提取提高非线性度；步骤四：两步训练，即先进行SED任务的训练，得到最佳模型并将训练结果作为特征输入到DOA任务的训练中；之后再进行DOA任务的训练，最终得到最佳训练模型。本发明专利技术首先提取出适合于该任务训练的特征，从而提高了抗混响性能，并提出一种新的框架结构来解决网络加深却导致精度下降的问题，最终提高了预测的精度。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的声音事件检测与定位方法
本专利技术涉及一种基于深度学习的声音事件检测与定位方法，应用于机器人、自然科学、环境监测、导航等

技术介绍
近些年，随着数字信号处理技术和神经网络技术的发展，声音定位技术取得了巨大的发展。例如，Soumitro等人提出了一种基于CNN(卷积神经网络)的单源DOA(DirectionOfArrival，波达方向估计)估计方法，该方法是对麦克风接收信号做短期傅立叶变换，然后将相位分量作为整个CNN网络的输入，通过三层卷积层和两层完全连接层，使用softmax激活函数来获得输出的分层后验概率。实验表明，该方法在噪声和混响声学环境中可以胜过变换加权可控响应功率(SRP-PHAT：SteeredResponsePower-PhaseTransform)。然而它不适用于多个声源环境，并且声源的估计角度不能在空间上定位。为了适应多声源环境，作者还提出了一种改进的方法来解决混合时间结构数据集中多时间帧角度的多源DOA估计问题。并且还验证了M个麦克风DOA估计性能最优需要M-1层卷积层。该网络结...

【技术保护点】
1.一种基于深度学习的声音事件检测与定位方法，其特征在于，具体包括以下步骤：/n步骤一，分割数据集，即将数据集分为训练集、验证集、测试集，并按照一定比例划分；/n步骤二，预处理，即将包含声音信号的数据集进行特征提取得到适合于SED训练的Log-Mel谱图和计算速度快且有一定抗混响能力的GCC-PHAT；/n步骤三，构建深度学习模型，即借鉴在计算机视觉领域常用的用于解决层数加深精度下降问题的ResNet残差网络框架，构建出结合ResNet框架和RNN相结合的一种网络架构，并且层与层之间复合了池化、正则化、归一化模块用于优化特征提取提高非线性度；/n步骤四：两步训练，即先进行SED任务的训练，得到...

【技术特征摘要】
1.一种基于深度学习的声音事件检测与定位方法，其特征在于，具体包括以下步骤：
步骤一，分割数据集，即将数据集分为训练集、验证集、测试集，并按照一定比例划分；
步骤二，预处理，即将包含声音信号的数据集进行特征提取得到适合于SED训练的Log-Mel谱图和计算速度快且有一定抗混响能力的GCC-PHAT；
步骤三，构建深度学习模型，即借鉴在计算机...

【专利技术属性】
技术研发人员：齐子禛，黄青华，鲁乃达，房伟伦，
申请(专利权)人：上海大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人