【技术实现步骤摘要】
基于深度学习的声音事件检测与定位方法
本专利技术涉及一种基于深度学习的声音事件检测与定位方法,应用于机器人、自然科学、环境监测、导航等
技术介绍
近些年,随着数字信号处理技术和神经网络技术的发展,声音定位技术取得了巨大的发展。例如,Soumitro等人提出了一种基于CNN(卷积神经网络)的单源DOA(DirectionOfArrival,波达方向估计)估计方法,该方法是对麦克风接收信号做短期傅立叶变换,然后将相位分量作为整个CNN网络的输入,通过三层卷积层和两层完全连接层,使用softmax激活函数来获得输出的分层后验概率。实验表明,该方法在噪声和混响声学环境中可以胜过变换加权可控响应功率(SRP-PHAT:SteeredResponsePower-PhaseTransform)。然而它不适用于多个声源环境,并且声源的估计角度不能在空间上定位。为了适应多声源环境,作者还提出了一种改进的方法来解决混合时间结构数据集中多时间帧角度的多源DOA估计问题。并且还验证了M个麦克风DOA估计性能最优需要M-1层卷积层。该网络结 ...
【技术保护点】
1.一种基于深度学习的声音事件检测与定位方法,其特征在于,具体包括以下步骤:/n步骤一,分割数据集,即将数据集分为训练集、验证集、测试集,并按照一定比例划分;/n步骤二,预处理,即将包含声音信号的数据集进行特征提取得到适合于SED训练的Log-Mel谱图和计算速度快且有一定抗混响能力的GCC-PHAT;/n步骤三,构建深度学习模型,即借鉴在计算机视觉领域常用的用于解决层数加深精度下降问题的ResNet残差网络框架,构建出结合ResNet框架和RNN相结合的一种网络架构,并且层与层之间复合了池化、正则化、归一化模块用于优化特征提取提高非线性度;/n步骤四:两步训练,即先进行S ...
【技术特征摘要】
1.一种基于深度学习的声音事件检测与定位方法,其特征在于,具体包括以下步骤:
步骤一,分割数据集,即将数据集分为训练集、验证集、测试集,并按照一定比例划分;
步骤二,预处理,即将包含声音信号的数据集进行特征提取得到适合于SED训练的Log-Mel谱图和计算速度快且有一定抗混响能力的GCC-PHAT;
步骤三,构建深度学习模型,即借鉴在计算机...
【专利技术属性】
技术研发人员:齐子禛,黄青华,鲁乃达,房伟伦,
申请(专利权)人:上海大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。