一种基于深度学习的声源定位方法技术

技术编号:39252270 阅读:10 留言:0更新日期:2023-10-30 12:04
本发明专利技术涉及声源定位,具体涉及一种基于深度学习的声源定位方法,通过麦克风阵列采集音频数据;构建语音端点检测模型,利用语音端点检测模型对音频数据进行基于能量特征的语音端点检测,检测音频数据中是否包含人声;构建语音降噪模型,利用语音降噪模型对包含人声音频数据的每个通道进行基于频谱映射的语音降噪处理,并单独进行保存;载入语音降噪处理后的各通道音频数据,并进行声源定位计算;本发明专利技术提供的技术方案能够有效克服现有技术所存在的不能在地下空间对人声声源进行准确定位的缺陷。的缺陷。的缺陷。

【技术实现步骤摘要】
一种基于深度学习的声源定位方法


[0001]本专利技术涉及声源定位,具体涉及一种基于深度学习的声源定位方法。

技术介绍

[0002]地下火灾是指在地下建筑、隧道或地铁等场所中发生的火灾。由于地下空间通常较为封闭,氧气供应有限,火灾会迅速蔓延,产生大量的烟雾和有毒气体,给救援工作带来很大的困难。在地下火灾救援中,声源定位技术能够发挥很多作用,如确定火源位置、快速确定被困人员方位、辅助疏散人员、协助消防救援。总之,声源定位技术在地下火灾救援中具有重要作用,可以提高救援效率和救援成功率,减少人员伤亡。
[0003]声源定位技术是通过麦克风阵列获取声源信号,通过对信号进行分析和处理最后估计得到声源位置。声源定位技术的核心是声源定位算法,其中基于TDOA的算法由于运算量小且实时性高,是目前使用最为广泛的算法之一。该算法主要通过对麦克风间的信号进行互相关,提取声源到达麦克风间的若干组时延,通过几何计算或位置估计实现声源定位。
[0004]而地下火灾救援需要考虑两方面因素:一方面各种噪音和混响对信号有较大影响,另一方面由于声源位置距离较远,使得信号的信噪比大幅度减少。为此,可以先对各通道的语音信号进行滤波处理,再进行声源定位。为了解决低信噪比的问题,国内外学者提出了很多方法,但大多都是在5m左右的会议室进行的,在远距离声源定位上并没有涉足。此外,目前使用在救援机器人上的声源定位技术较少对人声进行检测,容易在声源定位时出现错判的情况。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术所存在的上述缺点,本专利技术提供了一种基于深度学习的声源定位方法,能够有效克服现有技术所存在的不能在地下空间对人声声源进行准确定位的缺陷。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种基于深度学习的声源定位方法,包括以下步骤:
[0010]S1、通过麦克风阵列采集音频数据;
[0011]S2、构建语音端点检测模型,利用语音端点检测模型对音频数据进行基于能量特征的语音端点检测,检测音频数据中是否包含人声;
[0012]S3、构建语音降噪模型,利用语音降噪模型对包含人声音频数据的每个通道进行基于频谱映射的语音降噪处理,并单独进行保存;
[0013]S4、载入语音降噪处理后的各通道音频数据,并进行声源定位计算。
[0014]优选地,S2中构建语音端点检测模型,利用语音端点检测模型对音频数据进行基于能量特征的语音端点检测,检测音频数据中是否包含人声,包括:
[0015]对语音端点检测模型进行模型训练,具体包括:
[0016]S21、对语音库中的带噪语音进行加窗分帧,并提取预设数量的帧数据的26维梅尔频率倒谱系数;
[0017]S22、对本帧数据及其前、后相邻帧数据的26维梅尔频率倒谱系数进行组合,形成78维梅尔频率倒谱系数;
[0018]S23、将带噪语音中各帧数据对应的78维梅尔频率倒谱系数按照预设比例分别保存为训练集、测试集,并基于信噪比对测试集进行分类;
[0019]S24、对带噪语音对应的干净语音进行加窗分帧,并对预设数量的帧数据进行基于能量特征的语音端点检测,检测各帧数据中是否包含人声;
[0020]S25、基于人声检测结果对各帧数据对应的训练集、测试集数据设置标签;
[0021]S26、将设置有标签的训练集输入循环神经网络模型进行监督训练,得到训练后的循环神经网络模型;
[0022]S27、将设置有标签的测试集输入训练后的循环神经网络模型,检测各帧数据中是否包含人声,并将人声检测结果与标签进行比对,计算在各信噪比下的准确率,使准确率达到期望后保存相应模型。
[0023]优选地,S2中构建语音端点检测模型,利用语音端点检测模型对音频数据进行基于能量特征的语音端点检测,检测音频数据中是否包含人声,包括:
[0024]对音频数据进行加窗分帧,并提取各帧数据的26维梅尔频率倒谱系数;
[0025]对本帧数据及其前、后相邻帧数据的26维梅尔频率倒谱系数进行组合,形成78维梅尔频率倒谱系数;
[0026]将音频数据中各帧数据对应的78维梅尔频率倒谱系数输入训练好的循环神经网络模型,进行基于能量特征的语音端点检测;
[0027]从音频数据中筛选包含人声的目标音频,并根据目标音频总时长判定是否将该音频数据当作人声进行后续语音降噪处理。
[0028]优选地,所述循环神经网络模型包括依次连接的一个注意力线性层、三个长短期记忆网络LSTM和三个全连接层;
[0029]注意力线性层,用于执行注意力机制,使得模型在任何时候专注于输入的某些方面,通过接收大小为78的输入特征以输出权重矩阵,指示每个输入特征的重要性;
[0030]全连接层,用于降低数据维度,帮助模型更好地泛化和减少过拟合,并且每层后都会加入dropout。
[0031]优选地,S3中构建语音降噪模型,利用语音降噪模型对包含人声音频数据的每个通道进行基于频谱映射的语音降噪处理,并单独进行保存,包括:
[0032]对语音降噪模型进行模型训练,具体包括:
[0033]S31、对语音库中的带噪语音进行加窗分帧,并提取预设数量的帧数据的对数功率谱;
[0034]S32、将本帧数据及其前、后相邻两帧数据的对数功率谱合为一帧,作为输入特征;
[0035]S33、将带噪语音中各帧数据对应的输入特征按照预设比例分别保存为训练集、测试集,并基于信噪比对测试集进行分类;
[0036]S34、基于带噪语音对应的干净语音的语音特征对各帧数据对应的训练集、测试集数据设置标签;
[0037]S35、将设置有标签的训练集输入循环神经网络模型进行监督训练,得到训练后的循环神经网络模型;
[0038]S36、将设置有标签的测试集输入训练后的循环神经网络模型,对各帧数据进行语音降噪处理,并将处理结果与标签进行比对,计算在各信噪比下的准确率,使准确率达到期望后保存相应模型。
[0039]优选地,S4中载入语音降噪处理后的各通道音频数据,并进行声源定位计算,包括:
[0040]S41、对各通道音频数据进行加窗分帧;
[0041]S42、采用GCC

PHAT算法计算任意两通道帧数据间的时延;
[0042]S43、采用TDOA算法基于任意两通道帧数据间的时延,计算目标声源的方位角;
[0043]S44、通过时延正负判断目标声源与麦克风阵元间的相近程度,同时通过延正间的大小关系判断目标声源的大致位置,以得到目标声源的方位数据;
[0044]S45、对各帧数据得到的一系列方位数据进行数据处理,得到目标声源的准确方位数据。
[0045]优选地,S42中采用GCC

PHAT算法计算任意两通道帧数据间的时延,包括:
[0046]从本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的声源定位方法,其特征在于:包括以下步骤:S1、通过麦克风阵列采集音频数据;S2、构建语音端点检测模型,利用语音端点检测模型对音频数据进行基于能量特征的语音端点检测,检测音频数据中是否包含人声;S3、构建语音降噪模型,利用语音降噪模型对包含人声音频数据的每个通道进行基于频谱映射的语音降噪处理,并单独进行保存;S4、载入语音降噪处理后的各通道音频数据,并进行声源定位计算。2.根据权利要求1所述的基于深度学习的声源定位方法,其特征在于:S2中构建语音端点检测模型,利用语音端点检测模型对音频数据进行基于能量特征的语音端点检测,检测音频数据中是否包含人声,包括:对语音端点检测模型进行模型训练,具体包括:S21、对语音库中的带噪语音进行加窗分帧,并提取预设数量的帧数据的26维梅尔频率倒谱系数;S22、对本帧数据及其前、后相邻帧数据的26维梅尔频率倒谱系数进行组合,形成78维梅尔频率倒谱系数;S23、将带噪语音中各帧数据对应的78维梅尔频率倒谱系数按照预设比例分别保存为训练集、测试集,并基于信噪比对测试集进行分类;S24、对带噪语音对应的干净语音进行加窗分帧,并对预设数量的帧数据进行基于能量特征的语音端点检测,检测各帧数据中是否包含人声;S25、基于人声检测结果对各帧数据对应的训练集、测试集数据设置标签;S26、将设置有标签的训练集输入循环神经网络模型进行监督训练,得到训练后的循环神经网络模型;S27、将设置有标签的测试集输入训练后的循环神经网络模型,检测各帧数据中是否包含人声,并将人声检测结果与标签进行比对,计算在各信噪比下的准确率,使准确率达到期望后保存相应模型。3.根据权利要求2所述的基于深度学习的声源定位方法,其特征在于:S2中构建语音端点检测模型,利用语音端点检测模型对音频数据进行基于能量特征的语音端点检测,检测音频数据中是否包含人声,包括:对音频数据进行加窗分帧,并提取各帧数据的26维梅尔频率倒谱系数;对本帧数据及其前、后相邻帧数据的26维梅尔频率倒谱系数进行组合,形成78维梅尔频率倒谱系数;将音频数据中各帧数据对应的78维梅尔频率倒谱系数输入训练好的循环神经网络模型,进行基于能量特征的语音端点检测;从音频数据中筛选包含人声的目标音频,并根据目标音频总时长判定是否将该音频数据当作人声进行后续语音降噪处理。4.根据权利要求3所述的基于深度学习的声源定位方法,其特征在于:所述循环神经网络模型包括依次连接的一个注意力线性层、三个长短期记忆网络LSTM和三个全连接层;注意力线性层,用于执行注意力机制,使得模型在任何时候专注于输入的某些方面,通过接收大小为78的输入特征以输出权重矩阵,指示每个输入特征的重要性;
全连接层,用于降低数据维度,帮助模型更好地泛化和减少过拟合,并且每层后都会加入dropout。5.根据权利要求2所述的基于深度学习的声源定位方法,其特征在于:S3中构建语音降噪模型,利用语音降噪模型对包含人声音频数据的每个通道进行基于频谱映射的语音降噪处理,并单独进行保存...

【专利技术属性】
技术研发人员:潘宏青张青松徐湛楠曹平国马婷婷李皓陈勇丁磊宋全军
申请(专利权)人:中国科学院合肥物质科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1