当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于深度学习的多语音源计数和定位方法技术

技术编号:29255611 阅读:12 留言:0更新日期:2021-07-13 17:26
本发明专利技术公开了一种基于深度学习的多语音源计数和定位方法。包括:根据像源法的房间冲激响应模型构造麦克风阵列接收的多语音源信号;对麦克风阵列信号进行特征提取,提取相位变换加权的广义互相关系数和对数梅尔谱;神经网络训练提取到的输入特征,对声源个数估计和到达角估计做多任务学习的训练;根据声源个数的估计值,对到达角估计预测值进行峰值检测,峰值出现的位置即为多个语音源的到达角估计值。本发明专利技术能在未知声源个数的前提下对含有多个语音源的信号进行声源计数和到达角估计,能在小尺度阵列上实现比传统的高分辨率定位算法更好的定位性能,对混响的环境具有一定的鲁棒性。

【技术实现步骤摘要】
一种基于深度学习的多语音源计数和定位方法
本专利技术涉及声源定位
,尤其涉及一种基于深度学习的未知声源个数的多语音源计数和定位方法。
技术介绍
准确估计语音源的方位角是许多应用中的关键要素。如在电话会议中,利用说话人的位置知识来操控摄像机的转动,或通过波束形成实现对目标信号的增强,声源事件检测和跟踪,以及未知环境中的机器人移动等应用。在实际场景中,除了环境噪声和混响外,往往可能含有多个说话人,由于多个声源之间的混叠效应使得多语音源的定位更加困难。多数传统的高分辨率定位算法都是针对窄带信号提出来的,而语音信号是宽带非平稳信号且能量主要集中在低频成分,这些传统算法在小尺度阵列上存在对语音信号定位分辨率不足的问题,在大混响和低信噪比时定位性能也显著下降。基于深度学习的方法,多数将多语音源问题当做多标签分类问题求解,通过神经网络得到声源出现在所划分的类别中的后验概率,最大值出现的类别即为声源到达方位。定位精度与类别划分的精度相关,而且需要知道声源数目,在实际应用中受到很多限制。
技术实现思路
针对现有技术存在的问题,本专利技术所要解决的问题是,提供一种基于深度学习的小尺度麦克风阵列定位算法,实现对多个语音源的计数和到达角估计。本专利技术所采用的技术方案是:一种基于深度学习的多语音源计数和定位方法,该方法包括以下步骤:步骤1:构造室内混响环境下含有多个语音源的训练数据,即根据房间冲激响应模型构造麦克风阵列接收到的声源信号;步骤2:提取语音信号特征,即提取相位变换加权的广义互相关系数和对数梅尔谱;步骤3:训练神经网络,对声源个数估计和到达角(direction-of-arrival,DOA)估计做多任务学习训练;步骤4:输出声源个数估计值和DOA估计值。进一步地,所述步骤1构造室内混响环境下含有多个语音源的训练数据,具体步骤如下:麦克风阵列接收到的声源信号可以表示为干净语音与房间冲激响应的卷积:其中X=[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵,K表示声源个数,si表示第i个语音信号,表示卷积操作,表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应,根据像源法计算得到,N=[n1,n2,...,nM]表示环境噪声。进一步地,所述步骤2具体包括以下子步骤:步骤21,对信号X进行短时傅里叶变换得到Y,计算任意两个麦克风信号Yi,Yj之间的互功率谱,引入相位变换加权函数,对互功率谱进行调整,再进行逆傅里叶变换得到相位变换加权的广义互相关系数(generalizedcorrelationcoefficientwithphasetransform,GCC-PHAT),计算公式如下所示:其中Ri,j(τ)表示第i个和第j个麦克风之间的广义互相关系数,Yi(ω)表示第i个麦克风接收到信号的频谱,(·)*表示共轭操作;步骤22,用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱,做对数运算得到对数梅尔谱:其中f代表梅尔滤波器索引,Melf(k)代表第f个梅尔滤波器,Ωf代表第f个梅尔滤波器的频率范围。进一步地,所述步骤3具体如下:将提取的特征输入到深度神经网络进行训练。输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块,将经过卷积神经网络模块后的特征拼接起来成为新特征再输入到门控循环单元(GatedRecurrentUnit,GRU),最后分为两路输出。一路输出通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值其中全连接层的神经元个数为N1;另一路输出通过全连接层FC2和激活函数Sigmoid后得到DOA预测值其中全连接层的神经元个数为N2。声源个数估计问题作为多分类模型求解,每个个数取值作为一个类别,采用交叉熵作为损失函数,计算公式如下:其中p(xn)表示属于第n个类别的真实概率,表示预测属于第n个类别的概率。DOA估计问题作为回归模型求解,使用高斯函数设计DOA标签,计算公式如下:其中y(i)代表θi角度的标签值,K代表声源个数,代表第j个声源的真实角度值,θi代表麦克风阵列可以有效估计的到达角范围内的任意角度值,σ是控制高斯函数的参数。DOA估计问题采用均方误差作为损失函数,计算公式如下:其中表示角度值为θn时的预测值;声源个数估计和DOA估计以多任务学习模型的方式进行训练,整个深度神经网络模型的损失函数计算公式如下:J=αJ1+J2其中α是一个常量系数,范围大小0<α≤1。在最小化损失函数的准则下进行迭代训练,最终得到训练好的网络模型。进一步地,所述步骤4具体如下:对麦克风阵列接收到的声源信号进行特征提取,将提取的特征输入到步骤3训练得到的网络模型,得到声源个数预测值和DOA预测值的最大值对应的类别即为声源个数估计值对进行峰值检测,前个最大峰值出现的位置即为DOA估计值。本专利技术的有益效果是:本专利技术提出的一种基于深度学习的多语音源计数和定位方法,通过对麦克风阵列信号提取相位变换的广义互相关系数和对数梅尔谱,将其作为输入特征对神经网络进行训练,对声源个数估计和到达角估计做多任务学习训练,能在未知声源个数的情况下,对含有多个语音源的信号进行到达角估计。与传统的定位算法和其他深度学习的方法相比,能在小尺度阵列上实现比传统的高分辨率定位算法更好的定位性能,对混响的环境具有一定的鲁棒性。附图说明图1是本专利技术具体实施例中基于深度学习的多语音源计数和定位方法流程图;图2是本专利技术具体实施例中多语音源计数和定位的网络结构图;图3是本专利技术具体实施例中多语音源定位测试结果图。具体实施方式下面结合实施例和附图对本专利技术提出的一种基于深度学习的多语音源计数和定位方法做出详细说明。图1给出了本专利技术的总体流程图。在神经网络训练阶段,首先根据像源法构造房间冲激响应模型来模拟麦克风阵列接收到的声源信号,然后对麦克风阵列接收信号进行特征提取,将提取的信号特征输入到神经网络进行训练,网络模型为声源计数和到达角估计的多任务模型,多次迭代优化后得到训练好的网络模型。在推理测试阶段,对麦克风阵列接收到的声源信号进行特征提取后,输入到训练阶段得到的最优网络模型中,得到声源数目的估计值最后对神经网络的DOA估计输出值进行峰值检测,前个峰值出现的位置即为声源的DOA估计值。本专利技术的技术方法具体实施方式如下:步骤1,根据像源法的房间冲激响应模型模拟麦克风阵列接收到的声源信号,构造室内混响环境下含有多个语音源的训练数据。式中X=[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵,K表示声源个数,si表示第i个语音信号,表示卷积操作,表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应,根据像源法计算得到,N=[n本文档来自技高网...

【技术保护点】
1.一种基于深度学习的多语音源计数和定位方法,其特征在于,包括以下步骤:/n步骤1:构造室内混响环境下含有多个语音源的训练数据,即根据房间冲激响应模型构造麦克风阵列接收到的声源信号;/n步骤2:提取语音信号特征,即提取相位变换加权的广义互相关系数和对数梅尔谱;/n步骤3:训练神经网络,对声源个数估计和到达角DOA估计做多任务学习训练;/n步骤4:输出声源个数估计值和DOA估计值。/n

【技术特征摘要】
1.一种基于深度学习的多语音源计数和定位方法,其特征在于,包括以下步骤:
步骤1:构造室内混响环境下含有多个语音源的训练数据,即根据房间冲激响应模型构造麦克风阵列接收到的声源信号;
步骤2:提取语音信号特征,即提取相位变换加权的广义互相关系数和对数梅尔谱;
步骤3:训练神经网络,对声源个数估计和到达角DOA估计做多任务学习训练;
步骤4:输出声源个数估计值和DOA估计值。


2.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法,其特征在于,所述步骤1构造室内混响环境下含有多个语音源的训练数据,具体步骤如下:
麦克风阵列接收到的声源信号可以表示为干净语音与房间冲激响应的卷积:



其中X=[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵,K表示声源个数,si表示第i个语音信号,表示卷积操作,表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应,根据像源法计算得到,N=[n1,n2,...,nM]表示环境噪声。


3.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法,其特征在于,所述步骤2具体包括以下子步骤:
步骤21,对信号X进行短时傅里叶变换得到Y,计算任意两个麦克风信号Yi,Yj之间的互功率谱,引入相位变换加权函数,对互功率谱进行调整,再进行逆傅里叶变换得到相位变换加权的广义互相关系数GCC-PHAT,计算公式如下所示:



其中Ri,j(τ)表示第i个和第j个麦克风之间的广义互相关系数,Yi(ω)表示第i个麦克风接收到信号的频谱,(·)*表示共轭操作;
步骤22,用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱,做对数运算得到对数梅尔谱:



其中f代表梅尔滤波器索引,Melf(k)代表第f个梅尔滤波器,Ωf代表第f个梅尔滤波器的频率范围。


4.根据权利要求1...

【专利技术属性】
技术研发人员:潘翔张敏
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1