一种基于深度学习的多语音源计数和定位方法技术

技术编号：29255611 阅读：24 留言：0更新日期：2021-07-13 17:26

本发明专利技术公开了一种基于深度学习的多语音源计数和定位方法。包括：根据像源法的房间冲激响应模型构造麦克风阵列接收的多语音源信号；对麦克风阵列信号进行特征提取，提取相位变换加权的广义互相关系数和对数梅尔谱；神经网络训练提取到的输入特征，对声源个数估计和到达角估计做多任务学习的训练；根据声源个数的估计值，对到达角估计预测值进行峰值检测，峰值出现的位置即为多个语音源的到达角估计值。本发明专利技术能在未知声源个数的前提下对含有多个语音源的信号进行声源计数和到达角估计，能在小尺度阵列上实现比传统的高分辨率定位算法更好的定位性能，对混响的环境具有一定的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的多语音源计数和定位方法
本专利技术涉及声源定位
，尤其涉及一种基于深度学习的未知声源个数的多语音源计数和定位方法。
技术介绍
准确估计语音源的方位角是许多应用中的关键要素。如在电话会议中，利用说话人的位置知识来操控摄像机的转动，或通过波束形成实现对目标信号的增强，声源事件检测和跟踪，以及未知环境中的机器人移动等应用。在实际场景中，除了环境噪声和混响外，往往可能含有多个说话人，由于多个声源之间的混叠效应使得多语音源的定位更加困难。多数传统的高分辨率定位算法都是针对窄带信号提出来的，而语音信号是宽带非平稳信号且能量主要集中在低频成分，这些传统算法在小尺度阵列上存在对语音信号定位分辨率不足的问题，在大混响和低信噪比时定位性能也显著下降。基于深度学习的方法，多数将多语音源问题当做多标签分类问题求解，通过神经网络得到声源出现在所划分的类别中的后验概率，最大值出现的类别即为声源到达方位。定位精度与类别划分的精度相关，而且需要知道声源数目，在实际应用中受到很多限制。
技术实现思路
针对现有技术存...

【技术保护点】
1.一种基于深度学习的多语音源计数和定位方法，其特征在于，包括以下步骤：/n步骤1：构造室内混响环境下含有多个语音源的训练数据，即根据房间冲激响应模型构造麦克风阵列接收到的声源信号；/n步骤2：提取语音信号特征，即提取相位变换加权的广义互相关系数和对数梅尔谱；/n步骤3：训练神经网络，对声源个数估计和到达角DOA估计做多任务学习训练；/n步骤4：输出声源个数估计值和DOA估计值。/n

【技术特征摘要】
1.一种基于深度学习的多语音源计数和定位方法，其特征在于，包括以下步骤：
步骤1：构造室内混响环境下含有多个语音源的训练数据，即根据房间冲激响应模型构造麦克风阵列接收到的声源信号；
步骤2：提取语音信号特征，即提取相位变换加权的广义互相关系数和对数梅尔谱；
步骤3：训练神经网络，对声源个数估计和到达角DOA估计做多任务学习训练；
步骤4：输出声源个数估计值和DOA估计值。

2.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法，其特征在于，所述步骤1构造室内混响环境下含有多个语音源的训练数据，具体步骤如下：
麦克风阵列接收到的声源信号可以表示为干净语音与房间冲激响应的卷积：

其中X＝[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵，K表示声源个数，si表示第i个语音信号，表示卷积操作，表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应，根据像源法计算得到，N＝[n1,n2,...,nM]表示环境噪声。

3.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法，其特征在于，所述步骤2具体包括以下子步骤：
步骤21，对信号X进行短时傅里叶变换得到Y，计算任意两个麦克风信号Yi,Yj之间的互功率谱，引入相位变换加权函数，对互功率谱进行调整，再进行逆傅里叶变换得到相位变换加权的广义互相关系数GCC-PHAT，计算公式如下所示：

其中Ri,j(τ)表示第i个和第j个麦克风之间的广义互相关系数，Yi(ω)表示第i个麦克风接收到信号的频谱，(·)*表示共轭操作；
步骤22，用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱，做对数运算得到对数梅尔谱：

其中f代表梅尔滤波器索引，Melf(k)代表第f个梅尔滤波器，Ωf代表第f个梅尔滤波器的频率范围。

4.根据权利要求1...

【专利技术属性】
技术研发人员：潘翔，张敏，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人