【技术实现步骤摘要】
一种基于复倒谱差函数和深度神经网络的声源定位方法
[0001]本专利技术涉及语音识别
,具体涉及一种基于复倒谱差函数和深度神经网络的声源定位方法。
技术介绍
[0002]声源定位是人机交互的重要内容,常应用于办公室、会议室、智能机器人等场景。经典的声源定位方法大致可以分为三类:基于最大输出功率的可控波束形成算法、基于到达时延差(Time Difference of Arrival,TDOA)的声源定位算法和高分辨率谱估计定位算法。基于最大输出功率的可控波束形成方法以SRP
‑
PHAT(Steered Response Power
‑
Phase Transform)算法为典型代表,通过搜索空间功率谱的峰值估计声源位置,该算法在中低混响和噪声境下性能较好,而在高混响和低信噪比环境下的性能仍有待提高;基于TDOA的声源定位算法根据麦克风阵列接收信号间的时延差估计声源位置,该算法定位速度快、易实时实现,但依赖于麦克风阵列的空间结构,且定位性能受时延估计精度的影响,导致在中强混响和噪声环境下性 ...
【技术保护点】
【技术特征摘要】
1.一种基于复倒谱差函数和深度神经网络的声源定位方法,其特征在于,包括以下步骤:步骤1、将纯净语音信号与不同方位角的房间脉冲响应卷积,并加上不同程度的噪声和混响,生成多个不同方位的方向性语音信号;步骤2、将方向性语音信号进行预处理获得单帧信号,所述预处理包括分帧和加窗;步骤3、提取单帧信号的复倒谱差特征向量;步骤4、按照步骤1至步骤3,提取所有训练环境下来自不同训练方位的麦克风接收信号间的复倒谱差特征向量,将其作为训练样本,同时标记每个样本的对应方位,将其作为训练样本的类别标签;步骤5、构建DNN模型结构,将步骤4得到的训练样本和类别标签作为DNN的训练数据集,训练DNN模型,从而得到DNN声源定位模型;步骤6、按照步骤2和步骤3处理测试信号,得到单帧测试信号的复倒谱差特征向量,将其作为测试样本;步骤7、将测试样本输入DNN声源定位模型,输出测试样本属于每个方位角的概率,取概率最大的方位作为该帧测试样本的方位角估计值。2.如权利要求1所述的基于复倒谱差函数和深度神经网络的声源定位方法,其特征在于,步骤1用数学公式表示具体为:x
m
(t)=h
m
(t)*s(t)+v
m
(t),m=1,2,
…
,M其中x
m
(t)表示第m个麦克风阵元接收到的指定方位的语音信号,m为麦克风阵元的序号,M为麦克风阵元的个数,s(t)为纯净语音,h
m
(t)表示从指定声源方位到第m个麦克风的房间脉冲响应,h
m
(t)与声源方位、房间混响有关,v
m
(t)表示噪声。3.如权利要求1所述的基于复倒谱差函数和深度神经网络的声源定位方法,其特征在于,步骤2中,所述分帧具体为:采用预设分帧长度和帧移,将第m个阵元的时域信号x
m
(t)划分为多个单帧信号x
m
(iN+n),其中i为帧序号,n表示一帧内采样序号0≤n<N,N为帧长。4.如权利要求1所述的基于复倒谱差函数和深度神经网络的声源定位方法,其特征在于,步骤2中,所述加窗具体为:x
m
(i,n)=w
H
(n)x
m
(iN+n)其中,x
m
(i,n)为加窗处理后的第m个阵元的第i帧的信号,w
H
(n)为汉明窗,具体表达式如下:5.如权利要求1所述的基于复倒谱差函数和深度神经网络的声源定位方法,其特征在于,步骤3具体为:步骤3.1、对步骤2得到的每个单帧信号进行离散傅里叶变换,将时域信号转换至频域信...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。