当前位置: 首页 > 专利查询>东南大学专利>正文

基于Soft-argmax回归器的双耳声源定位方法技术

技术编号:26373729 阅读:29 留言:0更新日期:2020-11-19 23:42
本发明专利技术公开了一种基于Soft‑argmax回归器的双耳声源定位方法,属于声源定位技术领域。在子带内计算双耳声信号的互相关函数和耳间强度差,将不同子带的互相关函数和耳间强度差拼接成二维数据作为特征参数,对Soft‑argmax回归器进行训练;测试过程中计算测试双耳声信号的互相关函数和耳间强度差作为二维特征参数,利用训练好的Soft‑argmax回归器估计每帧双耳声信号对应的方位角。其步骤简单,鲁棒性良好,在高噪声和强混响干扰的场景中对目标生源定位精度高。

【技术实现步骤摘要】
基于Soft-argmax回归器的双耳声源定位方法
本专利技术涉及一种双耳声源定位方法,尤其涉及一种基于Soft-argmax回归器的双耳声源定位方法,属于声源定位

技术介绍
在语音信号处理领域,声源定位技术是一个经典的研究课题。可靠的声源定位技术有利于提升语音增强、语音分离等前端语音处理算法的性能。声源定位技术在生活中也有着广泛的应用场景。例如,在人机交互场景中,机器人可以通过声源定位技术寻找或跟随说话者,或者利用声源定位技术提升语音识别的能力;在视频监控场景中,通过声源定位技术,摄像头可以自动转向以追踪发出声响的方向。声源定位技术所涉领域很广,包括但不限于声学、数字信号处理、信息通讯、听觉心理与生理学等。双耳声源定位利用双耳信号的差异进行分析从而估计声源方位,目前的定位算法根据其定位参数的区别可以分为两类,但均存在缺陷:1、基于耳间差的定位LordRayleigh于1907年首次提出基于耳间线索差的定位理论,“双工理论”。该理论指出,人类可以依靠声音到达左右耳时产生的耳间时间差(InterauralTime本文档来自技高网...

【技术保护点】
1.一种基于Soft-argmax回归器的双耳声源定位方法,其特征在于步骤如下:/n(1)收集不同方位角、不同混响时间、不同信噪比下的双耳声信号;/n(2)双耳声信号先后进行子带滤波、分帧和加窗,从而得到各个子带分帧后的双耳声信号;/n(3)计算每一帧子带分帧后的双耳声信号的耳间特征参数,将耳间特征参数进行融合,从而形成耳间二维特征参数矩阵X(τ),将X(τ)与第τ帧的声源真实方位角θ(τ)组成训练样本(X(τ),θ(τ));/n(4)利用训练双耳声信号的二维特征参数训练Soft-argmax回归器,训练过程具体包括:/n(4-2)首先随机初始化Soft-argmax回归器所有卷积层和全连接层...

【技术特征摘要】
1.一种基于Soft-argmax回归器的双耳声源定位方法,其特征在于步骤如下:
(1)收集不同方位角、不同混响时间、不同信噪比下的双耳声信号;
(2)双耳声信号先后进行子带滤波、分帧和加窗,从而得到各个子带分帧后的双耳声信号;
(3)计算每一帧子带分帧后的双耳声信号的耳间特征参数,将耳间特征参数进行融合,从而形成耳间二维特征参数矩阵X(τ),将X(τ)与第τ帧的声源真实方位角θ(τ)组成训练样本(X(τ),θ(τ));
(4)利用训练双耳声信号的二维特征参数训练Soft-argmax回归器,训练过程具体包括:
(4-2)首先随机初始化Soft-argmax回归器所有卷积层和全连接层的权值;
(4-2)然后向Soft-argmax回归器输入训练样本(X(τ),θ(τ)),X(τ)为第τ帧的耳间二维特征参数矩阵,作为Soft-argmax回归器的输入;θ(τ)为第τ帧的声源真实方位角,作为Soft-argmax回归器的输入X(τ)对应的预期输出;
(4-3)根据前向传播算法,依次计算每层网络的实际输出值,直到计算出Soft-argmax的实际输出值θpred;
(4-4)计算当前训练特征参数的代价函数,定义如下:
LMAE(θ(τ),θpred)=|θ(τ)-θpred|
(4-5)使用反向传播算法,计算代价函数LMAE对网络权重的偏导,并修正权重;
(4-6)若当前迭代次数未达到预设总迭代次数,则返回至步骤(4-2),继续输入下一个训练样本进行计算,直至得到达到预设迭代次数时迭代结束,Soft-argmax回归器训练结束;
(5)利用训练的Soft-argmax回归器对测试双耳声信号对应的融合二维空间特征参数进行运算,确定输入的双耳声信号的方位。


2.一种基于Soft-argmax回归器的双耳声源定位方法,其特征在于具体步骤如下:
a利用公式:获取不同方位角、不同混响时间、不同信噪比下的双耳声信号,将获取到的双耳声信号生成训练样本集,式中,xL(m)、xR(m)分别表示加入混响和噪声后的左、右耳声信号,s(m)为单声道源信号,hL(m)、hR(m)为不同混响时间对应的双耳房间冲激响应函数,vL(m)、vR(m)表示指定信噪比下的左、右耳白噪声信号,m表示样本点序号,*为卷积运算;;
b对双耳声信号训练样本集进行子带滤波、分帧、加窗,得到各个子带分帧后的训练双耳声信号样本集,其中子带滤波器为:或者任何实现声信号的子带滤波功能的滤波器,式中,xL(i,m)、xR(i,m)分别为滤波后的第i个子带的左耳声信号、右耳声信号;
c计算子带分帧双耳声信号的耳间特征参数互相关函数和耳间强度差,并将耳间特征参数进行融合组成一维的特征向量,然后将每一帧中每个子带的一维特征向量,根据子带顺序,融合组成二维特征参数矩阵X(τ),二维特征参数集X(τ)的维数为K×(2L+2),其中K为子带个数,L为最大延迟采样点数;
d利用训练双耳声信号的二维特征参数训练Soft-argmax回归器,训练过程具体为:
d1初始化Soft-argmax回归器中的卷积层以及全连接层的权值;,Soft-argmax回归器包括输入层、卷积层、若干密集连接块和转换层、全局池化层、全连接层、输出层,具体依次包含1个输入层,1个卷积层,3个密集连接块和2个转换层,1个池化层,1个全连接层和1个Soft-argmax输出层;
d2输入训练样本(X(τ),θ(τ)),其中X(τ)是步骤三获得的特征参数矩阵;θ(τ...

【专利技术属性】
技术研发人员:周琳王天仪冯坤许越马康宇
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1