一种基于AVS和稀疏表示的单语者声源DOA估计方法技术

技术编号:9990285 阅读:126 留言:0更新日期:2014-05-02 02:06
本发明专利技术提供了一种基于AVS和稀疏表示的单语者声源DOA估计方法。所述方法采用声学矢量传感器(Acoustic?Vector?Sensor,AVS)实现音频信号采集,利用语音信号的时频稀疏特性和AVS接收分量之间的三角函数关系,采用正弦迹算法提取高信噪比时频点,计算压力梯度传感器与全向压力传感器间的数据比。在此基础上,利用声源的空间稀疏特性,获得传感器间数据比的过完备字典稀疏表示模型,将语者声源到达方向(Direction?ofArrival,DOA)估计问题转化为稀疏矢量求解问题。采用l1-SVD方法求解稀疏矢量,计算其空间功率谱,计算得到语音声源的DOA。本发明专利技术所述方法在不同的噪声强度和房间混响条件下,能够准确地估计出语者声源的DOA。此外,该方法采用的麦克风阵列体积小(仅有1cm3),非常适用于便携设备上的语音技术。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种基于AVS和稀疏表示的单语者声源DOA估计方法。所述方法采用声学矢量传感器(Acoustic?Vector?Sensor,AVS)实现音频信号采集,利用语音信号的时频稀疏特性和AVS接收分量之间的三角函数关系,采用正弦迹算法提取高信噪比时频点,计算压力梯度传感器与全向压力传感器间的数据比。在此基础上,利用声源的空间稀疏特性,获得传感器间数据比的过完备字典稀疏表示模型,将语者声源到达方向(Direction?ofArrival,DOA)估计问题转化为稀疏矢量求解问题。采用l1-SVD方法求解稀疏矢量,计算其空间功率谱,计算得到语音声源的DOA。本专利技术所述方法在不同的噪声强度和房间混响条件下,能够准确地估计出语者声源的DOA。此外,该方法采用的麦克风阵列体积小(仅有1cm3),非常适用于便携设备上的语音技术。【专利说明】—种基于AVS和稀疏表示的单语者声源DOA估计方法
本专利技术涉及一种基于AVS和稀疏表示的单语者声源DOA估计方法,属于人机语音交互

技术介绍
空间语者声源到达方向(Direction ofArrival,D0A)估计是智能机器人人机交互的关键技术,具有重大的应用价值,一直是阵列信号处理领域的研究热点。在实际复杂声学环境中,麦克风在米集语音信号时,不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声和房间混响等因素干扰,因此获取的语音质量下降。基于传统麦克风阵列的DOA技术存在麦克风阵列孔径大、有空域混叠以及运算复杂度高等局限,限制了该类技术在小型移动设备(机器人)上的应用。本专利技术采用了一种新型麦克风-声学矢量传感器(Acoustic Vector Sensor,AVS)作为音频信号采集器。与常用的ECM麦克风相比,AVS在结构上具有其特殊性:一颗AVS由I个全向压力传感器和2到3个正交放置的压力梯度传感器构成。它的空间结构紧凑,仅有Icm3左右大小,理论上,AVS是同位阵列,各个传感器接收到的音频信号在时间上对齐,且各通道接收信号存在固定的三角函数关系。AVS小体积的特殊优点,有可能成为服务机器人听觉感知技术的有效解决方案。本专利技术利用AVS采集的音频信号,提出了一种语者声源DOA估计算法。AVS输出的信号模型可表示为:xu (t) = uss(t)+nu(t)(I)xv (t) = vss(t)+nv(t)(2)xw (t) = wss(t)+nw(t)(3)x0 (t) = s (t) +n。(t) (4)其中xu(t),xv(t),xw(t)和xjt)分别是AVS的u-, V-, w-和o-通道的输出信号,nu(t) ,nv(t) ,nw(t) n0 (t)分别是在u_, v_, w_和o_通道的零均值高斯加性噪声,s (t)是待定位的语者声源信号。Us, Vs和Ws分别可表示为Us = sin Θ scos Φ3, vs = sin Θ ssin<i)s,以及ws = cos Θ s,被称为语者声源信号在x,y和z轴上的方向余弦。本专利技术基于上述定义,提出了一种基于语音时频稀疏性和声源空间稀疏性的DOA估计方法。实验结果表明,本专利技术可有效抑制背景噪声和空间混响对DOA估计的影响。
技术实现思路
本专利技术的目的是面向智能机器人人机语音交互技术,专利技术一种对声学环境变化不敏感、体积小的高精度空间语音声源DOA估计方法。一种基于AVS和稀疏表示的单语者声源DOA估计方法,其核心思想是:采用正弦迹算法提取高信噪比时频点,计算压力梯度传感器与全向压力传感器间的数据比(Inter-Sensor DataRatio, ISDR)。在此基础上,利用声源的空间稀疏特性,推导传感器间数据比ISDR的过完备字典稀疏表示模型,将语者声源方向估计问题转化为稀疏矢量求解问题。采用Il-SVD方法求解稀疏矢量,计算其空间功率谱,获得语音声源的DOA估计。一种基于AVS和稀疏表示的单语者声源DOA估计方法,其步骤是:a)采用单个AVS,即声学矢量传感器,和模数转换器实现语音信号采集,获得四通道数字信号输出。分别对各通道输出信号进行加窗分帧和短时傅里叶变换,获得四个通道的时频谱数据。b)采用正弦迹算法对(a)所得时频谱数据提取高信噪比时频点,记为L个。c)对由步骤(b)提取的L个高信噪比时频点分别求出AVS三个梯度传感器与全向传感器之间的频谱数据比,即ISDR值,Ιν()(τ,ω),Ιν()(τ,ω),Ι?(τ,ω)。用ISDR值构成3X1的ISDR数据矢量Ι(τ,ω)。d)将整个空间角度均匀离散为M个网格,计算离散虚拟角度所对应的AVS阵列流形矩阵,构建过完备字典,并采用构建的过完备字典获取步骤(C)中的每一个时频点上的数据矢量I ( τ , ω)的稀疏表示模型。e)利用Il-SVD方法对(d)中的稀疏模型求解稀疏矢量,并计算平均空间功率谱以及峰值所对应的的声源DOA。本专利技术的有益效果在于:1)本专利技术所述的方法能够实现单语者声源DOA估计。仿真实验和实测实验数据验证了本专利技术在不同的噪声强度和房间混响条件下,都能获得DOA的高精度估计。2)本专利技术所述的方法易于在移动或便携设备上应用。本专利技术采用AVS采集语音信号,该传感器仅有Icm3大小,易于在小型设备上集成系统;同时算法复杂度低,易于实时运行在运算能力有限的嵌入式平台上。【专利附图】【附图说明】图1.AVS结构图图2.0s = 6O°,Φs∈的 100 次 DOA 估计实验结果图3.不同信噪比下的DOA估计RMSE( Θ s = 60°,Φ3 = 45° )图4.不同混响条件下的DOA估计RMSE( Θ s = 60。,Φs = 45。)图5.实际环境中的实验设备【具体实施方式】下面结合附图和【具体实施方式】对本专利技术作进一步详细描述。根据研究,语音信号在时频域具有较好的稀疏性。当一段语音有多个说话人出现时,不同说话人的语音信号能量在时频域具有离散分布特性,即在某个时频点(τ,ω),可以近似认为只有一个说话人语音信号占支配地位,其它声源的贡献可以忽略,此性质被称为语音的时频域稀疏性。假设空间中只有一个语者声源,本专利技术采用32kHz采样率对AVS输出信号((1)-(4))进行模数变换,然后采用汉明窗加窗分帧,其中窗长30ms,帧移20ms,傅里叶变换点数为1024,得到四通道的时频谱数据,表示如下:Xu ( τ,ω ) = usS ( τ,ω ) +Nu ( τ,ω )(5)Xv ( τ,ω ) = vsS ( τ,ω ) +Nv ( τ,ω )(6)Xw( τ,ω) = wsS( τ,co)+Nw( τ,ω)(7)Χο( τ,ω) = S( τ,ω)+Ν0( τ,ω)(8)其中τ是短时帧序号,ω为FFT变换的频率指数。定义ISDR值如下:Iu。( τ,ω ) = Xu ( τ,ω ) / X。( τ,ω )(9)Ivo ( τ , ω) = Xv ( τ , ω) / X0 ( τ , ω)(10)1¥。( τ,ω) = Xw( τ,ω) / X。( τ,ω)(11)其中IutjO, ω) , Ινο( τ , ω)和1¥。( τ,ω)分别是u通道与ο通道,V通道与ο通道,w通道与ο通道的本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:邹月娴郭轶凡石伟
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1