一种基于双耳匹配滤波器的双耳声音源定位方法技术

技术编号:10188533 阅读:214 留言:0更新日期:2014-07-04 20:57
本发明专利技术公开了一种新的基于贝叶斯分层模式的双耳声音源定位方法,首先,可靠频带选择机制保证了选择用于估计双耳时间差的频带是可靠的,提高了时间差的估计精度;其次,利用双耳能量差来缩小第一层得到的候选方向集合;再次,第三层提出了双耳匹配滤波器作为新的双耳定位特征,它描述了双耳信号之间的差异,能够充分表达双耳时间差和双耳能量差之间的关系;最后,针对三层定位过程中搜索空间逐渐缩小,采用贝叶斯决策的准则得到概率最大的方向。这种分层的定位系统能够有效地减少特征匹配的次数,降低了算法的时间复杂度,保证了声源定位系统的实时性要求。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种新的基于贝叶斯分层模式的双耳声音源定位方法,首先,可靠频带选择机制保证了选择用于估计双耳时间差的频带是可靠的,提高了时间差的估计精度;其次,利用双耳能量差来缩小第一层得到的候选方向集合;再次,第三层提出了双耳匹配滤波器作为新的双耳定位特征,它描述了双耳信号之间的差异,能够充分表达双耳时间差和双耳能量差之间的关系;最后,针对三层定位过程中搜索空间逐渐缩小,采用贝叶斯决策的准则得到概率最大的方向。这种分层的定位系统能够有效地减少特征匹配的次数,降低了算法的时间复杂度,保证了声源定位系统的实时性要求。【专利说明】
本专利技术属于信息
,涉及一种应用在语音感知和语音增强中的双耳声源定位方法,具体涉及。
技术介绍
双耳音频天然具有很多通信及多媒体体验的优势。在人与人的日常交互中,听觉感知都是人与人之间最有效最直接的交互方式之一。其中在日常感知世界、获取信息的主要过程中,人们通过视觉获取的信息大约占到了 70%-80%,通过听觉获取的信息大约占到了10%-20%。因此在机器人智能化程度不断提升的过程中,机器人的听觉交互是必不可少的研究方向。人和其他的哺乳动物的听觉系统都具有很强的声源定位能力,因此人类一直期望机器人能够像人一样具有实时定位环境中的声源位置的能力。事实上,能否进行听觉定位是机器人智能与否的重要标志之一。与机器人视觉相比,机器人听觉仍然处于初始阶段。然而与机器人视觉相比,听觉的优势在于:I)视觉的应用场景仅限于180°范围内,而听觉却可以定位到360°的范围。2)由于声音信号的衍射性能,相较于视觉、激光等其他的传感信号听觉不需要直线视野,在有视野遮蔽障碍物的情况下依然可以有效的工作。双耳声源定位是声源定位技术发展的一个重要分支。双耳定位充分利用了双麦克风的易搭载性和耳廓的滤波特性,在智能监控、移动机器人、虚拟现实、视频会议等研究中有着重要的应用。它是声源定位技术的一个重要分支,不仅利用了双麦克风简易的阵列结构,又结合人耳听觉特性成功克服了双麦克风定位的前后向歧义性。双耳声源定位技术在机器人听觉、人机交互领域有着重要的应用。一般来讲机器人听觉包括声源信号的定位与分离、自动语音识别、说话人识别等。机器人听觉声源定位是指机器人利用搭载在机器人上或者外部设备上的麦克风阵列定位出声源的相对位置。而机器人的双耳定位则是期望机器人能够像人或者其他哺乳动物一样仅仅利用两个声音传感器完成声源信号的定位。声源定位技术在语音识别领域也得到广泛应用。在视频会议中,通过声源定位技术控制摄像头,使其自动地转向感兴趣的说话人方向。对于高速行驶的车辆,为避免驾驶员用手去接听电话,车载免提电话应运而生。然而,当车中坐有多个说话人时,语音识别系统就无法辨别实际命令的来源,此时就需要一种定位系统来提取驾驶员方位的语音,进而对其命令作出响应。助听器的出现为有听力障碍的残疾人提供了帮助。基于阵列的语音增强技术利用声源的位置信息进行空间滤波,可以进一步抑制除说话人以外的其它方向的噪声,使得助听器话音更加清晰。近年来,基于声源定位技术的电子笔系统成为研究热点,用于接收的麦克风阵列以不同的方式集成在显示器边缘,此时设计出的电子笔就可以在屏幕上进行书写或者相应地控制操作。基本上,双耳声音源定位是一个模式分类的问题。类似于自动语音识别,其主要的两大步骤分别是:语音信号处理和模式分类。首先通过双耳传声器接收原始的声音源信号,并进行模数转换,把模拟声音信号转换成数字信号。在信号处理阶段,首先对原始信号进行预处理:降噪和滤波,信号预加重,分帧并加窗,对于每帧信号提取特征时域的特征或频域特征组成特征向量。特征向量可以有效表征声源的位置信息。模式分类阶段,通过与定位系统中的先验知识(即模板)进行比对从而得出定位结果。现有的声源定位系统包括以下步骤:1、语音录入,预滤波、模数变换。先把录入的模拟声音信号进行预滤波,高通滤波抑制50Hz电源噪声信号;低通滤波滤除声音信号中频率分量超过采样频率一半的部分,防止混叠干扰,对模拟声音信号进行采样和量化得到数字信号。2、预加重。信号通过高频加重滤波器冲激响应H(Z) = 1-ο.95Z—1,以补偿嘴唇辐射带来的高频衰减。3、分帧、加窗。由于语音信号的慢时变性,整体非平稳,局部平稳,一般认为语音信号在10-30ms内是平稳的,可以把声音信号按照20ms的长度进行分帧。分帧函数为:xk (n) = w (n) s (Nk+n) η = O, 1...N-1; k = O, 1...L-1 (I)其中N为帧长,L为帧数。w(n)为窗函数,它的选择(形状和长度)对短时分析参数的特性影响很大,常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗,可以很好地反应语音信号的特性变化,汉明窗表达式为:【权利要求】1.,包括: . 1)训练阶段,录制双耳声音源定位数据库,为双耳时间差、双耳能量差和双儿耳匹配滤波器建立模板,具体包括: . 1-1)将定位空间按照转向角和俯仰角划分; . 1-2)采用固定声源到坐标系中心距离,在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声音数据; . 1-3)离线为每个方向上的双耳时间差、双耳能量差和双耳匹配滤波器建立模板,得到双耳时间差和双耳能量差的期望和方差; . 2)在线定位阶段,当声源定位系统检测到有声音源发生,利用可靠频带选择机制选择可靠的频带,并计算得到双耳时间差、双耳能量差和双耳匹配滤波器的系数向量; . 3)将步骤2)中得到的双耳时间差按转向角在模板中搜索匹配的方向作为候选区域,其次在此候选区域中搜索匹配的双耳能量差所对应的转向角和俯仰角,得到缩小的搜索空间,再基于前面得到的搜索空间计算每个方向上双耳匹配滤波器的相似度,最终采用贝叶斯分层的搜索策略得到候选区域里所有方向中概率最大的声音源的转向角和俯仰角,实现双耳声音源定位。2.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤I)中,转向角采用非均匀的划分方法,俯仰角采用均匀划分的方式。3.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤I)中,双耳时间差的方差是根据每个转向角上所有俯仰角的时间差统计得到;双耳能量差的均值和方差是针对每个方向进行多次训练测试,统计结果得到;所述模板包括:所有方向上的双耳时间差均值、方差和双耳能量差均值、方差,以及所有方向上的双耳匹配滤波器系数。4.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤2)中,利用基于频带可靠性的广义互相关相位变换的方法计算所有方向上的双耳时间差,再分别按照对数能量比的方法计算双耳能量差和按照最优维纳滤波器的设计准则得到双耳匹配滤波器的系数向量。5.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤2)中,首先将双耳信号划分为K个频带,对于其中每个子频带m(m = I, 2,…,K)的可靠性的定义方式为: 6.如权利要求1-5任一所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,分别根据以下公式计算得到双耳时间差△ τtm、双耳能量差ΔΙ(ω)和双耳滤波器的系数向量W,并统计相应的均值和方差:7.如权利本文档来自技高网...

【技术保护点】
一种基于双耳匹配滤波器的双耳声音源定位方法,包括:1)训练阶段,录制双耳声音源定位数据库,为双耳时间差、双耳能量差和双儿耳匹配滤波器建立模板,具体包括:1‑1)将定位空间按照转向角和俯仰角划分;1‑2)采用固定声源到坐标系中心距离,在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声音数据;1‑3)离线为每个方向上的双耳时间差、双耳能量差和双耳匹配滤波器建立模板,得到双耳时间差和双耳能量差的期望和方差;2)在线定位阶段,当声源定位系统检测到有声音源发生,利用可靠频带选择机制选择可靠的频带,并计算得到双耳时间差、双耳能量差和双耳匹配滤波器的系数向量;3)将步骤2)中得到的双耳时间差按转向角在模板中搜索匹配的方向作为候选区域,其次在此候选区域中搜索匹配的双耳能量差所对应的转向角和俯仰角,得到缩小的搜索空间,再基于前面得到的搜索空间计算每个方向上双耳匹配滤波器的相似度,最终采用贝叶斯分层的搜索策略得到候选区域里所有方向中概率最大的声音源的转向角和俯仰角,实现双耳声音源定位。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘宏张结丁润伟
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1