基于语音出现概率和一致性的双耳语音去混响方法和装置制造方法及图纸

技术编号:19748281 阅读:32 留言:0更新日期:2018-12-12 05:15
本发明专利技术公开一种基于语音出现概率和一致性的双耳语音去混响方法和装置。该方法包括:1)将两个麦克风接收到的语音信号进行时延补偿,得到时间上对齐后的语音信号;2)进行加窗分帧处理,并通过傅里叶变换使语音信号从时域变换到频域;3)基于语音出现概率估计低频段部分的混响功率谱;4)计算语音信号的不同信号分量的一致性;5)基于一致性估计高频段部分的混响功率谱;6)根据高低频段的划分阈值对结合高低频的混响功率谱进行估计;7)利用递归平滑算法计算得到最终的混响功率谱;8)通过增益函数得到去混响后的频域信号;9)利用短时傅立叶逆变换得到去混响后的时域信号。本发明专利技术能够有效去除整个频带上的混响,提高语音感知质量。

【技术实现步骤摘要】
基于语音出现概率和一致性的双耳语音去混响方法和装置
本专利技术属于音频信号处理和计算机听觉
,具体涉及一种适用于在存在混响环境下的双麦克风语音去混响方法和装置,通过基于语音出现概率计算混响功率谱的模型进行低频部分的混响去除,利用语音一致性模型对高频部分的混响进行去除,能够有效去除整个频带上的混响,提高语音感知质量。
技术介绍
双耳音频天然具有很多通信及多媒体体验的优势。在人与人的日常交互中,听觉感知都是人与人之间最有效最直接的交互方式之一。但是在实际环境中,语音作为人与人、人与机器进行交流的重要信息载体,不可避免的受到混响、环境噪声等干扰,使得语音的清晰度、可懂度和舒适度大大降低,严重影响人耳的听觉感知及后续语音处理系统的性能。通常,麦克风除了接收到声源直达的部分外还会接收声源信号通过信道时由于多径传播而到达的反射信号(如房间内的地面、墙壁、天花板、家居摆设等反射产生的信号),在声学上延迟时间达到约50ms以上的反射波称为回声,除直达声以外的其余的反射波产生的效应称为混响现象,将对期望语音信号的接收效果产生影响。为了抵消由混响引起的音质下降,学者们提出了去混响(或混响消除)技术,旨在提高提段语音的质量和可懂度。语音去混响技术具有很广泛的应用。随着现代信号处理技术和智能学科的发展,机器人的智能化程度不断提升,机器人在实际应用中常常会处于复杂的声学环境中,各种类型的噪声等会使机器人在获取语音时受到干扰,在混响环境下对语音的识别率会迅速下降,影响后续操作和功能的实现,甚至无法满足实际应用。因此,利用双耳语音去混响技术减少混响对机器人在实际应用中的影响具有重要的意义。再如,双耳语音去混响技术可以为许多语音信号处理技术提供预处理,如:双耳声源定位、语音识别等。另外,再如,对于有听力障碍的人士来说,常常需要借助助听设备或人工耳蜗来交流。但在混响环境下,助听器的助听效果会受到很大影响。此时需要利用语音去混响算法在非纯净语音信号被放大之前对其进行预处理,可以在一定程度上去掉混响信号,以帮助听障人士更好地交流。语音去混响技术通常可以按照单通道和多通道语音增强划分。单通道去混响算法利用单个麦克风进行语音增强,此类方法以其简单的模型和廉价的成本已取得广泛的应用和成熟的发展。但由于单通道语音去混响算法只能利用单路语音信号的统计特性来抑制混响。多通道语音去混响系统使用多个麦克风,即麦克风阵列采集声音信号,得到多路信号。由于输入通道数的增加,信号处理算法可以利用各通道信号之间的相关性来进行语音增强。相比单通道只能利用语音和混响在时频域上的差异进行增强的局限,麦克风阵列的引入可以弥补单通道语音去混响算法的不足。通常来说,增加麦克风的数量可以提高语音去混响的效果。相比于单麦克风,基于麦克风阵列不仅可以利用信号的时频信息,还可以信号的空间信息,受到广泛的关注。但其缺点是结构尺寸庞大,系统计算复杂和计算量太大等。综合考虑设备的成本,语音增法算法的实时性与算法的效果,利用双通道语音去混响,也就是使用两个麦克风进行语音去混响是一种比较好的折衷方案。双麦克风语音去混响的算法主要有基于一致性模型和基于双通道维纳滤波的方法等。其中,基于一致性去混响的算法主要是根据纯净语音和混响语音之间的一致性不同来设计滤波器。该方法假设纯净语音部分和混响部分是不相关的,利用纯净语音,混响语音和麦克风接收到语音一致性来估计接收到语音中的混响功率,通过估计得到的混响功率计算滤波器的增益,从而得到去混响后的语音。基于一致性的双通道语音去混响方法主要包含以下几个步骤:1、语音录入,预滤波、模数变换。先把录入的模拟声音信号进行预滤波,高通滤波抑制50Hz电源噪声信号;低通滤波滤除声音信号中频率分量超过采样频率一半的部分,防止混叠干扰,对模拟声音信号进行采样和量化得到数字信号。2、预加重。信号通过高频加重滤波器冲激响应,以补偿嘴唇辐射带来的高频衰减。3、分帧、加窗。由于语音信号的慢时变性,整体非平稳,局部平稳,一般认为语音信号在10-30ms内是平稳的,可以把声音信号按照20ms的长度进行分帧。分帧函数为:xk(n)=w(n)s(Nk+n)n=0,1...N-1;k=0,1...L-1(1)其中N为帧长,L为帧数,s表示语音信号。w(n)为窗函数,它的选择(形状和长度)对短时分析参数的特性影响很大,常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗,可以很好地反应语音信号的特性变化,汉明窗表达式为:4、混响功率谱估计。估计时纯净语音和混响语音一致性使用前人研究的形式得到,麦克风接收到语音一致性用一致性的定义公式计算。5、计算滤波器增益并对双通道信号进行滤波。6、用逆傅里叶变换将滤波后的语音转换到时域输出。
技术实现思路
本专利技术提出一种新的双耳语音去混响方法和装置,用于提高基于一致性的双麦克风去混响算法在低频段部分的去混响效果。传统的基于一致性的双麦克风去混响算法假设混响为散射声场,具有较低的一致性,而纯净语音之间具有较高的一致性,因此可根据一致性的高低将混响去,但是在低频段,混响语音的一致性也较高,因此在低频段的混响去除的较少。另外,传统方法在计算各个声音部分的一致性时使用自由场计算,而对于双耳麦克风情况,由于“头影效应”的存在,各个声音部分的一致性会受到头部遮挡的影响,自由场的形式不适用。针对这个两问题,本专利技术提出基于语音出现概率和一致性的双耳语音去混响方法。本专利技术采用的技术方案如下:一种基于语音出现概率和一致性的双耳语音去混响方法,主要包括以下步骤:1)将两个麦克风接收到的语音信号进行时延补偿,得到时间上对齐后的语音信号;2)对所述时间上对齐后的语音信号进行加窗分帧处理,并通过傅里叶变换使语音信号从时域变换到频域;3)基于语音出现概率估计语音信号的低频段部分的混响功率谱;4)计算语音信号的不同信号分量的一致性;5)基于所述一致性估计语音信号的高频段部分的混响功率谱;6)根据所述低频段部分的混响功率谱和所述高频段部分的混响功率谱,根据高低频段的划分阈值对结合高低频的混响功率谱进行估计;7)根据所述结合高低频的混响功率谱,利用递归平滑算法计算得到最终的混响功率谱;8)根据所述最终的混响功率谱计算增益函数,通过增益函数得到去混响后的频域信号;9)根据所述去混响后的频域信号,利用短时傅立叶逆变换得到去混响后的时域信号。对上述各步骤具体说明如下:1)将两个麦克风接收到的语音信号进行时延补偿,得到时间上对齐后的语音。由于语音信号到达两个麦克风时存在时间差,所以需要将信号对齐后进行处理。这里采用基于广义互相关的GCC-PHAT-ργ方法进行时延估计,主要是通过寻找互相关函数的谱峰位置而确定双耳时间差。该方法可以克服环境中的相关噪声、混响等干扰因素对互相关函数谱峰位置的影响,较鲁棒。在时间域上,双通道语音模型可以描述为:xi(n)=si(n)+vi(n),(3)其中,xi(n)表示麦克风接收到的语音信号,si(n)表示纯净语音信号,vi(n)表示噪声信号,其中下标i∈{l,r}代表第一个麦克风信号和第二个麦克风信号。利用短时傅里叶变换,双通道语音模型可在频域上表示为:Xi(λ,μ)=Si(λ,μ)+Vi(λ,μ),(4)其中,λ和μ分别表示帧号和频率。于是,两条接收到本文档来自技高网
...

【技术保护点】
1.一种基于语音出现概率和一致性的双耳语音去混响方法,其步骤包括:1)将两个麦克风接收到的语音信号进行时延补偿,得到时间上对齐后的语音信号;2)对所述时间上对齐后的语音信号进行加窗分帧处理,并通过傅里叶变换使语音信号从时域变换到频域;3)基于语音出现概率估计语音信号的低频段部分的混响功率谱;4)计算语音信号的不同信号分量的一致性;5)基于所述一致性估计语音信号的高频段部分的混响功率谱;6)根据所述低频段部分的混响功率谱和所述高频段部分的混响功率谱,根据高低频段的划分阈值对结合高低频的混响功率谱进行估计;7)根据所述结合高低频的混响功率谱,利用递归平滑算法计算得到最终的混响功率谱;8)根据所述最终的混响功率谱计算增益函数,通过增益函数得到去混响后的频域信号;9)根据所述去混响后的频域信号,利用短时傅立叶逆变换得到去混响后的时域信号。

【技术特征摘要】
1.一种基于语音出现概率和一致性的双耳语音去混响方法,其步骤包括:1)将两个麦克风接收到的语音信号进行时延补偿,得到时间上对齐后的语音信号;2)对所述时间上对齐后的语音信号进行加窗分帧处理,并通过傅里叶变换使语音信号从时域变换到频域;3)基于语音出现概率估计语音信号的低频段部分的混响功率谱;4)计算语音信号的不同信号分量的一致性;5)基于所述一致性估计语音信号的高频段部分的混响功率谱;6)根据所述低频段部分的混响功率谱和所述高频段部分的混响功率谱,根据高低频段的划分阈值对结合高低频的混响功率谱进行估计;7)根据所述结合高低频的混响功率谱,利用递归平滑算法计算得到最终的混响功率谱;8)根据所述最终的混响功率谱计算增益函数,通过增益函数得到去混响后的频域信号;9)根据所述去混响后的频域信号,利用短时傅立叶逆变换得到去混响后的时域信号。2.如权利要求1所述的方法,其特征在于,步骤1)中两个语音信号采用GCC-PHAT-ργ方法进行时延补偿,以克服环境中的干扰因素对互相关函数谱峰位置的影响。3.如权利要求1所述的方法,其特征在于,步骤3)将低频段的混响功率谱分开估计,以保证能够去除低频段的混响。4.如权利要求3所述的方法,其特征在于,步骤3)中当两个通道的语音出现概率中的较大值低于某个阈值时,对混响功率谱进行更新,否则不更新;所述对混响功率谱进行更新的方法为:1)如果max(P(H1|Xl),P(H1|Xr))<p0,而且P(H1|Xl)<P(H1|Xr),则2)如果max(P(H1|Xl),P(H1|Xr))<p0,而且P(H1|Xl)>P(H1|Xr),则3)其他,其中,P(H1|Xl)表示第一个麦克风信号Xl的语音出现概率,P(H1|Xr)表示第二个麦克风信号Xr的语音出现概率,p0表示阈值,λ和μ分别表示帧号和频率,H1表示语音,H0表示非语音,为所估计的混响的自功率谱。5.如权利要求1所述的方法,其特征在于,步骤4)将混响假设为散射性声场,并使用有头部遮挡的混响一致性模型计算一致性。6.如权利要求1所述的方法,其特征在于,步骤5)包括如下子步骤:5-1)根据所有频率处的语音出现概率更新信号的一致性;5-2)考虑头部遮挡效应的影响,假设两个麦克风接收到的纯净语音信号功率谱不同,结合一致性函数对混响功率谱进行估计。7.如权利要求6所述的方法,其特征在于,步骤5)中两个麦克风接...

【专利技术属性】
技术研发人员:刘宏王秀玲
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1