基于语音出现概率和一致性的双耳语音去混响方法和装置制造方法及图纸

技术编号：19748281 阅读：32 留言：0更新日期：2018-12-12 05:15

本发明专利技术公开一种基于语音出现概率和一致性的双耳语音去混响方法和装置。该方法包括：1)将两个麦克风接收到的语音信号进行时延补偿，得到时间上对齐后的语音信号；2)进行加窗分帧处理，并通过傅里叶变换使语音信号从时域变换到频域；3)基于语音出现概率估计低频段部分的混响功率谱；4)计算语音信号的不同信号分量的一致性；5)基于一致性估计高频段部分的混响功率谱；6)根据高低频段的划分阈值对结合高低频的混响功率谱进行估计；7)利用递归平滑算法计算得到最终的混响功率谱；8)通过增益函数得到去混响后的频域信号；9)利用短时傅立叶逆变换得到去混响后的时域信号。本发明专利技术能够有效去除整个频带上的混响，提高语音感知质量。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音出现概率和一致性的双耳语音去混响方法和装置
本专利技术属于音频信号处理和计算机听觉
，具体涉及一种适用于在存在混响环境下的双麦克风语音去混响方法和装置，通过基于语音出现概率计算混响功率谱的模型进行低频部分的混响去除，利用语音一致性模型对高频部分的混响进行去除，能够有效去除整个频带上的混响，提高语音感知质量。
技术介绍
双耳音频天然具有很多通信及多媒体体验的优势。在人与人的日常交互中，听觉感知都是人与人之间最有效最直接的交互方式之一。但是在实际环境中，语音作为人与人、人与机器进行交流的重要信息载体，不可避免的受到混响、环境噪声等干扰，使得语音的清晰度、可懂度和舒适度大大降低，严重影响人耳的听觉感知及后续语音处理系统的性能。通常，麦克风除了接收到声源直达的部分外还会接收声源信号通过信道时由于多径传播而到达的反射信号(如房间内的地面、墙壁、天花板、家居摆设等反射产生的信号)，在声学上延迟时间达到约50ms以上的反射波称为回声，除直达声以外的其余的反射波产生的效应称为混响现象，将对期望语音信号的接收效果产生影响。为了抵消由混响引起的音质下降，学者们提出了去混响(或混响消除)技术，旨在提高提段语音的质量和可懂度。语音去混响技术具有很广泛的应用。随着现代信号处理技术和智能学科的发展，机器人的智能化程度不断提升，机器人在实际应用中常常会处于复杂的声学环境中，各种类型的噪声等会使机器人在获取语音时受到干扰，在混响环境下对语音的识别率会迅速下降，影响后续操作和功能的实现，甚至无法满足实际应用。因此，利用双耳语音去混响技术减少混响对机器人在实际应用中的影响具有重...

【技术保护点】
1.一种基于语音出现概率和一致性的双耳语音去混响方法，其步骤包括：1)将两个麦克风接收到的语音信号进行时延补偿，得到时间上对齐后的语音信号；2)对所述时间上对齐后的语音信号进行加窗分帧处理，并通过傅里叶变换使语音信号从时域变换到频域；3)基于语音出现概率估计语音信号的低频段部分的混响功率谱；4)计算语音信号的不同信号分量的一致性；5)基于所述一致性估计语音信号的高频段部分的混响功率谱；6)根据所述低频段部分的混响功率谱和所述高频段部分的混响功率谱，根据高低频段的划分阈值对结合高低频的混响功率谱进行估计；7)根据所述结合高低频的混响功率谱，利用递归平滑算法计算得到最终的混响功率谱；8)根据所述最终的混响功率谱计算增益函数，通过增益函数得到去混响后的频域信号；9)根据所述去混响后的频域信号，利用短时傅立叶逆变换得到去混响后的时域信号。

【技术特征摘要】
1.一种基于语音出现概率和一致性的双耳语音去混响方法，其步骤包括：1)将两个麦克风接收到的语音信号进行时延补偿，得到时间上对齐后的语音信号；2)对所述时间上对齐后的语音信号进行加窗分帧处理，并通过傅里叶变换使语音信号从时域变换到频域；3)基于语音出现概率估计语音信号的低频段部分的混响功率谱；4)计算语音信号的不同信号分量的一致性；5)基于所述一致性估计语音信号的高频段部分的混响功率谱；6)根据所述低频段部分的混响功率谱和所述高频段部分的混响功率谱，根据高低频段的划分阈值对结合高低频的混响功率谱进行估计；7)根据所述结合高低频的混响功率谱，利用递归平滑算法计算得到最终的混响功率谱；8)根据所述最终的混响功率谱计算增益函数，通过增益函数得到去混响后的频域信号；9)根据所述去混响后的频域信号，利用短时傅立叶逆变换得到去混响后的时域信号。2.如权利要求1所述的方法，其特征在于，步骤1)中两个语音信号采用GCC-PHAT-ργ方法进行时延补偿，以克服环境中的干扰因素对互相关函数谱峰位置的影响。3.如权利要求1所述的方法，其特征在于，步骤3)将低频段的混响功率谱分开估计，以保证能够去除低频段的混响。4.如权利要求3所述的方法，其特征在于，步骤3)中当两个通道的语音出现概率中的较大值低于某个阈值时，对混响功率谱进行更新，否则不更新；所述对混响功率谱进行更新的方法为：1)如果max(P(H1|Xl),P(H1|Xr))<p0,而且P(H1|Xl)<P(H1|Xr),则2)如果max(P(H1|Xl),P(H1|Xr))<p0,而且P(H1|Xl)＞P(H1|Xr),则3)其他,其中，P(H1|Xl)表示第一个麦克风信号Xl的语音出现概率，P(H1|Xr)表示第二个麦克风信号Xr的语音出现概率，p0表示阈值，λ和μ分别表示帧号和频率，H1表示语音，H0表示非语音，为所估计的混响的自功率谱。5.如权利要求1所述的方法，其特征在于，步骤4)将混响假设为散射性声场，并使用有头部遮挡的混响一致性模型计算一致性。6.如权利要求1所述的方法，其特征在于，步骤5)包括如下子步骤：5-1)根据所有频率处的语音出现概率更新信号的一致性；5-2)考虑头部遮挡效应的影响，假设两个麦克风接收到的纯净语音信号功率谱不同，结合一致性函数对混响功率谱进行估计。7.如权利要求6所述的方法，其特征在于，步骤5)中两个麦克风接...

【专利技术属性】
技术研发人员：刘宏，王秀玲，
申请(专利权)人：北京大学深圳研究生院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人