估算混响分量的计算方法及装置制造方法及图纸

技术编号:16590112 阅读:25 留言:0更新日期:2017-11-18 18:32
本发明专利技术提出的一种估算混响分量的计算方法及装置,构建了预测误差向量,使其与语音数据进行结合,求出预测混响分量,再对所述预测混响分量进行平滑处理,获得估算混响分量。获得的估算混响分量可用于计算混响功率谱密度,进而根据维纳滤波原理,将采集到的语音信号中的混响分量滤去,提高了采集的语音数据的质量。

Calculation method and device for estimating reverberation component

A method and a device for calculating reverberation components are presented in this paper, and a prediction error vector is constructed to combine with speech data to predict the predicted reverberation component, and then the predicted reverberation component is smoothed to obtain the estimated reverberation component. The estimated reverberation component can be used to calculate the reverberation power spectrum density, and then, according to the Wiener filtering principle, the reverberation component in the received speech signal is filtered to improve the quality of the collected speech data.

【技术实现步骤摘要】
估算混响分量的计算方法及装置
本专利技术涉及到语音识别领域,特别是涉及到一种估算混响分量的计算方法及装置。
技术介绍
近年来随着互联网技术、智能硬件的蓬勃发展,语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。由于语音识别技术是基于语音的人机交互系统最核心的技术。目前在限定条件下识别率已经达到可用的准确率。所谓限定调节通常是指用户距离麦克风较近,噪声干扰较小。而必须近距离发出语音指令这一条件限制了语音交互的便捷性。在远讲情况下,由于语音能量会快速衰减,而噪音干扰能量大致不变,会使得识别率迅速下降。另外一个影响识别准确率的因素是,语音指令到达房间墙壁多次反射之后的混响,也会造成实际应用与语音识别训练数据集的不匹配,影响识别率。噪音主要有两个来源:(1)麦克风信号采集系统自带的信道噪声,信道噪声因麦克风的敏感性而不同,麦克风敏感性越高,通常信道噪声越高;(2)不可忽略的环境噪声干扰,比如电视机、空调噪声等等。相比于噪声,混响由于产生条件更为复杂,更难抑制。并且,噪音和混响一般同时存在,使得混响抑制更加困难。CN201280047068公开了一种混响抑制装置,具备:回声消除部,去除输入信号中包含的回声分量;啸声抑制部,根据被去除了回声分量的输入信号的频率特性,检测啸声的发生,使所检测出的啸声分量的频率的电平衰减;以及语头抑制部,检测啸声分量的频率电平被衰减的输入信号的声音区间,抑制所检测出的声音区间的声音开始部分的信号值。然而,该装置提供的是汽车内部空间的混响抑制解决方法,并不适用于家居音频采集时的混响问题。而解决家居音频采集时的混响问题,需要预判声音信号中的混响分量。
技术实现思路
本专利技术的主要目的为提供一种估算混响分量的计算方法及装置,旨在辅助解决家居环境中声音采集的混响问题。本专利技术提出一种估算混响分量的计算方法,包括以下步骤:构建预测误差向量;根据所述预测误差向量,结合混合语音频谱及估算语音频谱,计算当前帧的预测混响分量EPre和前一帧的预测混响分量EPre,o;求取估算混响分量,所述估算混响分量由以下式子求得:E(k)=η|EPre|2-(1-η)|EPre,o|2其中,η为平滑系数。优选地,所述前一帧的预测混响分量EPre,o,由以下式子求得:其中,Y(l-1,k)为前一帧的混合语音频谱,为估算语音频谱的转置矩阵;Gk为所述预测误差向量。优选地,所述η的取值范围为[0.6,0.75)、0.75或(0.75,0.9]。优选地,所述构建预测误差向量之前,还包括:在前LI帧,初始化预测向量方差矩阵及所述预测误差向量、估算混响分量,具体为:E(k)=0其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的估算混响分量。优选地,所述在前LI帧,初始化预测向量方差矩阵及所述预测误差向量、估算混响分量之后,还包括:从LI+1帧开始,当检测出语音活动,更新所述预测向量方差矩阵和当前帧的预测混响分量EPre,具体为:其中,为维度LG×LG的单位矩阵矩阵,Y(l,k)为当前帧的混合语音频谱。优选地,所述求取估算混响分量之后,还包括:计算Kalman增益.Kalman增益由以下式子求得:其中,KG为Kalman增益。优选地,所述计算Kalman增益之后,还包括:更新预测向量方差矩阵和预测误差向量,具体为:Gk=G′k+KGEPre其中,G′k为前一帧的预测误差向量。优选地,所述更新预测向量方差矩阵和预测误差向量之后,还包括:更新混响功率谱密度,具体为:其中,φR(k)为当前帧的混响功率谱密度,φ′R(k)为前一帧的混响功率谱密度,α为平滑系数,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995]。优选地,所述更新混响功率谱密度之后,还包括:根据维纳滤波构建衰减因子,输出语音估计频谱,计算如下:其中,ζ(k)为衰减因子,φY(k)为混合语音功率谱密度,φV(k)为噪音功率谱密度。本专利技术还提供了一种估算混响分量的计算装置,包括:预测误差向量计算模块,用于构建预测误差向量;预测混响分量计算模块,用于根据所述预测误差向量,结合混合语音频谱及估算语音频谱,计算当前帧的预测混响分量EPre和前一帧的预测混响分量EPre,o;估算混响分量计算模块,用于求取估算混响分量,所述估算混响分量由以下式子求得:E(k)=η|EPre|2-(1-η)|EPre,o|2其中,η为平滑系数。优选地,所述预测混响分量计算模块包括:第一预测混响分量计算单元,用于计算所述前一帧的预测混响分量EPre,o,EPre,o由以下式子求得:其中,Y(l-1,k)为前一帧的混合语音频谱,为估算语音频谱的转置矩阵;Gk为所述预测误差向量。优选地,所述η的取值范围为[0.6,0.75)、0.75或(0.75,0.9]。优选地,还包括:初始化模块,用于在前LI帧,初始化预测向量方差矩阵及所述预测误差向量、估算混响分量,具体为:E(k)=0其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的估算混响分量。优选地,还包括:第一更新模块,用于从LI+1帧开始,当检测出语音活动,更新所述预测向量方差矩阵和当前帧的预测混响分量EPre,具体为:其中,为维度LG×LG的单位矩阵矩阵,Y(l,k)为当前帧的混合语音频谱。优选地,还包括:Kalman增益模块,用于计算Kalman增益,Kalman增益由以下式子求得:其中,KG为Kalman增益。优选地,还包括:第二更新模块,用于更新预测向量方差矩阵和预测误差向量,具体为:Gk=G′k+KGEPre其中,G′k为前一帧的预测误差向量。优选地,还包括:第三更新模块,用于更新混响功率谱密度,具体为:其中,φR(k)为当前帧的混响功率谱密度,φ′R(k)为前一帧的混响功率谱密度,α为平滑系数,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995]。优选地,还包括:输出模块,用于根据维纳滤波构建衰减因子,输出语音估计频谱,计算如下:其中,ζ(k)为衰减因子,φY(k)为混合语音功率谱密度,φV(k)为噪音功率谱密度。本专利技术提出的一种估算混响分量的计算方法及装置,构建了预测误差向量,使其与语音数据进行结合,求出预测混响分量,再对所述预测混响分量进行平滑处理,获得估算混响分量。获得的估算混响分量可用于计算混响功率谱密度,进而根据维纳滤波原理,将采集到的语音信号中的混响分量滤去,提高了采集的语音数据的质量。附图说明图1为本专利技术估算混响分量的计算方法一实施例的流程示意图;图2为本专利技术估算混响分量的计算装置一实施例的结构示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术所指的声音信号或声音数据,是指数字音频数据,即先通过声波转换电路将声波转换为模拟音频信号,再通过模拟数字转换器将上述模拟音频信号转换得到的数字音频数据。参照图1,本专利技术提出一种估算混响分量的计算方法,包括以下步骤:S10、构建预测误差向量;S20、根据所述预测误差向量本文档来自技高网
...
估算混响分量的计算方法及装置

【技术保护点】
一种估算混响分量的计算方法,其特征在于,包括以下步骤:构建预测误差向量;根据所述预测误差向量,结合混合语音频谱及估算语音频谱,计算当前帧的预测混响分量EPre和前一帧的预测混响分量EPre,o;求取估算混响分量,所述估算混响分量由以下式子求得:E(k)=η|EPre|

【技术特征摘要】
1.一种估算混响分量的计算方法,其特征在于,包括以下步骤:构建预测误差向量;根据所述预测误差向量,结合混合语音频谱及估算语音频谱,计算当前帧的预测混响分量EPre和前一帧的预测混响分量EPre,o;求取估算混响分量,所述估算混响分量由以下式子求得:E(k)=η|EPre|2-(1-η)|EPre,o|2其中,η为平滑系数。2.根据权利要求1所述的估算混响分量的计算方法,其特征在于,所述前一帧的预测混响分量EPre,o,由以下式子求得:其中,Y(l-1,k)为前一帧的混合语音频谱,为估算语音频谱的转置矩阵;Gk为所述预测误差向量。3.根据权利要求1所述的估算混响分量的计算方法,其特征在于,所述η的取值范围为[0.6,0.75)、0.75或(0.75,0.9]。4.根据权利要求2所述的估算混响分量的计算方法,其特征在于,所述构建预测误差向量之前,还包括:在前LI帧,初始化预测向量方差矩阵及所述预测误差向量、估算混响分量,具体为:E(k)=0其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的估算混响分量。5.根据权利要求4所述的估算混响分量的计算方法,其特征在于,所述在前LI帧,初始化预测向量方差矩阵及所述预测误差向量、估算混响分量之后,还包括:从LI+1帧开始,当检测出语音活动,更新所述预测向量方差矩阵和当前帧的预测混响分量EPre,具体为:其中,为维度LG×LG的单位矩阵矩阵,Y(l,k)为当前帧的混合语音频谱。6.根据权利要求5所述的估算混响分量的计算方法,其特征在于,所述求取估算混响分量之后,还包括:计算Kalman增益,Kalman增益由以下式子求得:

【专利技术属性】
技术研发人员:蔡钢林
申请(专利权)人:深圳永顺智信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1