一种环境自适应的语音混响消除方法和系统技术方案

技术编号:13080257 阅读:53 留言:0更新日期:2016-03-30 13:26
本发明专利技术公开一种环境自适应的语音混响消除方法和系统,该系统包括有混响模型训练装置、RT60获取装置以及音频处理装置;首先,考虑到RT60值的大小可以近似表征房间的混响量的大小及特殊的室内应用环境(RT60的值会在一个较小的范围内),本发明专利技术中将RT60值按大小分成多个区间,使用区间内的语音特征来训练混响模型,使得数据训练的更加充分,混响模型更有针对性;其次,通过结合当前环境的RT60值所在区间和使用对应区间的混响模型进行解码的方法实现了对不同房间环境的自适应;再者,由于采用深度网络训练模型,在实际应用时就不需要估计混响分量,直接根据模型参数进行解码即可得到混响消除后的语音特征,减少了计算量。

【技术实现步骤摘要】

本专利技术设及语音混响消除领域技术,尤其是指一种环境自适应的语音混响消除方 法和系统。
技术介绍
在室内采集语音信号时,若声源与采集的麦克风距离较远,就会有混响。过大的混 响会严重影响语音的清晰度和可懂度。在语音识别和说话人识别系统中,混响的出现将会 使训练数据与测试数据不匹配影响系统的性能,严重时还可能导致系统无法正常工作。此 时,一种有效的混响的消除方法就变得极其重要了。常用的混响消除算法大多是从语音中 估计出混响分量,然后进行混响消除,然而运在实际中是很困难的。 文献使用Po lack混响统计模型的单麦克风混响消除系统。该混 响消除系统根据混响时间来构造化lack混响统计模型,利用化lack混响统计模型估计出后 期混响功率谱,最后采用谱减法去除后期混响,达到语音增强的效果。由于该技术要求已知 混响时间先估计出后期混响后采用谱减法求解出没受污染部分的分量,实现混响消除。然 而实际应用中很难直接得到准确的混响时间,运导致采用谱减法去除后期混响时常会引入 一些人工噪声。在过估计时,会产生音乐噪声;欠估计时会有噪声残留。 文献提供了WPE(Weighted Prediction lirror)算法的混 响消除方法。该方法采用线性滤波的方法进行混响消除。首先对语音进行短时傅里叶变换 (Sho;rt-time Fourier Transform,STFT);然后在频域通过迭代估计出一组最优的线性滤 波器的参数;最后采用线性滤波器对STFT系数进行滤波,得到语音中消除混响后的STFT系 数估计,实现对混响的消除。该算法在进行迭代估计时需要进行较多的运算,并且滤波器的 长度需要人为设定。实际应用环境中,混响的影响并不是固定的,采用固定的滤波器长度将 很难实现在不同环境下的稳定工作。
技术实现思路
有鉴于此,本专利技术针对现有技术存在之缺失,其主要目的是提供一种环境自适应 的语音混响消除方法和系统,其能够对大多数的室内环境下的语音混响进行消除,并且能 够迅速的适应室内环境的变化,实现对室内混响环境的自适应。 为实现上述目的,本专利技术采用如下之技术方案: -种环境自适应的语音混响消除方法,包括有W下步骤:[000引步骤100:使用混响模型训练装置训练混响模型,并且将训练得到的混响模型存储 于音频处理装置的第二存储器中; 步骤200 :采用RT60获取装置获取当前环境下的RT60值,并且发送给音频处理装 置; 步骤300:输入获取到的数字语音信号; 步骤400:使用音频处理装置中的第二特征提取模块提取输入语音的MFCC,具体步 骤与混响模型训练装置中的特征提取一致;步骤500:将原始的特征经过前5帖后4帖的扩展,形成320维数据,再将320维数据 的每一维进行均值方差归一化处理; 步骤600:根据获取到的RT60值,读取第一存储器里对应的混响模型; 步骤700:根据输入的归一化MFCC特征及混响模型,通过混响模型的参数对输入的 语音特征进行映射得到混响消除后的语音特征,也就是将提取的归一化MFCC特征作为输 入,根据混响模型的参数得到不带混响的语音特征; 步骤800:输出混响消除后的语音特征,该输出可作为鲁棒性语音特征供语音识别 或说话人识别使用。 作为一种优选方案,所述步骤100中包括有W下步骤: 步骤101:整理语料,混响语音采用在安静语音的基础上卷积加入房间脉冲响应获 得; 步骤102:按所在的混响时间区间分别使用第一特征提取模块提取带混响的语音 及安静语音的MFCC; 步骤103:将原始的特征经过前5帖后4帖的扩展,形成320维数据,再将320维数据 的每一维进行均值方差归一化处理; 步骤104:构建编码器,编码器的形式采用DAE的形式,使用RBM堆叠的方式构建深 度置信网络;步骤105:训练编码器,分别训练各个混响时间区间内的语音特征,并得到对应的 混响模型; 步骤106:将第二存储器中的所有混响模型及对应的一些参数存储到音频处理装 置中的第二存储器里。 作为一种优选方案,所述步骤200中包括有W下步骤: 步骤201:使用RT60获取模块获取当前时刻的RT60估计值; 步骤202:使用存储器存储RT60获取模块测得的RT60值; 步骤203:使用算数平均模块,估计出当前时刻的RT60"真值"; 步骤204:采用第一无线接口向音频处理装置发送RT60的"真值"。 -种环境自适应的语音混响消除系统,包括有混响模型训练装置、RT60获取装置 W及音频处理装置;该混响模型训练装置包括有第一特征提取模块、编码模块和模型存储 器,该第一特征提取模块连接编码模块,该编码模块连接模型存储器;该RT60获取装置包括 有RT60获取模块、第一存储器、算数平均模块和第一无线接口,该RT60获取模块连接第一存 储器,该第一存储器连接算数平均模块,该算数平均模块连接第一无线接口;该音频处理装 置包括有第二特征提取模块、解码模块、第二无线接口和第二存储器,该第二特征提取模块 连接解码模块,该第二无线接口连接第二存储器,该第二存储器连接解码模块,前述第一无 线接口无线连接第二无线接口,前述模型存储器连接第二存储器。 本专利技术与现有技术相比具有明显的优点和有益效果,具体而言,由上述技术方案 可知: 首先,考虑到RT60值的大小可W近似表征房间的混响量的大小及特殊的室内应用 环境(RT60的值会在一个较小的范围内),本专利技术中将RT60值按大小分成多个区间,使用区 间内的语音特征来训练混响模型,使得数据训练的更加充分,混响模型更有针对性;其次, 通过结合当前环境的RT60值所在区间和使用对应区间的混响模型进行解码的方法实现了 对不同房间环境的自适应;再者,由于采用深度网络训练模型,在实际应用时就不需要估计 混响分量,直接根据模型参数进行解码即可得到混响消除后的语音特征,减少了计算量。 为更清楚地阐述本专利技术的结构特征和功效,下面结合附图与具体实施例来对本发 明进行详细说明。【附图说明】 图1是本专利技术之较佳实施例的系统框图; 图2是本专利技术之较佳实施例中RBM的结构示意图; 图3是本专利技术之较佳实施例中降噪自动编码器的结构示意图; 图4是本专利技术之较佳实施例中采用的网络结构图; 图5是本专利技术之较佳实施例中混响模型预训练和微调过程示意图; 图6是本专利技术之较佳实施例原理流程图; 图7是本专利技术之较佳实施例混响模型训练和RT60获取流程图。 附图标识说明: 10、混响模型训练装置 11、第一特征提取模块 12、编码模块 13、模型存储器 20、RT60获取装置 2URT60获取模块 22、第一存储器 23、算术平均模块 24、第一无线接口 30、音频处理装置 31、第二特征提取模块 32、解码模块 33、第二无线接口 34、第二存储器【具体实施方式】 本专利技术公开一种环境自适应的语音混响消除系统,该系统主要包括有混响模型训 练装当前第1页1 2 3 4 本文档来自技高网
...

【技术保护点】
一种环境自适应的语音混响消除方法,其特征在于:包括有以下步骤:步骤100:使用混响模型训练装置训练混响模型,并且将训练得到混响模型的存储于音频处理装置的第二存储器中;步骤200:采用RT60获取装置获取当前环境下的RT60值,并且发送给音频处理装置;步骤300:输入获取到的数字语音信号;步骤400:使用音频处理装置中的第二特征提取模块提取输入语音的MFCC,具体步骤与混响模型训练装置中的特征提取一致;步骤500:将原始的特征经过前5帧后4帧的扩展,形成320维数据,再将320维数据的每一维进行均值方差归一化处理;步骤600:根据获取到的RT60值,读取第一存储器里对应的混响模型;步骤700:根据输入的归一化MFCC特征及混响模型,通过混响模型的参数对输入的语音特征进行映射得到混响消除后的语音特征,也就是将提取的归一化MFCC特征作为输入,根据混响模型的参数得到不带混响的语音特征;步骤800:输出混响消除后的语音特征,该输出可作为鲁棒性语音特征供语音识别或说话人识别使用。

【技术特征摘要】

【专利技术属性】
技术研发人员:卓鹏鹏李稀敏肖龙源
申请(专利权)人:厦门快商通信息技术有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1