语音增强方法技术

技术编号:21737262 阅读:67 留言:0更新日期:2019-07-31 19:41
本发明专利技术公开一种语音增强方法,包括:计算第m帧的滤波增强语音xm的权重

Speech Enhancement Method

【技术实现步骤摘要】
语音增强方法
本专利技术是申请人于2016年01月14日提出的名为“一种基于统计模型的双传感器语音增强方法与装置”、申请号为201610025390.7的专利申请的分案申请,本专利技术涉及数字信号处理领域,特别涉及一种语音增强方法。
技术介绍
通信是现代人与人之间进行交流的重要手段,而语音作为通信系统中最常见的形式,其质量直接影响了人们获取信息的准确性。语音在传播的过程中,难免受到各种各样环境噪声的干扰,其音质、可懂度都将明显下降,因此在实际应用中往往会利用语音增强技术对噪声环境下的语音进行处理。语音增强技术能从噪声背景中提取有用的语音信号,是抑制、降低噪声干扰的基本手段。传统的语音增强对象是基于空气传导传感器(如麦克风等)采集的语音信号,根据处理方式的不同,常用的语音增强技术可以分为基于模型的方法和非基于模型的方法两类。非基于模型的增强方法有谱减法、滤波法、小波变换法等,它们通常假定噪声是相对平稳的,当噪声变化过快时,其增强效果并不能令人满意。基于模型的语音增强方法则首先对语音信号和噪声信号建立统计模型,然后通过模型获取干净语音的最小均方误差估计或最大后验概率估计。这类方法能够避免音乐噪声的产生,并能处理非平稳噪声。但由于上述的基于模型和非基于模型的方法均基于麦克风等空气传导语音传感器,其信号容易受环境中的声学噪声影响,特别是在强噪声环境下,系统性能会大幅度下降。为解决强噪声对语音处理系统的影响,有别于传统的空气传导传感器,非空气传导的语音传感器利用说话人声带、颚骨等部位的振动来带动传感器中的簧片或者碳膜发生变化,改变其电阻值,使其两端的电压发生变化,从而将振动信号转化为电信号,即语音信号。由于空气中传导的声波无法使非空气传导传感器的簧片或者碳膜发生形变,因此非空气传导传感器不受空气传导声音的影响,具有很强的抗环境声学噪声干扰的能力。但因非空气传导传感器采集的是通过颚骨、肌肉、皮肤等的振动传播的语音,表现为发闷、含糊不清,其高频部分丢失严重,语音可懂度较差,制约了非空气传导技术的实际应用。鉴于空气传导与非空气传导传感器的单独应用都存在一定的缺陷,近年来出现了一些结合两者优点的语音增强方法。这些方法利用空气传导传感器语音和非空气传导传感器语音的互补性,采用多传感器融合技术来实现语音增强的目的,通常能取得比单传感器语音增强系统更好的效果。但现有的空气传导传感器与非空气传导传感器结合的语音增强方法还存在以下不足:(1)空气传导传感器语音与非空气传导传感器语音通常独立地进行恢复处理,然后再将两者恢复后的语音进行融合,未能在空气传导传感器语音和非空气传导传感器语音的恢复过程中充分利用两者之间的互补性;(2)在多变的强噪音环境下,空气传导传感器语音纯语音段的统计特性会被严重干扰,增强语音的信噪比也会降低,导致融合后语音增强效果不明显。
技术实现思路
本专利技术提供一种语音增强方法,包括:计算第m帧的滤波增强语音xm的权重和第m帧的映射语音ym的权重通过以下公式将滤波增强语音xm与映射语音ym加权叠加,得到融合增强语音:其中滤波增强语音是对同步采集的气导检测语音和非气导检测语音中的气导检测语音进行增强滤波获得,映射语音是对非气导检测语音进行非气导语音到气导语音的转换获得。本专利技术相对于现有技术具有如下的优点及效果:1、本专利技术在气导语音增强过程中,结合非气导传感器语音和气导传感器语音来构建当前用于分类的语音统计模型以及进行端点检测,并据此构造最佳气导语音滤波器,提高了气导语音的增强效果,显著增加了整个系统的鲁棒性;2、本专利技术采用了两级语音增强的结构方法,在气导语音因强噪声而滤波效果不好时,第二级语音增强将滤波语音与非气导语音的映射语音进行自适应加权融合,仍能取得好的语音增强效果;3、本专利技术采用的空气传导传感器与非空气传导传感器之间没有距离限制,使用方便。附图说明图1是本专利技术实施例公开的基于统计模型的双传感器语音增强方法的流程步骤图;图2为本专利技术实施例中训练语音统计模型的流程步骤图;图3为本专利技术实施例中建立非气导语音到气导语音映射模型的流程步骤图;图4为本专利技术实施例中建立气导噪声统计模型的流程步骤图;图5为本专利技术实施例中修正联合统计模型的流程步骤图;图6为本专利技术实施例中估算最佳气导语音滤波器的流程步骤图;图7为本专利技术实施例中映射语音和滤波增强语音加权融合的流程步骤图;图8为本专利技术实施例公开的基于统计模型的双传感器语音增强装置的结构框图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例一本实施例公开了一种基于统计模型的双传感器语音增强方法,具体流程步骤参照附图1所示,可知该双传感器语音增强方法包括下列流程步骤:步骤S1:同步采集干净的气导训练语音和非气导训练语音,建立用于分类的联合统计模型,并计算对应于每个分类的气导语音线性频谱统计模型,具体又可以分为以下几步,流程如图2所示:步骤S1.1:同步采集干净的气导训练语音和非气导训练语音并进行分帧,提取每帧语音的特征参数;上述实施例中,利用语音接收模块采集干净、同步的气导训练语音和非气导训练语音。对输入的干净训练语音进行分帧和预处理后做离散傅里叶变换,然后利用梅尔滤波器,提取两种训练语音的梅尔频率倒谱系数MFCC,作为联合统计模型的训练数据。在另一些实施例中,提取的是气导训练语音和非气导训练语音的LPCC或LSF系数。步骤S1.2:将步骤S1.1中气导训练语音和非气导训练语音的特征参数拼接得到干净的联合语音特征参数;上述实施例中,将气导训练语音的倒谱域特征矢量序列记为:SN={sN1,sN2,...,sNn},n为语音数据帧数,sNl为第l帧特征的列向量;非气导训练语音的倒谱域特征矢量序列记为:ST={sT1,sT2,…,sTn},帧数为n,sTl为第l帧特征的列向量。将第l帧气导训练语音和第l帧非气导训练语音的倒谱域特征参数进行拼接,得到第l帧倒谱域联合特征矢量为步骤S1.3:利用步骤S1.2得到的联合语音特征参数,训练用于分类的倒谱域联合统计模型;上述实施例中,采用多数据流混合高斯模型来拟合联合训练语音的概率分布,倒谱域联合统计模型的概率密度函数为:其中s是语音数据流的序号,M是GMM中的混合分量数,θs是语音数据流所占权重,πm是模型混合分量先验权重,和分别表示倒谱域联合统计模型第m分类中语音数据流s的均值矢量和方差矩阵,zs为第s个数据流的特征矢量,是单高斯分布概率密度函数。令λ表示多数据流高斯混合模型的参数集,Z={z1,z2,...,zn}表示训练用的倒谱域联合特征矢量集合,则倒谱域联合统计模型似然函数为:利用最大期望算法(ExpectationMaximizationAlgorithm)可以求出使得P(Z|λ)最大的模型参数集λ。步骤S1.4:对用于训练的所有倒谱域联合语音帧进行分类,计算属于每个分类的所有联合语音帧中气导语音的线性频谱域统计参数,建立与每个分类相对应的气导语音线性频谱统计模型。上述实施例中,多数据流混合高斯模型中的每个高斯分量代表一个分类,对于用于训练的所有倒谱域联合语音帧,计算每一帧倒谱域联合特征矢量zl属于倒本文档来自技高网
...

【技术保护点】
1.一种语音增强方法,其特征在于,包括:计算第m帧的滤波增强语音xm的权重

【技术特征摘要】
1.一种语音增强方法,其特征在于,包括:计算第m帧的滤波增强语音xm的权重和第m帧的映射语音ym的权重通过以下公式将滤波增强语音xm与映射语音ym加权叠加,得到融合增强语音:其中所述滤波增强语音是对同步采集的气导检测语音和非气导检测语音中的气导检测语音进行增强滤波获得,所述映射语音是对非气导检测语音进行非气导语音到气导语音的转换获得。2.根据权利要求1所述的方法,其特征在于,所述权重和通过以下公式计算:其中,和分别为第m帧滤波增强语音xm和映射语音ym的幅度方差,SNRm为第m帧滤波增强语音xm的信噪比,α、β为预设的常数。3.根据权利要求2所述的方法,其特征在于,所述将所述气导的映射语音与所述滤波增强语音进行加权融合的步骤之前,进一步包括:根据对气导检测语音进行端点检测得到的语音信号起点时刻,截取滤波增强语音中信号起点前的所有数据帧,求平均功率作为噪声帧的功率所述信噪比SNRm通过以下公式计算:其中是第m帧滤波增强语音xm的功率。4.根据权利要求1所述的方法,其特征在于,所述计算第m帧的滤波增强语音xm的权重和第m帧的映射语音ym的权重的步骤之前,进一步包括:同步采集气导检测语音和非气导检测语音,检测气导检测语音的端点,然后利用气导检测语音的纯噪声段建立气导噪声统计模型;利用所述气导噪声统计模型修正联合统计模型,并对气导检测语音帧进行分类;根据分类结果对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器;利用所述最佳气导语音滤波器对气导检测语音进行滤波增强后得到滤波增强语音,其中,所述联合统计模型和所述气导语音线性频谱统计模型由同步采集的干净的气导训练语音和非气导训练语音预先建立,所述联合统计模型为倒频域联合统计模型。5.根据权利要求4所述的方法,其特征在于,所述同步采集气导检测语音和非气导检测语音,检测气导检测语音的端点,然后利用气导检测语音的纯噪声段建立气导噪声统计模型的步骤包括:同步采集气导检测语音和非气导检测语音并分帧;根据非气导检测语音帧的短时自相关函数和短时能量,计算每帧非气导检测语音帧的短时平均过门限率,当所述短时平均过门限率大于预设的门限值时,判断所述非气导检测语音帧为语音信号,否则为噪声;根据每个所述非气导检测语音帧的判决结果得到非气导检测语音信号的端点位置;将检测到的所述非气导检测语音信号端点对应的时刻作为气导检测语音的端点,提取气导检测语音中的纯噪声段;计算气导检测语音中纯噪声段信号的线性频谱均值,保存该均值为气导噪声的统计模型参数。6.根据权利要求5所述的方法,其特征在于,所述短时平均过门限率通过以下公式计算:Cw(n)={|sgn[Rw(k)-αT]-sgn[Rw(k-1)-αT]|+|sgn[Rw(k)+αT]-sgn[Rw(k-1)+αT]|}w(n-k);其中sgn[·]为取符号运算,为调节因子,w(n)为窗函数,T为门限初值,Rw(k)为所述短时自相关函数,E...

【专利技术属性】
技术研发人员:张军陈鑫源潘伟锵宁更新冯义志余华季飞陈芳炯
申请(专利权)人:深圳市韶音科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1