当前位置: 首页 > 专利查询>武汉大学专利>正文

一种面向语音识别的语音增强方法技术

技术编号:23707318 阅读:110 留言:0更新日期:2020-04-08 11:38
本发明专利技术公开了一种面向语音识别的语音增强方法,包括:步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强。本发明专利技术方法利用估计语音提高语音识别性能,并保证了人耳听觉感知质量,更适用于面向语音识别的语音增强。

A speech enhancement method for speech recognition

【技术实现步骤摘要】
一种面向语音识别的语音增强方法
本专利技术属于声学
,涉及一种语音增强方法,尤其涉及一种面向语音识别的语音增强方法。
技术介绍
随着深度学习在图像领域的迅速发展,人们也开始在语音信号处理中广泛地应用深度神经网络,特别是基于神经网络的单通道语音增强。基于神经网络的语音增强方法充分利用了现有的语音数据,学习到了语音和噪声的统计特性,其对于复杂噪声环境下的鲁棒性更好,因而相比传统方法能得到更优的增强性能。基于深度学习的语音增强将有噪声的语音映射为干净的语音。在训练阶段,常采用目标函数对模型参数进行优化。但是,改进后的语音模型优化准则与评价准则存在不一致之处。例如,在测量语言可懂度时,大多数评价度量是基于短时间客观可懂度(STOI)进行测量,而模型的优化大多是估计语音和干净语音的均方误差(MSE)。MSE通常在线性频率范围内定义,而人的听觉感知则遵循Mel-频率尺度。于是,2018年Szu-WeiFu通过将STOI集成到模型优化中,提高了增强语音的可懂度。但在语音识别的实验中,其性能并没有提高。在2017年,EVincent等人在实验中指出,影响语音识别性能的可能原因是语音增强的目标。于是,EVincent等人改进了语音增强的目标信号,不改变语音增强模型,结果发现确实提高了语音识别性能。但此时使用的模型优化目标函数仍然是MSE,没有与人耳听觉感知标准匹配。为了在保证人耳听觉感知质量的情况下,又能同时提高语音识别性能,本专利技术提出了一种面向语音识别的语音增强。
技术实现思路
本专利技术在保证与人耳听觉感知标准高度匹配的情况下,又能提高语音识别性能,提出了一种面向语音识别的语音增强。本专利技术所采用的技术方案是一种面向语音识别的语音增强方法,包括以下步骤:步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强。而且,步骤1的实现包括以下子步骤,步骤1.1,对近端和远端麦克风录制的带噪语音分别做分帧、加窗和短时傅里叶变换,得到C(n,f)和Xi(n,f),其中n为帧索引,f为频点索引,i为远端阵列麦克风的索引;步骤1.2,估计干净语音为Si(n,f),计算每个时频单元的残差Ri(n,f),公式如下,Ri(n,f)=Xi(n,f)-Si(n,f)其中,设定帧搜索范围l,Lmin为向前搜索参数,Lmax为向后搜索参数,Gi(l,f)表示从近端麦克风信号到远端麦克风的传输函数,由最小化总残差推出,公式如下,其中,*表示对矩阵做复共轭运算,H表示对矩阵做复共轭和转置运算;步骤1.3,将估计的干净语音Sid(n,f)做逆傅里叶变换,从频域转化到时域上,作为参考语音信号。而且,向前搜索参数Lmin=-3,向后搜索参数Lmax=8。而且,步骤2的实现包括以下子步骤,步骤2.1,对参考语音和待测降噪语音分别做分帧、加窗和短时傅里叶变换,将信号从时域转换到频域;步骤2.2,找到参考语音中能量最大的帧,去掉参考语音和待测降噪语音中低于该帧40db以下的信号,然后分别对两个信号进行频带分析;步骤2.3,根据步骤2.2所得结果计算参考语音和待测降噪语音的短时频谱包络,并用向量表示,得到xj,m和yj,m;步骤2.4,将待测降噪语音进行归一化剪裁;步骤2.5,计算每个时频单元的相关系数,得到xj,m和yj,m的相关系数dj,m;步骤2.6,计算所有帧对应的所有频带对应的相关系数的平均值,其中,J是子带数量,M是帧的数量,d为目标函数的最终表示,范围从0到1,越靠近1,说明语音质量越好。而且,语音增强的深度神经网络模型采用全卷积神经网络FCN。本专利技术方法利用估计语音提高语音识别性能,并保证了人耳听觉感知质量,更适用于面向语音识别的语音增强。附图说明图1是本专利技术实施例的深度神经网络模型。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。本专利技术提供的方法能够用计算机软件技术实现流程,也可以采用装置形式提供相应系统。实施例以数据集CHiME3为例对本专利技术的流程进行一个具体的阐述。本专利技术实施例提供的一种面向语音识别的语音增强方法,包括如下流程:步骤1:利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;针对步骤1,本实施例可以采用以下步骤实现:步骤1.1:对近端和远端麦克风录制的带噪语音分别做分帧,加窗,短时傅里叶变换,得到C(n,f)和Xi(n,f),其中n为帧索引,f为频点索引,i为远端阵列麦克风的索引,即通道索引;其中,C(n,f)是近端麦克风录制的带噪语音信号做完短时傅里叶变换的频域表示;Xi(n,f)是远端麦克风录制的带噪语音信号做完短时傅里叶变换的频域表示。实施例中,远端的麦克风是阵列麦克风,采集的信号是多通道的,i为通道索引。步骤1.2:估计干净语音为Si(n,f),计算每个时频单元的残差Ri(n,f),公式如下:Ri(n,f)=Xi(n,f)-Si(n,f)其中设定帧搜索范围l,实施例中向前搜索参数Lmin=-3,向后搜索参数Lmax=8,Gi(l,f)表示从近端麦克风信号到远端麦克风的传输函数,由最小化总残差可推出,公式如下:其中,*表示对矩阵做复共轭运算,H表示对矩阵做复共轭和转置运算。步骤1.3:将估计的干净语音Sid(n,f)做逆傅里叶变换,从频域转化到时域上,作为参考语音信号。步骤2:将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数。针对步骤2,本实施例可以采用以下步骤实现:步骤2.1:对参考语音和待测降噪语音分帧,加窗,做短时傅里叶变换,将信号从时域转换到频域。步骤2.2:找到参考语音中能量最大的帧,去掉参考语音和待测降噪语音中低于该帧40db以下的信号,然后分别对两个信号进行频带分析。其中,数值40db是按照本领域计算静音帧的习惯设置。设j为子带索引,m为帧索引,以表示参考语音的第m帧的第k个频带,对信号做频带分析,按频率划分子带以后,将第j个子带的范数称为一个时频单元,得到时频单元Xj(m)。将待测降噪语音也做同样的处理,得到对应的时频单元Yj(m)。步骤2.3:计算参考语音和待测降噪语音的短时频谱包络,并用向量表示;参考语音的短时频谱包本文档来自技高网...

【技术保护点】
1.一种面向语音识别的语音增强方法,其特征在于,包括以下步骤:/n步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;/n步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;/n步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强。/n

【技术特征摘要】
1.一种面向语音识别的语音增强方法,其特征在于,包括以下步骤:
步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;
步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;
步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强。


2.根据权利要求1所述的面向语音识别的语音增强方法,其特征在于:步骤1的实现包括以下子步骤,
步骤1.1,对近端和远端麦克风录制的带噪语音分别做分帧、加窗和短时傅里叶变换,得到C(n,f)和Xi(n,f),其中n为帧索引,f为频点索引,i为远端阵列麦克风的索引;
步骤1.2,估计干净语音为Si(n,f),计算每个时频单元的残差Ri(n,f),公式如下,



Ri(n,f)=Xi(n,f)-Si(n,f)
其中,设定帧搜索范围l,Lmin为向前搜索参数,Lmax为向后搜索参数,Gi(l,f)表示从近端麦克风信号到远端麦克风的传输函数,由最小化总残差推出,公式如下,



其中,*表示对矩阵做复共轭运算,H表示对矩阵做复共轭和转置运算;
步骤1.3,将估计的干净语音Sid(n,f)做逆傅里叶变换,从频域转化到时域上,作为参考语音信号。

【专利技术属性】
技术研发人员:杨玉红冯佳倩蔡林君涂卫平艾浩军高戈
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1