当前位置: 首页 > 专利查询>天津大学专利>正文

基于振幅和相位信息的多目标学习的远场语音识别方法技术

技术编号:21143719 阅读:18 留言:0更新日期:2019-05-18 05:55
本发明专利技术公开了一种基于振幅和相位信息的多目标学习的远场语音识别方法,包括以下步骤:步骤一,输入数据准备;步骤二,提取振幅特征和多种相位特征;步骤三,构建多任务深度神经网络,将提取的振幅特征和相位特征输入到神经网络中训练,输出增强后语音以及增强后的特征。利用增强后的语音做SRMR评测,利用增强后的特征做语音识别。本发明专利技术利用了多目标学习的方法,同时增强了语音和特征,与现有的方法相比,考虑到了群延迟系统(MGDCC)特征在混响语音下的效果较差,增加了另一种相位特征基于相位域的源分离方法的声道信息(PBSFVT)来弥补MGDCC的不足,进而提高语音识别准确率。

【技术实现步骤摘要】
基于振幅和相位信息的多目标学习的远场语音识别方法
本专利技术属于远场语音识别
,具体是涉及一种基于振幅和相位信息的多目标学习的远场语音识别方法。
技术介绍
语音交互是人类社会最直接、最自然的沟通交流方式。语音识别作为关键技术之一,能够通过识别语音信号,将语音信号转化为文本文字。语音识别是一门触及广泛领域的交叉学科,其最终目的是使人类同计算机进行语音交互。经过多年的研究,近场语音识别技术已经取得了重大突破,并大大提高了性能,但是远场语音识别技术还存在着诸多问题,在远场语音识别中,目标语音经常会被背景噪声和混响干扰,从而降低了语音识别的准确率,导致性能的急剧下降。因此需要对麦克风采集到的信号进行语音增强处理,去除噪声和混响等干扰因素。
技术实现思路
本专利技术针对相位信息在混响语音中受到严重干扰,而且相位信息本身存在的相位卷绕问题,使用了群延迟方法避免相位信息的卷绕问题,同时尝试使用不同的相位信息,群延迟系统(MGDCC)以及基于相位域的源分离方法的声道信息(PBSFVT),利用不同相位信息的互补性作为重要的辅助特征来进行语音增强。为了解决以上问题,本专利技术使用不同的相位信息作为重要的辅助特征来进行语音增强,提出了一种基于振幅和相位信息的多目标学习的远场语音识别方法,采用的技术方案如下:基于振幅和相位信息的多目标学习的远场语音识别方法,包括以下步骤:1)输入数据准备:分别对训练集、开发集和验证集中的数据进行数据准备;2)特征提取:(1)基于振幅信息的特征提取:通过分帧、加窗,并对每一个短时分析窗,通过快速傅里叶变换将信号由时域转换到频域并且得到对应的频谱,然后使用Mel滤波器进行频率的过滤并且以此来模拟人类的感知系统;(2)基于相位信息的特征提取:提取每一帧语音的相位信息,包括群延迟系统MGDCC以及基于相位域的源分离方法的声道信息PBSFVT两种相位特征;3)模型训练:将提取到的特征输入到多目标的DNN中,多目标的DNN网络可以同时对两个不同的目标进行学习,从而模拟不同目标之间的共性和差异。所述步骤2)-(2)中基于相位信息的特征提取,包括群延迟系统MGDCC相位特征,具体提取过程如下:在进行语音信号处理的过程中,需要对语音信号的相位部分进行展开求解其负导数,其负导数称为群延迟系数(GDF);群延迟函数其本质上是计算连续语谱图的导数的负数;连续的相位谱特征即非卷绕的相位谱特征可以表示为:群延迟函数也同样可以被计算为下列的表述形式:其中:下角标R和I分别表示的实部和虚部两个部分,和Y(ω)分别表示的是x(n)和nx(n)傅里叶转换之后的频域信息;调整之后的群延迟系数可以计算为:其中:S(ω)表示X(ω)的平滑版本;减少频谱的尖峰特性,引入了两个新的变量α和γ来进行消除:其中:α和γ,其取值范围均在0~1之间。所述步骤2)-(2)中基于相位信息的特征提取,包括基于相位域的源分离方法的声道信息PBSFVT两种相位特征,具体提取过程如下:使用短时傅里叶变换X(ω)可以被分解为两种:全通相位以及最小相位两个部分:X(ω)=|X(ω)|ejarg{X(ω)}=XMinPh(ω)XAllp(ω)其中:XMinPh(ω)和XAllp(ω)分别表示傅里叶变换之后的X对应的最小相位部分和全通相位部分,并且最小相位和原始语音信号之间存在着下式的关系:|X(ω)|=|XMinPh(ω)|另一方面,最小相位和全通相位之间的关系为:arg{X(ω)}=arg{XMinPh(ω)}+arg{XAllp(ω)}通过希尔伯特变换将语音信号从振幅域变换到相位域中,获得最小相位特征:通过傅里叶变换后,卷积关系会变成相乘关系,得到下列等式:将最小相位特征以及声道信息处理方法结合起来,使用源滤波模型在最小相位域的操作进行源滤波操作进行信息分离,将最小相位语音信号分解为声源信息和声道信息,从而得到两者不同的模型。所述步骤3)具体为:构建多任务深度神经网络,将提取的振幅特征和相位特征输入到神经网络中训练,输出增强后语音以及增强后的特征。还包括SRMR测评和语音识别,具体是将DNN输出的增强后的特征进行语音识别,从而得到词错误率WER(WordErrorRate),把输出的增强后的语音进行SRMR评测。有益效果本专利技术利用了多目标学习的方法,同时增强了语音信号和语音的特征,与现有的方法相比,考虑到了群延迟系统(MGDCC)特征在混响语音下的效果较差,增加了另一种相位特征基于相位域的源分离方法的声道信息(PBSFVT)来弥补MGDCC的不足,进而提高语音识别准确率。附图说明图1是本专利技术提出的多目标学习框架基本结构图。图2是基于源分离方法的最小相位域声道信息提取过程。图3是本专利技术方法流程图。具体实施方式下面通过具体实施例和附图对本专利技术作进一步的说明。本专利技术的实施例是为了更好地使本领域的技术人员更好地理解本专利技术,并不对本专利技术作任何的限制。如图3所示,一种基于振幅和相位信息的多目标学习的远场语音识别方法,包括以下步骤:步骤一,输入数据准备:数据集选取REVERB2014挑战赛所提供的数据,分别对训练集、开发集和验证集中的数据进行数据准备;步骤二,特征提取:1)基于振幅信息的特征提取:通过分帧、加窗,并对每一个短时分析窗,通过快速傅里叶变换将信号由时域转换到频域并且得到对应的频谱,然后使用Mel滤波器进行频率的过滤并且以此来模拟人类的感知系统。2)基于相位信息的特征提取:提取每一帧语音的相位信息,包括群延迟系统(MGDCC)以及基于相位域的源分离方法的声道信息(PBSFVT)两种相位特征。本专利技术所述步骤二基于相位信息的特征提取包括群延迟系统(MGDCC)以及基于相位域的源分离方法的声道信息(PBSFVT)两种相位特征,具体提取过程如下:1)MGDCC提取:当我们在进行语音信号处理的过程中,需要对语音信号的相位部分进行展开求解其负导数,其负导数称为群延迟系数(GDF),这样做可以有效地用于提取各种语音信号参数。群延迟函数是目前相位谱的主要表示方法,其本质上是计算连续语谱图的导数的负数。因此连续的相位谱特征即非卷绕的相位谱特征可以表示为:在上式中,是非卷绕的相位信息函数,群延迟函数也同样可以被计算为下列的表述形式,其中,下角标R和I分别表示的实部和虚部两个部分,和Y(ω)分别表示的是x(n)和nx(n)傅里叶转换之后的频域信息。另外从上式中可以看出,分母在靠近单位圆的零处消失,因此需要对该函数进行进一步的调整,即针对分母变为零的情况进行调整。通过用其基于平滑的谱来代替分母进行解决分母变为零的问题,可以克服群延迟谱的尖峰的特性。调整之后的群延迟系数可以计算为:其中,S(ω)表示X(ω)的平滑版本,但是原始的群延迟函数仍然存在着共振峰谱的峰值尖锐问题,这样会影响语音识别的性能。为了减少频谱的尖峰特性,引入了两个新的变量α和γ来进行消除,其取值范围在0~1之间。2)PBSFVT提取:语音信号是一种混合相位信息的信号,其中包含最小相位信息以及全通相位信息等等。因此使用短时傅里叶变换X(ω)可以被分解为两种:全通相位以及最小相位两个部分。X(ω)=|X(ω)|ejarg{X(ω)}=XMinPh(ω)XAllp(ω)其中,XMinPh(ω)和XAllp(ω)分别表示傅里本文档来自技高网...

【技术保护点】
1.基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,包括以下步骤:1)输入数据准备:分别对训练集、开发集和验证集中的数据进行数据准备;2)特征提取:(1)基于振幅信息的特征提取:通过分帧、加窗,并对每一个短时分析窗,通过快速傅里叶变换将信号由时域转换到频域并且得到对应的频谱,然后使用Mel滤波器进行频率的过滤并且以此来模拟人类的感知系统;(2)基于相位信息的特征提取:提取每一帧语音的相位信息,包括群延迟系统MGDCC以及基于相位域的源分离方法的声道信息PBSFVT两种相位特征;3)模型训练:将提取到的特征输入到多目标的DNN中,多目标的DNN网络可以同时对两个不同的目标进行学习,从而模拟不同目标之间的共性和差异。

【技术特征摘要】
1.基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,包括以下步骤:1)输入数据准备:分别对训练集、开发集和验证集中的数据进行数据准备;2)特征提取:(1)基于振幅信息的特征提取:通过分帧、加窗,并对每一个短时分析窗,通过快速傅里叶变换将信号由时域转换到频域并且得到对应的频谱,然后使用Mel滤波器进行频率的过滤并且以此来模拟人类的感知系统;(2)基于相位信息的特征提取:提取每一帧语音的相位信息,包括群延迟系统MGDCC以及基于相位域的源分离方法的声道信息PBSFVT两种相位特征;3)模型训练:将提取到的特征输入到多目标的DNN中,多目标的DNN网络可以同时对两个不同的目标进行学习,从而模拟不同目标之间的共性和差异。2.根据权利要求1所述的基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,所述步骤2)-(2)中基于相位信息的特征提取,包括群延迟系统MGDCC相位特征,具体提取过程如下:在进行语音信号处理的过程中,需要对语音信号的相位部分进行展开求解其负导数,其负导数称为群延迟系数(GDF);群延迟函数其本质上是计算连续语谱图的导数的负数;相位谱特征即非卷绕的相位谱特征可以表示为:群延迟函数也同样可以被计算为下列的表述形式:其中:下角标R和I分别表示的实部和虚部两个部分,和Y(ω)分别表示的是x(n)和nx(n)傅里叶转换之后的频域信息;调整之后的群延迟系数可以计算为:其中:S(ω)表示X(ω)的平滑版本;减少频谱的尖峰特性,引入了两个新的变量α和γ来进行消除:其中:α和γ,其取值范围均在0~1之间。3.根据权利要求1所述的基...

【专利技术属性】
技术研发人员:党建武崔凌赫王龙标李东播
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1