基于振幅和相位信息的多目标学习的远场语音识别方法技术

技术编号：21143719 阅读：18 留言：0更新日期：2019-05-18 05:55

本发明专利技术公开了一种基于振幅和相位信息的多目标学习的远场语音识别方法，包括以下步骤：步骤一，输入数据准备；步骤二，提取振幅特征和多种相位特征；步骤三，构建多任务深度神经网络，将提取的振幅特征和相位特征输入到神经网络中训练，输出增强后语音以及增强后的特征。利用增强后的语音做SRMR评测，利用增强后的特征做语音识别。本发明专利技术利用了多目标学习的方法，同时增强了语音和特征，与现有的方法相比，考虑到了群延迟系统(MGDCC)特征在混响语音下的效果较差，增加了另一种相位特征基于相位域的源分离方法的声道信息(PBSFVT)来弥补MGDCC的不足，进而提高语音识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于振幅和相位信息的多目标学习的远场语音识别方法
本专利技术属于远场语音识别
，具体是涉及一种基于振幅和相位信息的多目标学习的远场语音识别方法。
技术介绍
语音交互是人类社会最直接、最自然的沟通交流方式。语音识别作为关键技术之一，能够通过识别语音信号，将语音信号转化为文本文字。语音识别是一门触及广泛领域的交叉学科，其最终目的是使人类同计算机进行语音交互。经过多年的研究，近场语音识别技术已经取得了重大突破，并大大提高了性能，但是远场语音识别技术还存在着诸多问题，在远场语音识别中，目标语音经常会被背景噪声和混响干扰，从而降低了语音识别的准确率，导致性能的急剧下降。因此需要对麦克风采集到的信号进行语音增强处理，去除噪声和混响等干扰因素。
技术实现思路
本专利技术针对相位信息在混响语音中受到严重干扰，而且相位信息本身存在的相位卷绕问题，使用了群延迟方法避免相位信息的卷绕问题，同时尝试使用不同的相位信息，群延迟系统(MGDCC)以及基于相位域的源分离方法的声道信息(PBSFVT)，利用不同相位信息的互补性作为重要的辅助特征来进行语音增强。为了解决以上问题，本专利技术使用不同的相位信息作为重要的辅助特征来进行语音增强，提出了一种基于振幅和相位信息的多目标学习的远场语音识别方法，采用的技术方案如下：基于振幅和相位信息的多目标学习的远场语音识别方法，包括以下步骤：1)输入数据准备：分别对训练集、开发集和验证集中的数据进行数据准备；2)特征提取：(1)基于振幅信息的特征提取：通过分帧、加窗，并对每一个短时分析窗，通过快速傅里叶变换将信号由时域转换到频域并且得到对应的频谱，...

【技术保护点】
1.基于振幅和相位信息的多目标学习的远场语音识别方法，其特征在于，包括以下步骤：1)输入数据准备：分别对训练集、开发集和验证集中的数据进行数据准备；2)特征提取：(1)基于振幅信息的特征提取：通过分帧、加窗，并对每一个短时分析窗，通过快速傅里叶变换将信号由时域转换到频域并且得到对应的频谱，然后使用Mel滤波器进行频率的过滤并且以此来模拟人类的感知系统；(2)基于相位信息的特征提取：提取每一帧语音的相位信息，包括群延迟系统MGDCC以及基于相位域的源分离方法的声道信息PBSFVT两种相位特征；3)模型训练：将提取到的特征输入到多目标的DNN中，多目标的DNN网络可以同时对两个不同的目标进行学习，从而模拟不同目标之间的共性和差异。

【技术特征摘要】
1.基于振幅和相位信息的多目标学习的远场语音识别方法，其特征在于，包括以下步骤：1)输入数据准备：分别对训练集、开发集和验证集中的数据进行数据准备；2)特征提取：(1)基于振幅信息的特征提取：通过分帧、加窗，并对每一个短时分析窗，通过快速傅里叶变换将信号由时域转换到频域并且得到对应的频谱，然后使用Mel滤波器进行频率的过滤并且以此来模拟人类的感知系统；(2)基于相位信息的特征提取：提取每一帧语音的相位信息，包括群延迟系统MGDCC以及基于相位域的源分离方法的声道信息PBSFVT两种相位特征；3)模型训练：将提取到的特征输入到多目标的DNN中，多目标的DNN网络可以同时对两个不同的目标进行学习，从而模拟不同目标之间的共性和差异。2.根据权利要求1所述的基于振幅和相位信息的多目标学习的远场语音识别方法，其特征在于,所述步骤2)-(2)中基于相位信息的特征提取，包括群延迟系统MGDCC相位特征，具体提取过程如下：在进行语音信号处理的过程中，需要对语音信号的相位部分进行展开求解其负导数，其负导数称为群延迟系数(GDF)；群延迟函数其本质上是计算连续语谱图的导数的负数；相位谱特征即非卷绕的相位谱特征可以表示为：群延迟函数也同样可以被计算为下列的表述形式：其中:下角标R和I分别表示的实部和虚部两个部分，和Y(ω)分别表示的是x(n)和nx(n)傅里叶转换之后的频域信息；调整之后的群延迟系数可以计算为：其中:S(ω)表示X(ω)的平滑版本；减少频谱的尖峰特性，引入了两个新的变量α和γ来进行消除：其中:α和γ，其取值范围均在0～1之间。3.根据权利要求1所述的基...

【专利技术属性】
技术研发人员：党建武，崔凌赫，王龙标，李东播，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人