一种多通道远场语音识别方法技术

技术编号:23471743 阅读:23 留言:0更新日期:2020-03-06 13:24
本发明专利技术涉及一种多通道远场语音识别方法,其包括:步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;步骤3)对专家模型进行训练,获得训练后的专家模型;同时采用知识升华策略,对远场学生模型进行训练,获得训练后的远场学生模型;步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别。

A multi-channel far-field speech recognition method

The invention relates to a multi-channel far field speech recognition method, which comprises the following steps: 1) extracting the speech features of the far field speech signals of each channel, connecting the speech features of multiple channels in series to obtain the speech feature vectors; 2) calculating the GCC features between any two channels, splicing the GCC features with the speech feature vectors obtained in step 1) to obtain the far field feature vectors as training Training data of far-field student model; step 3) train the expert model to obtain the trained expert model; at the same time, train the far-field student model to obtain the trained far-field student model with knowledge sublimation strategy; step 4) splice the features of speech signals to be recognized and GCC features to obtain the spliced feature vector and input it to the trained far-field learning Generate the model, get the corresponding far-field posterior probability vector, then get the corresponding posterior probability value, and then through Viterbi decoding, recognize the speech signal to be recognized.

【技术实现步骤摘要】
一种多通道远场语音识别方法
本专利技术属于远场语音识别
,具体涉及一种多通道远场语音识别方法。
技术介绍
近年来,受益于计算机技术与深度学习理论的发展,在近场场景下,语音识别系统已经具有良好的语音识别性能。由于远场拾音时声学环境的复杂性,远场自动语音识别性能恶化严重。然而,人们对远场语音识别技术有着广泛的应用需求,比如新兴的智能家电领域,会议场景等。在这种环境中,语音信号受到噪声和混响的严重干扰,语音识别系统的识别率大幅度下降。为了解决这个问题,通常采用多个麦克风的信号来增强语音信号,与单通道相比,使用麦克风阵列的优势在于多通道语音信号可以提供空间上的区分性。目前,传统的多通道语音识别系统包括:前端语音增强模块和后端语音识别模块;上述两个模块是各自独立的。首先,在前端语音增强模块中,使用麦克风阵列语音增强,对多通道信号进行前端语音增强,通常包含定位,波束形成,后滤波等。然后,在后端语音识别模块中,将增强后的语音信号传送到基于神经网络的后端语音识别的声学模型中,进行语音识别。为了使前端语音增强和后端语音识别模型可以联合进行优化,近来也有很多方法将前端增强模块引入神经网络。使用神经网络估计语音增强的滤波系数,掩蔽值等方法,对原始的多通道远场语音信号进行增强处理;再结合后端声学模型进行联合优化训练。这些方法能够有效改善远场语音识别的性能,但是,这些传统的语音识别方法,一般需要引入一些额外的神经网络层,并且对于训练数据中没有出现过的场景,自适应能力较弱。另外,在深度神经网络的训练过程中,通常都是以0-1硬标签作为模型训练的目标,即一组声学特征属于某个特定状态的概率为1,其他均为0。在远场场景中,语音受到噪声和混响的干扰,不同声学单元之间的区分性变得很模糊,这种情况下,标注仅限于单个声学状态并不是最优的方案。针对远场识别的声学模型,目标值在0和1之间的软标签更适合远场识别的模型。传统的知识升华策略借助性能较好的专家模型(近场数据训练的模型),来获得训练数据的软标签,用于训练学生模型(远场数据训练的模型)。但是,这种情况下,每一帧语音的软标签向量的维度通常都很大,会给训练过程带来大的存储和IO负担。
技术实现思路
本专利技术的目的在于,为解决现有的语音识别方法存在上述缺陷,本专利技术提出了一种多通道远场语音识别方法,该方法采用一种基于空间特征补偿的方法,并配合改进的知识升华的框架,将广义互相关参数(GeneralizedCrossCorrelation,以下简称GCC)作为辅助特征引入到学生声学模型中,有效的提高了学生模型在远场环境下的自适应能力,以及提升远场语音识别的性能。在麦克风阵列信号处理中,GCC通常用来估计两个麦克风之间的到达时延,多个麦克风对之间的到达时延可以用来参数化声源位置。对于语音信号,GCC隐含了说话人的位置信息,提供了不同通道的位置信息,将这一信息作为神经网络训练的补偿特征可以提升远场语音识别的性能。同时,该方法还采用了一种改进的知识升华策略,只选取每个软标签向量中较大的一部分值,将剩下的值置零,作为训练学生模型的标签。改进之后的标签可以用一个维度很小的稀疏向量编码,称之为稀疏标签;用稀疏标签代替传统软标签的方法可以大幅减轻存储和IO的负担,同时对模型识别性能的提升也有一定帮助。为了实现上述目的,本专利技术提供了一种多通道远场语音识别方法,通过采用基于空间特征补偿的方法和改进的知识升华策略,克服远场识别性能大幅衰减问题,以及传统方法在模型复杂度和自适应能力方面的局限性,在引入较少模型参数量的情况下,改善多通道远场语音识别的准确率和自适应能力;该方法具体包括:步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;其中,GCC特征作为辅助特征;步骤3)对专家模型进行训练,获得训练后的专家模型;将近场特征向量输入至训练后的专家模型,获得近场后验概率向量,最大化近场后验概率向量,将其作为训练远场学生模型的稀疏标签;同时采用知识升华策略,输入步骤2)获得的远场特征向量,结合步骤3)获得的稀疏标签,对远场学生模型进行训练,获得训练后的远场学生模型;步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别,得到识别的文字内容。在本方法中,所述待识别的语音信号为AMI数据集的标准测试集,时长约8.6小时。作为上述技术方案的改进之一,步骤2)具体包括:根据公式(1),计算任意两个通道之间的GCC特征,假设任意两个通道的语音信号分别是xi(t)和xj(t);其中,Xi(f)和Xj(f)分别表示对应的两个通道xi(t)和xj(t)的语音信号的傅立叶变换;*表示它的复数共轭;gccij(n)为两个通道语音信号xi(t)和xj(t)间的GCC参数。理想情况下,gccij(n)在一个周期内呈现单波峰形状,波峰所在位置即为麦克风i和j的到达时延,周期的大小与i和j两个麦克风之间的到达时延相关联。其中,阵元之间的物理距离在一定意义上反映了到达时延的大小。如果两个阵元距离较远,一般认为到达时延较大。它们之间可以近似看作以声速为权重因子的线性关系。将步骤1)获得的语音特征向量与GCC特征拼接,获得远场特征向量,作为训练远场学生模型的训练数据。其中,增加GCC作为辅助特征,从而改善模型在远场环境下的自适应能力,提升识别准确率。作为上述技术方案的改进之一,步骤3)具体包括:提取每个通道的近场语音信号的语音特征,获得近场特征向量,并将其作为训练数据训练专家模型,获得训练后的语音识别性能较好的专家模型,辅助远场学生模型的训练;其中,近场语音信号是和远场语音信号是同时录制的语音信号;将近场特征向量输入至训练后的专家模型,获得近场后验概率向量,最大化近场后验概率向量,将其作为训练远场学生模型的稀疏标签。作为上述技术方案的改进之一,步骤3)还具体包括:将步骤2)获得的远场特征向量输入远场学生模型,获得对应的远场后验概率向量,采用知识升华策略,利用稀疏标签训练远场学生模型,同时采用KL距离作为度量,最小化目标函数,其中,ot′是步骤2)获得的远场特征向量,PS(s|ot′)为训练后的学生模型的远场后验概率向量;ot是步骤3)提到的近场特征向量,PT(s|ot)为训练后的专家模型的近场后验概率向量;使PS(s|ot′)对应的后验概率值逼近PT(s|ot)对应的后验概率值,获得训练后的远场学生模型;,通过反向回传更新学生模型的参数,获得训练后的远场学生模型。其中,传统的知识升华框架使用近场数据的专家模型生成的软标签,作为标注,训练远场模型。本专利技术的优点在于:通过输入GCC特征本文档来自技高网
...

【技术保护点】
1.一种多通道远场语音识别方法,其特征在于,该方法具体包括:/n步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;/n步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;其中,GCC特征作为辅助特征;/n步骤3)对专家模型进行训练,获得训练后的专家模型;将近场特征向量输入至训练后的专家模型,获得近场后验概率向量,最大化近场后验概率向量,将其作为训练远场学生模型的稀疏标签;同时采用知识升华策略,输入步骤2)获得的远场特征向量,结合步骤3)获得的稀疏标签,对远场学生模型进行训练,获得训练后的远场学生模型;/n步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别,得到识别的文字内容。/n

【技术特征摘要】
1.一种多通道远场语音识别方法,其特征在于,该方法具体包括:
步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;
步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;其中,GCC特征作为辅助特征;
步骤3)对专家模型进行训练,获得训练后的专家模型;将近场特征向量输入至训练后的专家模型,获得近场后验概率向量,最大化近场后验概率向量,将其作为训练远场学生模型的稀疏标签;同时采用知识升华策略,输入步骤2)获得的远场特征向量,结合步骤3)获得的稀疏标签,对远场学生模型进行训练,获得训练后的远场学生模型;
步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别,得到识别的文字内容。


2.根据权利要求1所述的方法,其特征在于,所述步骤2)具体包括:
根据公式(1),计算任意两个通道之间的GCC特征,假设任意两个通道的语音信号分别是xi(t)和xj(t);



其中,Xi(f)和Xj(f)分别表示对应的两个通道xi(t)和xj(t)的语音信号的傅立叶变换;*表示它的复数共轭;gccij(n)为两个通...

【专利技术属性】
技术研发人员:张鹏远李文洁潘接林颜永红
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1