The invention relates to a multi-channel far field speech recognition method, which comprises the following steps: 1) extracting the speech features of the far field speech signals of each channel, connecting the speech features of multiple channels in series to obtain the speech feature vectors; 2) calculating the GCC features between any two channels, splicing the GCC features with the speech feature vectors obtained in step 1) to obtain the far field feature vectors as training Training data of far-field student model; step 3) train the expert model to obtain the trained expert model; at the same time, train the far-field student model to obtain the trained far-field student model with knowledge sublimation strategy; step 4) splice the features of speech signals to be recognized and GCC features to obtain the spliced feature vector and input it to the trained far-field learning Generate the model, get the corresponding far-field posterior probability vector, then get the corresponding posterior probability value, and then through Viterbi decoding, recognize the speech signal to be recognized.
【技术实现步骤摘要】
一种多通道远场语音识别方法
本专利技术属于远场语音识别
,具体涉及一种多通道远场语音识别方法。
技术介绍
近年来,受益于计算机技术与深度学习理论的发展,在近场场景下,语音识别系统已经具有良好的语音识别性能。由于远场拾音时声学环境的复杂性,远场自动语音识别性能恶化严重。然而,人们对远场语音识别技术有着广泛的应用需求,比如新兴的智能家电领域,会议场景等。在这种环境中,语音信号受到噪声和混响的严重干扰,语音识别系统的识别率大幅度下降。为了解决这个问题,通常采用多个麦克风的信号来增强语音信号,与单通道相比,使用麦克风阵列的优势在于多通道语音信号可以提供空间上的区分性。目前,传统的多通道语音识别系统包括:前端语音增强模块和后端语音识别模块;上述两个模块是各自独立的。首先,在前端语音增强模块中,使用麦克风阵列语音增强,对多通道信号进行前端语音增强,通常包含定位,波束形成,后滤波等。然后,在后端语音识别模块中,将增强后的语音信号传送到基于神经网络的后端语音识别的声学模型中,进行语音识别。为了使前端语音增强和后端语音识别模型可以联合进行优化,近来也有很多方法将前端增强模块引入神经网络。使用神经网络估计语音增强的滤波系数,掩蔽值等方法,对原始的多通道远场语音信号进行增强处理;再结合后端声学模型进行联合优化训练。这些方法能够有效改善远场语音识别的性能,但是,这些传统的语音识别方法,一般需要引入一些额外的神经网络层,并且对于训练数据中没有出现过的场景,自适应能力较弱。另外,在深度神经网络的训练过程中,通常都是 ...
【技术保护点】
1.一种多通道远场语音识别方法,其特征在于,该方法具体包括:/n步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;/n步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;其中,GCC特征作为辅助特征;/n步骤3)对专家模型进行训练,获得训练后的专家模型;将近场特征向量输入至训练后的专家模型,获得近场后验概率向量,最大化近场后验概率向量,将其作为训练远场学生模型的稀疏标签;同时采用知识升华策略,输入步骤2)获得的远场特征向量,结合步骤3)获得的稀疏标签,对远场学生模型进行训练,获得训练后的远场学生模型;/n步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别,得到识别的文字内容。/n
【技术特征摘要】
1.一种多通道远场语音识别方法,其特征在于,该方法具体包括:
步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;
步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;其中,GCC特征作为辅助特征;
步骤3)对专家模型进行训练,获得训练后的专家模型;将近场特征向量输入至训练后的专家模型,获得近场后验概率向量,最大化近场后验概率向量,将其作为训练远场学生模型的稀疏标签;同时采用知识升华策略,输入步骤2)获得的远场特征向量,结合步骤3)获得的稀疏标签,对远场学生模型进行训练,获得训练后的远场学生模型;
步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别,得到识别的文字内容。
2.根据权利要求1所述的方法,其特征在于,所述步骤2)具体包括:
根据公式(1),计算任意两个通道之间的GCC特征,假设任意两个通道的语音信号分别是xi(t)和xj(t);
其中,Xi(f)和Xj(f)分别表示对应的两个通道xi(t)和xj(t)的语音信号的傅立叶变换;*表示它的复数共轭;gccij(n)为两个通...
【专利技术属性】
技术研发人员:张鹏远,李文洁,潘接林,颜永红,
申请(专利权)人:中国科学院声学研究所,北京中科信利技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。