语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:24582641 阅读:27 留言:0更新日期:2020-06-21 01:20
本申请实施例公开了一种语音识别方法、装置、设备及存储介质,在获取语音信号和与语音信号同步采集的图像序列后,以趋近于对语音信号去除噪声后的语音信息为获取方向,获取融合语音信号和图像序列的信息,作为融合信息;利用融合信息进行语音识别,得到语音信号的语音识别结果。本申请实施例提供的语音识别方案,在获取语音信号和图像序列的融合特征时,是以融合信息趋近于对语音信号去噪后的语音信息为获取方向的,即所获得到的融合信息趋近于无噪声语音信号的语音信息,降低了语音信号中的噪声对语音识别的干扰,从而提高语音识别率。

Speech recognition method, device, equipment and storage medium

【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质
本申请涉及自然语言处理
,更具体地说,涉及一种语音识别方法、装置、设备及存储介质。
技术介绍
传统的语音识别技术是单语音识别,即通过仅对语音信号进行处理得到识别结果,这种语音识别方法在语音清晰的环境下已经能够达到很高的识别效果。然而,在一些高噪声,远场的环境下,传统的语音识别技术的识别率会迅速下降。为了提高语音识别率,有方案提出借助唇部动作视频协助进行语音识别的多模态语音识别方法,在一定程度上提高了高噪声场景下语音的识别率。然而,现有的多模态语音识别方法是利用唇部动作视频进行唇语识别,然后根据唇语识别结果和单语音识别结果准确度确定最终的语音识别结果,其语音识别效果仍然较低。因此,如何提高多模态语音识别方法的识别率成为亟待解决的技术问题。
技术实现思路
有鉴于此,本申请提供了一种语音识别方法、装置、设备及存储介质,以提高多模态语音识别方法的识别率。为了实现上述目的,现提出的方案如下:一种语音识别方法,包括:获取语音信号和与所述语音信号同步采集的图像序列;所述图像序列中的图像为唇动相关区域的图像;以趋近于对所述语音信号去除噪声后的语音信息为获取方向,获取融合所述语音信号和所述图像序列的信息,作为融合信息;利用所述融合信息进行语音识别,得到所述语音信号的语音识别结果。一种语音识别装置,包括:获取模块,用于获取语音信号和与所述语音信号同步采集的图像序列;所述图像序列中的图像为唇动相关区域的图像;特征提取模块,用于以趋近于对所述语音信号去除噪声后的语音信息为获取方向,获取融合所述语音信号和所述图像序列的信息,作为融合信息;识别模块,用于利用所述融合信息进行语音识别,得到所述语音信号的语音识别结果。一种语音识别设备,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如上任一项所述的语音识别方法的各个步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的语音识别方法的各个步骤。从上述的技术方案可以看出,本申请实施例提供的语音识别方法、装置、设备及存储介质,在获取语音信号和与语音信号同步采集的图像序列后,以趋近于对语音信号去除噪声后的语音信息为获取方向,获取融合语音信号和图像序列的信息,作为融合信息;利用融合信息进行语音识别,得到语音信号的语音识别结果。本申请实施例提供的语音识别方案,在获取语音信号和图像序列的融合特征时,是以融合信息趋近于对语音信号去噪后的语音信息为获取方向的,即所获得到的融合信息趋近于无噪声语音信号的语音信息,降低了语音信号中的噪声对语音识别的干扰,从而提高语音识别率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例公开的语音识别方法的一种实现流程图;图2为本申请实施例公开的多模态语音识别模型的一种结构示意图;图3为本申请实施例公开的融合特征获取模块的一种结构示意图;图4a为本申请实施例公开的对多模态语音识别模型进行训练的一种架构示意图;图4b为本申请实施例公开的对多模态语音识别模型进行训练的一种实现流程图;图5a为本申请实施例公开的对多模态语音识别模型进行训练的一种架构示意图;图5b为本申请实施例公开的对多模态语音识别模型进行训练的一种实现流程图;图6a为本申请实施例公开的对多模态语音识别模型进行训练的一种架构示意图;图6b为本申请实施例公开的对多模态语音识别模型进行训练的一种实现流程图;图7a为本申请实施例公开的对多模态语音识别模型进行训练的一种架构示意图;图7b为本申请实施例公开的对多模态语音识别模型进行训练的一种实现流程图;图8a为本申请实施例公开的对多模态语音识别模型进行训练的另一种架构示意图;图8b为本申请实施例公开的对多模态语音识别模型进行训练的另一种实现流程图;图9a为本申请实施例公开的对多模态语音识别模型进行训练的又一种架构示意图;图9b为本申请实施例公开的对多模态语音识别模型进行训练的又一种实现流程图;图10a为本申请实施例公开的对多模态语音识别模型进行训练的又一种架构示意图;图10b为本申请实施例公开的对多模态语音识别模型进行训练的又一种实现流程图;图11a为本申请实施例公开的对多模态语音识别模型进行训练的又一种架构示意图;图11b为本申请实施例公开的对多模态语音识别模型进行训练的又一种实现流程图;图12a为本申请实施例公开的对多模态语音识别模型进行训练的又一种架构示意图;图12b为本申请实施例公开的对多模态语音识别模型进行训练的又一种实现流程图;图13a为本申请实施例公开的对多模态语音识别模型进行训练的又一种架构示意图;图13b为本申请实施例公开的对多模态语音识别模型进行训练的又一种实现流程图;图14为本申请实施例公开的语音识别装置的一种结构示意图;图15为本申请实施例公开的语音识别设备的硬件结构框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的专利技术人研究发现,目前的借助唇部动作视频协助进行语音识别的多模态语音识别方法,是利用唇语识别结果的准确度和单语音识别结果的准确度对比,将准确度高的结果作为最终的语音识别结果,从而在一定程度上提高语音识别率。但是,该多模特语音识别方法的实质是唇语识别结果对语音识别结果的修正能力,其并没有发掘视频信号对高噪声语音信号的修正能力,因而难以获得高质量的识别效果。为了提高高噪声场景下的语音识别效果,本申请的基本思想是,把降噪的思想显式的加入到多模态语音识别任务中,从而能更好的提取视频信息对语音信息的修正作用,达到更好的识别效果。基于上述基本思想,本申请实施例提供的语音识别方法的一种实现流程图如图1所示,可以包括:步骤S11:获取语音信号和与语音信号同步采集的图像序列;该图像序列中的图像为唇动相关区域的图像。本申请实施例中,在采集讲话者的语音信号的同时,还采集该讲话者的脸部视频。上述图像序列即为对讲话者的脸部视频中的各帧图像裁剪唇动相关区域得到的图像序列。比如,可以在脸部视频的各帧图像中,以嘴部中心点为中心,取固定大小(比如,80×80)的区域作为目标图像序列。其中,唇动相关区域可本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n获取语音信号和与所述语音信号同步采集的图像序列;所述图像序列中的图像为唇动相关区域的图像;/n以趋近于对所述语音信号去除噪声后的语音信息为获取方向,获取融合所述语音信号和所述图像序列的信息,作为融合信息;/n利用所述融合信息进行语音识别,得到所述语音信号的语音识别结果。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
获取语音信号和与所述语音信号同步采集的图像序列;所述图像序列中的图像为唇动相关区域的图像;
以趋近于对所述语音信号去除噪声后的语音信息为获取方向,获取融合所述语音信号和所述图像序列的信息,作为融合信息;
利用所述融合信息进行语音识别,得到所述语音信号的语音识别结果。


2.根据权利要求1所述的方法,其特征在于,获取融合信息,利用所述融合信息进行语音识别,得到所述语音信号的语音识别结果的过程,包括:
利用多模态语音识别模型处理所述语音信号和所述图像序列,得到所述多模态语音识别模型输出的语音识别结果;
其中,所述多模态语音识别模型具备以趋近于对所述语音信号去除噪声后的信息为获取方向,获取融合所述语音信号和所述图像序列的信息,作为融合信息;利用所述融合信息进行语音识别,得到所述语音信号的语音识别结果的能力。


3.根据权利要求2所述的方法,其特征在于,所述利用多模态语音识别模型处理所述语音信号和所述图像序列,得到所述多模态语音识别模型输出的语音识别结果,包括:
以趋近于对所述语音信号去除噪声后的语音信息为获取方向,利用所述多模态语音识别模型的语音信息提取模块从所述语音信号中提取语音信息,利用所述多模态语音识别模型的图像特征提取模块从所述图像序列中提取图像特征序列;利用所述多模态语音识别模型的特征融合模块对所述语音信息和所述图像特征序列进行融合,获取融合所述语音信号和所述图像序列的融合特征;
利用多模态语音识别模型的识别模块,基于所述融合特征进行语音识别,得到所述语音信号的语音识别结果。


4.根据权利要求3所述的方法,其特征在于,所述语音信息为N种,所述N为大于或等于1的正整数;所述利用所述多模态语音识别模型的语音信息提取模块从所述语音信号中提取语音信息,包括:
利用所述多模态语音识别模型的语音信息提取模块,以提取的N种语音信息与对所述图像序列提取的图像特征序列融合后的特征趋近于对所述语音信号去除噪声后的一种语音信息为提取方向,从所述语音信号中提取N种语音信息;或者,
若所述N大于1,则利用所述多模态语音识别模型的语音信息提取模块,以提取的每一种语音信息与对所述图像序列提取的图像特征序列融合后的特征趋近于对所述语音信号去除噪声后的该种语音信息为提取方向,从所述语音信号中提取N种语音信息。


5.根据权利要求4所述的方法,其特征在于,所述语音信息为声学特征和/或频谱图特征,所述以趋近于对所述语音信号去除噪声后的语音信息为融合方向,利用所述多模态语音识别模型的特征融合模块,对所述语音信息和所述图像特征序列进行融合,获取融合所述语音信号和所述图像序列的融合特征,包括:
根据如下三种融合方式中的任意一种或任意两种的组合得到的融合特征获取融合所述语音信号和所述图像序列的融合特征:
融合方式一:利用所述多模态语音识别模型的特征融合模块,以趋近于对所述语音信号去噪后的声学特征为融合方向,对所述声学特征和所述图像特征序列进行融合,得到融合方式一对应的融合特征;
融合方式二:利用所述多模态语音识别模型的特征融合模块,以趋近于对所述语音信号去噪后的频谱图特征为融合方向,对所述频谱图特征和所述图像特征序列进行融合,得到融合方式二对应的融合特征;
融合方式三:利用所述多模态语音识别模型的特征融合模块,以趋近于对所述语音信号去噪后的声学特征或频谱图特征为融合方向,对所述声学特征、所述频谱图特征和所述图像特征序列进行融合,得到融合方式三对应的融合特征。


6.根据权利要求2所述的方法,其特征在于,所述多模态语音识别模型的训练过程包括:
分别获取训练样本中的无噪声语音信号的无噪声语音信息,和所述训练样本中包含所述无噪声语音信号的噪声语音信号的噪声语音信息;
获取所述训练样本中的样本图像序列的样本图像特征序列;
将所述噪声语音信息和所述样本图像特征序列进行融合,得到所述训练样本的融合特征;
利用所述训练样本的融合特进行语音识别,得到所述训练样本对应的语音识别结果;
以所述训练样本的融合特征趋近于所述无噪声语音信息,所述训练样本对应的语音识别结果趋近于所述训练样本的样本标签为目标,对所述多模态语...

【专利技术属性】
技术研发人员:吴华鑫景子君刘迪源胡金水潘嘉
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1