多模态语音识别模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:25047484 阅读:37 留言:0更新日期:2020-07-29 05:36
本申请实施例公开了一种多模态语音识别模型训练方法、装置、设备及存储介质,在多模态语音处理模型的训练过程中,训练数据可以包含单音频信号(即未同步采集视频信号),以及用于基于单音频信号生成对应的图像特征的数据集,丰富了多模态语音处理模型训练过程中的训练数据集,从而提高了多模态语音处理方法的泛化能力,提高了多模态语音识别模型的可靠性。

【技术实现步骤摘要】
多模态语音识别模型训练方法、装置、设备及存储介质
本申请涉及机器学习
,更具体地说,涉及一种多模态语音识别模型训练方法、装置、设备及存储介质。
技术介绍
传统的语音识别技术是通过仅对语音信号进行处理得到识别结果,这种语音识别方法在语音清晰的环境下已经能够达到很高的识别效果。然而,在一些高噪声,远场的环境下,传统的语音识别技术的识别率会迅速下降。为了提高语音识别率,有方案提出借助唇部动作视频协助进行语音识别的多模态语音识别方法,在一定程度上提高了高噪声场景下语音的识别率。然而,现有的用于多模态语音识别的多模态语音识别模型的泛化能力弱,导致多模态语音识别模型的可靠性差。因此,如何提高多模态语音识别模型的可靠性成为亟待解决的技术问题。
技术实现思路
有鉴于此,本申请提供了一种多模态语音识别模型训练方法、装置、设备及存储介质,以提高多模态语音识别模型的可靠性。为了实现上述目的,现提出的方案如下:一种多模态语音识别模型训练方法,包括:通过所述多模态语音识别模型获取训练数据;若所述训练数据仅包含样本语音信号,则所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与所述样本语音信号对应的目标图像特征;所述基本图像特征根据已知的唇动相关区域图像获得;根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别,得到所述样本语音信号的语音识别结果;以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标,对所述多模态语音识别模型的参数进行更新。上述方法,优选的,还包括:若所述训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像,则所述多模态语音识别模型获取所述唇动相关区域图像的特征,作为与所述样本语音信号对应的目标图像特征。上述方法,优选的,所述利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,包括:利用所述样本语音信号获得各个基本图像特征的权重;利用各个基本图像特征的权重,将所述各个基本图像特征加权求和,得到与所述样本语音信号对应的目标图像特征。上述方法,优选的,所述利用所述样本语音信号获得各个基本图像特征的权重,包括:利用空间转换参数对所述样本语音信号的语音特征以及各个基本图像特征分别进行空间转换;利用转换后的语音特征,以及转换后的基本图像特征,计算各个基本图像特征的权重。上述方法,优选的,所述对所述多模态语音识别模型的参数进行更新,包括对所述空间转换参数的更新。上述方法,优选的,所述样本语音信号为第一语种的语音信号;在所述多模态语音识别模型训练好之后,还包括:通过所述多模态语音识别模型的语音特征提取模块,获取第二语种的样本语音信号的语音特征;通过所述多模态语音识别模型的图像特征生成模块,利用所述第二语种的样本语音信号的语音特征对所述预置数据集中的各个基本图像特征进行处理,得到与所述第二语种的样本语音信号对应的目标图像特征;通过所述多模态语音识别模型的识别模块,根据所述第二语种的样本语音信号的语音特征和所述第二语种的样本语音信号对应的目标图像特征进行语音识别,得到所述第二语种的样本语音信号的语音识别结果;以所述第二语种的样本语音信号的语音识别结果趋近于所述第二语种的样本语音信号的语音内容为目标,对所述语音特征提取模块、所述图像特征生成模块和所述识别模块的参数进行更新。上述方法,优选的,根据已知的唇动相关区域图像获得基本图像特征的过程,包括:获取与若干已知的语音信号同步采集的唇动相关区域图像序列;分别对每个唇动相关区域图像序列进行采样,得到每一个语音信号对应的基本唇动相关区域图像;获取每一个基本唇动相关区域图像的特征,作为所述基本图像特征。上述方法,优选的,根据已知的唇部相关图像获得基本图像特征的过程,包括:获取若干已知的唇动相关区域图像的特征;将所述若干已知的唇动相关区域图像的特征聚类,得到多个聚类簇;提取每个聚类簇的聚类中心,作为所述基本图像特征。上述方法,优选的,所述将所述若干已知的唇部相关图像的特征聚类,包括:对于每一个待聚类的唇动相关区域图像的特征,确定与该唇动相关区域图像的特征的距离最小的聚类中心,作为目标聚类中心;将该唇动相关区域图像的特征聚合到所述目标聚类中心所属的聚类簇;更新所述目标聚类中心所属的聚类簇的聚类中心。上述方法,优选的,所述获取若干已知的唇部相关图像的特征,包括:利用图像特征提取模型获取所述若干已知的唇动相关区域图像的特征。上述方法,优选的,所述图像特征提取模型为:以唇动相关区域图像及其对应的唇部发音内容为训练数据训练好的唇语识别模型中,用于对唇动相关区域图像进行特征提取的图像特征提取模块。一种多模态语音识别模型训练装置,包括:数据获取模块,用于通过所述多模态语音识别模型获取训练数据;第一特征获取模块,用于若所述训练数据仅包含样本语音信号,则通过所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与所述样本语音信号对应的目标图像特征;所述基本图像特征根据已知的唇动相关区域图像获得;识别模块,用于通过所述多模态语音识别模型根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别,得到所述样本语音信号的语音识别结果;更新模块,用于通过所述多模态语音识别模型以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标,对所述多模态语音识别模型的参数进行更新。一种多模态语音识别模型训练设备,包括:包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如上任一项所述的多模态语音识别模型训练方法的各个步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的多模态语音识别模型训练方法的各个步骤。从上述的技术方案可以看出,本申请实施例提供的多模态语音识别模型训练方法、装置、设备及存储介质,多模态语音识别模型获取训练数据后,若训练数据仅包含样本语音信号,则利用样本语音信号,对根据已知的唇部相关图像获得的预置数据集中的各个基本图像特征进行处理,得到与样本语音信号对应的目标图像特征;根据样本语音信号的语音特征和目标图像特征进行语音识别,得到样本语音信号的语音识别结果;以样本语音信号的语音识别结果趋近于样本语音信号的语音内容为目标,对多模态语音识别模型的参数进行更新。基于本申请的模型训练方案,在多模态语音处理模型的训练过程中,训练数据可以包含单音频信号(即未同步采集视频信号),以及用于基于单音频信号生成对应的图像特征的数据集,丰富了多模态语音处理模型训练过程中的训练数据集,从而提高了多模态语音处理方法的泛化能力,提高了多模态语音识别模型的可靠性。附图说明...

【技术保护点】
1.一种多模态语音识别模型训练方法,其特征在于,包括:/n通过所述多模态语音识别模型获取训练数据;/n若所述训练数据仅包含样本语音信号,则所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与所述样本语音信号对应的目标图像特征;所述基本图像特征根据已知的唇动相关区域图像获得;/n根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别,得到所述样本语音信号的语音识别结果;/n以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标,对所述多模态语音识别模型的参数进行更新。/n

【技术特征摘要】
1.一种多模态语音识别模型训练方法,其特征在于,包括:
通过所述多模态语音识别模型获取训练数据;
若所述训练数据仅包含样本语音信号,则所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与所述样本语音信号对应的目标图像特征;所述基本图像特征根据已知的唇动相关区域图像获得;
根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别,得到所述样本语音信号的语音识别结果;
以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标,对所述多模态语音识别模型的参数进行更新。


2.根据权利要求1所述的方法,其特征在于,还包括:
若所述训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像,则所述多模态语音识别模型获取所述唇动相关区域图像的特征,作为与所述样本语音信号对应的目标图像特征。


3.根据权利要求1所述的方法,其特征在于,所述利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,包括:
利用所述样本语音信号获得各个基本图像特征的权重;
利用各个基本图像特征的权重,将所述各个基本图像特征加权求和,得到与所述样本语音信号对应的目标图像特征。


4.根据权利要求3所述的方法,其特征在于,所述利用所述样本语音信号获得各个基本图像特征的权重,包括:
利用空间转换参数对所述样本语音信号的语音特征以及各个基本图像特征分别进行空间转换;
利用转换后的语音特征,以及转换后的基本图像特征,计算各个基本图像特征的权重。


5.根据权利要求4所述的方法,其特征在于,所述对所述多模态语音识别模型的参数进行更新,包括对所述空间转换参数的更新。


6.根据权利要求1所述的方法,其特征在于,所述样本语音信号为第一语种的语音信号;在所述多模态语音识别模型训练好之后,还包括:
通过所述多模态语音识别模型的语音特征提取模块,获取第二语种的样本语音信号的语音特征;
通过所述多模态语音识别模型的图像特征生成模块,利用所述第二语种的样本语音信号的语音特征对所述预置数据集中的各个基本图像特征进行处理,得到与所述第二语种的样本语音信号对应的目标图像特征;
通过所述多模态语音识别模型的识别模块,根据所述第二语种的样本语音信号的语音特征和所述第二语种的样本语音信号对应的目标图像特征进行语音识别,得到所述第二语种的样本语音信号的语音识别结果;
以所述第二语种的样本语音信号的语音识别结果趋近于所述第二语种的样本语音信号的语音内容为目标,对所述语音特征提取模块、所述图像特征生成模块和所述识别模块的参数进行更新。


7.根据权利要求1-6任意一项所述的方法,其特征在于,根...

【专利技术属性】
技术研发人员:景子君潘嘉吴华鑫
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1