中文视听结合语音识别方法、系统、设备及介质技术方案

技术编号:24173622 阅读:33 留言:0更新日期:2020-05-16 03:48
本发明专利技术提供了一种中文视听结合语音识别方法、系统、设备及介质,所述方法包括:分别接收待识别的视频信号和音频信号;将所述视频信号和音频信号输入训练好的拼音字符序列识别模型,得到所述拼音字符序列识别模型输出的拼音字符序列;将所述拼音字符序列输入训练好的汉字序列识别模型,得到所述汉字序列识别模型输出的汉字序列。本发明专利技术基于端到端的方式,提出了一种针对中文的句子级别的视听结合语音识别方案,将深度神经网络和注意力机制相结合,对音频信号和视频信号的特征进行了充分地挖掘和融合,有助于抬升语音识别系统的识别能力。

Method, system, equipment and medium of Chinese audio visual combined speech recognition

【技术实现步骤摘要】
中文视听结合语音识别方法、系统、设备及介质
本专利技术涉及语音识别
,尤其涉及一种中文视听结合语音识别方法、系统、设备及介质。
技术介绍
语音识别技术是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。近二十年来,语音识别技术的发展取得显著进步,开始从实验室走向市场,特别是最近几年,人工智能技术的快速发展,使得语音识别技术的研究取得了较大突破。目前,语音识别技术广泛地应用于车载系统、社交聊天、智能家居等领域,为人们的生活提供了很多便利,展现了其强大的实用性。通常情况下,语音识别的输入仅为音频信号,如果语音识别过程能同时利用音频和视频信号,两种信号可以相互补充,使得输入信息更加丰富,有助于提高识别的准确率,特别是在音频信号受损或受到噪声干扰的情况下,同时利用音频和视频信号来进行语音识别,是提升语音识别效果的重要途径。对于同时利用音频和视频信号的视听结合的语音识别问题,目前专门针对中文的解决方案几乎没有,大部分方案都是针对英语的语音识别,或者没有指定某一种具体的语言,但是中文有其特殊性,例如中文里的词没有严格意义的形态变化,常用汉字数量较多,大约有3500个等,这些复杂的特性让视听结合的中文语音识别任务充满了挑战,因此,针对英语的或通用的视听结合语音识别方案并不能直接用于解决中文语音识别问题。此外,在已有的视听结合语音识别方案中,很多都是解决词语级别的识别问题,无法处理连续说话时句子级别的识别任务;还有一些方案利用传统机器学习方法来实现视听结合的语音识别,这类方法需要手工提取特征,过程较为繁琐,且最终的识别效果有限。
技术实现思路
针对现有技术中的问题,本专利技术的目的在于提供一种基于深度学习的中文视听结合语音识别方法、系统、设备及介质,提出了一种端到端的、针对中文的句子级别的视听结合语音识别方案。本专利技术实施例提供一种中文视听结合语音识别方法,所述方法包括如下步骤:分别接收待识别的视频信号和音频信号;将所述视频信号和音频信号输入训练好的拼音字符序列识别模型,得到所述拼音字符序列识别模型输出的拼音字符序列;将所述拼音字符序列输入训练好的汉字序列识别模型,得到所述汉字序列识别模型输出的汉字序列。可选地,所述拼音字符序列识别模型包括视频编码器、音频编码器和第一解码器;将所述视频信号和音频信号输入训练好的拼音字符序列识别模型,得到所述拼音字符序列识别模型输出的拼音字符序列,包括如下步骤:所述视频编码器提取所述视频信号的特征序列;所述音频编码器提取所述音频信号的特征序列;所述音频编码器将所述视频信号的特征序列和所述音频信号的特征序列通过注意力机制进行融合,得到融合特征序列;所述第一解码器根据所述融合特征序列输出拼音字符序列。可选地,所述视频编码器提取所述视频信号的特征序列,包括如下步骤:将所述视频信号的图像帧序列输入卷积神经网络,获取所述卷积神经网络输出的每一帧图像的图像特征;将所述图像特征输入第一循环神经网络,提取所述图像帧序列之间的时序特征,将所述第一循环神经网络的输出序列作为所述视频信号的特征序列。可选地,所述音频编码器提取所述音频信号的特征序列,包括如下步骤:计算所述音频信号的梅尔频率倒谱系数值;将所述梅尔频率倒谱系数值输入第二循环神经网络,提取所述音频信号的特征序列。可选地,所述第二循环神经网络包括三层长短期记忆层;所述音频编码器将所述视频信号的特征序列和所述音频信号的特征序列通过注意力机制进行融合,包括所述音频编码器在所述第二循环神经网络的顶层长短期记忆层中,基于注意力机制将所述顶层长短期记忆层的状态数据和所述视频信号的特征序列进行融合。可选地,所述第一解码器根据所述融合特征序列输出拼音字符序列,包括如下步骤:所述第一解码器将所述融合特征序列输入基于注意力机制的第三循环神经网络中,所述循环神经网络包括特征提取层和分类层;从所述第三循环神经网络的分类层的输出中得到所述拼音字符序列。可选地,所述汉字序列识别模型包括编码器和第二解码器;将所述拼音字符序列输入训练好的汉字序列识别模型,得到所述汉字序列识别模型输出的汉字序列,包括如下步骤:所述编码器将所述拼音字符序列输入第四循环神经网络中提取所述拼音字符序列的特征;所述第二解码器将所述拼音字符序列的特征输入第五循环神经网络中,所述第五循环神经网络包括特征提取层和分类层;从所述第五循环神经网络的分类层的输出中得到所述汉字序列。可选地,所述第四循环神经网络和第五循环神经网络分别包括两层门控循环单元层。可选地,所述方法还包括采用如下步骤训练所述拼音字符序列识别模型和所述汉字序列识别模型:固定所述拼音字符序列识别模型的参数,通过调整所述汉字序列识别模型的参数进行训练;固定所述汉字序列识别模型的参数,通过调整所述拼音字符序列识别模型的参数进行训练;对所述拼音字符序列识别模型和所述汉字序列识别模型的整体网络进行训练。本专利技术实施例还提供一种中文视听结合语音识别系统,其特征在于,应用于所述的中文视听结合语音识别方法,所述系统包括:信号接收模块,用于分别接收待识别的视频信号和音频信号;拼音识别模块,用于将所述视频信号和音频信号输入训练好的拼音字符序列识别模型,得到所述拼音字符序列识别模型输出的拼音字符序列;汉字识别模块,用于将所述拼音字符序列输入训练好的汉字序列识别模型,得到所述汉字序列识别模型输出的汉字序列。本专利技术实施例还提供一种中文视听结合语音识别设备,包括:处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的中文视听结合语音识别方法的步骤。本专利技术实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的中文视听结合语音识别方法的步骤。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。本专利技术所提供的中文视听结合语音识别方法、系统、设备及介质具有下列优点:本专利技术解决了现有技术中的问题,基于端到端的方式,提出了一种针对中文的句子级别的视听结合语音识别方案,填补了该
的空白;进一步地,本专利技术通过利用深度神经网络构建了视听结合语音识别的机器学习模型,整个过程无需人工来提取特征,与传统的机器学习方式相比,能够很好地提取音频和视频信号的特征,有助于抬升语音识别系统的识别能力;进一步地,本专利技术将深度神经网络和注意力机制相结合,对音频信号和视频信号的特征进行了充分地挖掘和融合,使得识别效果相比于多模态特征拼接方式有了较大的提升。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显。图1是本专利技术一实施例的中文视听结合语音识别方法的流程图;图2是本专利技术一实施例的从音频和视频信号到本文档来自技高网
...

【技术保护点】
1.一种中文视听结合语音识别方法,其特征在于,所述方法包括如下步骤:/n分别接收待识别的视频信号和音频信号;/n将所述视频信号和音频信号输入训练好的拼音字符序列识别模型,得到所述拼音字符序列识别模型输出的拼音字符序列;/n将所述拼音字符序列输入训练好的汉字序列识别模型,得到所述汉字序列识别模型输出的汉字序列。/n

【技术特征摘要】
1.一种中文视听结合语音识别方法,其特征在于,所述方法包括如下步骤:
分别接收待识别的视频信号和音频信号;
将所述视频信号和音频信号输入训练好的拼音字符序列识别模型,得到所述拼音字符序列识别模型输出的拼音字符序列;
将所述拼音字符序列输入训练好的汉字序列识别模型,得到所述汉字序列识别模型输出的汉字序列。


2.根据权利要求1所述的中文视听结合语音识别方法,其特征在于,所述拼音字符序列识别模型包括视频编码器、音频编码器和第一解码器;
将所述视频信号和音频信号输入训练好的拼音字符序列识别模型,得到所述拼音字符序列识别模型输出的拼音字符序列,包括如下步骤:
所述视频编码器提取所述视频信号的特征序列;
所述音频编码器提取所述音频信号的特征序列;
所述音频编码器将所述视频信号的特征序列和所述音频信号的特征序列通过注意力机制进行融合,得到融合特征序列;
所述第一解码器根据所述融合特征序列输出拼音字符序列。


3.根据权利要求2所述的中文视听结合语音识别方法,其特征在于,所述视频编码器提取所述视频信号的特征序列,包括如下步骤:
将所述视频信号的图像帧序列输入卷积神经网络,获取所述卷积神经网络输出的每一帧图像的图像特征;
将所述图像特征输入第一循环神经网络,提取所述图像帧序列之间的时序特征,将所述第一循环神经网络的输出序列作为所述视频信号的特征序列。


4.根据权利要求2所述的中文视听结合语音识别方法,其特征在于,所述音频编码器提取所述音频信号的特征序列,包括如下步骤:
计算所述音频信号的梅尔频率倒谱系数值;
将所述梅尔频率倒谱系数值输入第二循环神经网络,提取所述音频信号的特征序列。


5.根据权利要求4所述的中文视听结合语音识别方法,其特征在于,所述第二循环神经网络包括三层长短期记忆层;
所述音频编码器将所述视频信号的特征序列和所述音频信号的特征序列通过注意力机制进行融合,包括所述音频编码器在所述第二循环神经网络的顶层长短期记忆层中,基于注意力机制将所述顶层长短期记忆层的状态数据和所述视频信号的特征序列进行融合。


6.根据权利要求2所述的中文视听结合语音识别方法,其特征在于,所述第一解码器根据所述融合特征序列中输出拼音字符序列,包括如下步骤:
所述第一解码器将所述融合特征序列输入基于...

【专利技术属性】
技术研发人员:郭永亮张坤雷
申请(专利权)人:爱驰汽车有限公司
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1