【技术实现步骤摘要】
中文视听结合语音识别方法、系统、设备及介质
本专利技术涉及语音识别
,尤其涉及一种中文视听结合语音识别方法、系统、设备及介质。
技术介绍
语音识别技术是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。近二十年来,语音识别技术的发展取得显著进步,开始从实验室走向市场,特别是最近几年,人工智能技术的快速发展,使得语音识别技术的研究取得了较大突破。目前,语音识别技术广泛地应用于车载系统、社交聊天、智能家居等领域,为人们的生活提供了很多便利,展现了其强大的实用性。通常情况下,语音识别的输入仅为音频信号,如果语音识别过程能同时利用音频和视频信号,两种信号可以相互补充,使得输入信息更加丰富,有助于提高识别的准确率,特别是在音频信号受损或受到噪声干扰的情况下,同时利用音频和视频信号来进行语音识别,是提升语音识别效果的重要途径。对于同时利用音频和视频信号的视听结合的语音识别问题,目前专门针对中文的解决方案几乎没有,大部分方案都是针对英语的语音识别,或者没有指定某一种具体的语言,但是中文有其特殊性,例如中文里 ...
【技术保护点】
1.一种中文视听结合语音识别方法,其特征在于,所述方法包括如下步骤:/n分别接收待识别的视频信号和音频信号;/n将所述视频信号和音频信号输入训练好的拼音字符序列识别模型,得到所述拼音字符序列识别模型输出的拼音字符序列;/n将所述拼音字符序列输入训练好的汉字序列识别模型,得到所述汉字序列识别模型输出的汉字序列。/n
【技术特征摘要】
1.一种中文视听结合语音识别方法,其特征在于,所述方法包括如下步骤:
分别接收待识别的视频信号和音频信号;
将所述视频信号和音频信号输入训练好的拼音字符序列识别模型,得到所述拼音字符序列识别模型输出的拼音字符序列;
将所述拼音字符序列输入训练好的汉字序列识别模型,得到所述汉字序列识别模型输出的汉字序列。
2.根据权利要求1所述的中文视听结合语音识别方法,其特征在于,所述拼音字符序列识别模型包括视频编码器、音频编码器和第一解码器;
将所述视频信号和音频信号输入训练好的拼音字符序列识别模型,得到所述拼音字符序列识别模型输出的拼音字符序列,包括如下步骤:
所述视频编码器提取所述视频信号的特征序列;
所述音频编码器提取所述音频信号的特征序列;
所述音频编码器将所述视频信号的特征序列和所述音频信号的特征序列通过注意力机制进行融合,得到融合特征序列;
所述第一解码器根据所述融合特征序列输出拼音字符序列。
3.根据权利要求2所述的中文视听结合语音识别方法,其特征在于,所述视频编码器提取所述视频信号的特征序列,包括如下步骤:
将所述视频信号的图像帧序列输入卷积神经网络,获取所述卷积神经网络输出的每一帧图像的图像特征;
将所述图像特征输入第一循环神经网络,提取所述图像帧序列之间的时序特征,将所述第一循环神经网络的输出序列作为所述视频信号的特征序列。
4.根据权利要求2所述的中文视听结合语音识别方法,其特征在于,所述音频编码器提取所述音频信号的特征序列,包括如下步骤:
计算所述音频信号的梅尔频率倒谱系数值;
将所述梅尔频率倒谱系数值输入第二循环神经网络,提取所述音频信号的特征序列。
5.根据权利要求4所述的中文视听结合语音识别方法,其特征在于,所述第二循环神经网络包括三层长短期记忆层;
所述音频编码器将所述视频信号的特征序列和所述音频信号的特征序列通过注意力机制进行融合,包括所述音频编码器在所述第二循环神经网络的顶层长短期记忆层中,基于注意力机制将所述顶层长短期记忆层的状态数据和所述视频信号的特征序列进行融合。
6.根据权利要求2所述的中文视听结合语音识别方法,其特征在于,所述第一解码器根据所述融合特征序列中输出拼音字符序列,包括如下步骤:
所述第一解码器将所述融合特征序列输入基于...
【专利技术属性】
技术研发人员:郭永亮,张坤雷,
申请(专利权)人:爱驰汽车有限公司,
类型:发明
国别省市:江西;36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。