中文视听结合语音识别方法、系统、设备及介质技术方案

技术编号：24173622 阅读：39 留言：0更新日期：2020-05-16 03:48

本发明专利技术提供了一种中文视听结合语音识别方法、系统、设备及介质，所述方法包括：分别接收待识别的视频信号和音频信号；将所述视频信号和音频信号输入训练好的拼音字符序列识别模型，得到所述拼音字符序列识别模型输出的拼音字符序列；将所述拼音字符序列输入训练好的汉字序列识别模型，得到所述汉字序列识别模型输出的汉字序列。本发明专利技术基于端到端的方式，提出了一种针对中文的句子级别的视听结合语音识别方案，将深度神经网络和注意力机制相结合，对音频信号和视频信号的特征进行了充分地挖掘和融合，有助于抬升语音识别系统的识别能力。

Method, system, equipment and medium of Chinese audio visual combined speech recognition

全部详细技术资料下载

【技术实现步骤摘要】
中文视听结合语音识别方法、系统、设备及介质
本专利技术涉及语音识别
，尤其涉及一种中文视听结合语音识别方法、系统、设备及介质。
技术介绍
语音识别技术是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。近二十年来，语音识别技术的发展取得显著进步，开始从实验室走向市场，特别是最近几年，人工智能技术的快速发展，使得语音识别技术的研究取得了较大突破。目前，语音识别技术广泛地应用于车载系统、社交聊天、智能家居等领域，为人们的生活提供了很多便利，展现了其强大的实用性。通常情况下，语音识别的输入仅为音频信号，如果语音识别过程能同时利用音频和视频信号，两种信号可以相互补充，使得输入信息更加丰富，有助于提高识别的准确率，特别是在音频信号受损或受到噪声干扰的情况下，同时利用音频和视频信号来进行语音识别，是提升语音识别效果的重要途径。对于同时利用音频和视频信号的视听结合的语音识别问题，目前专门针对中文的解决方案几乎没有，大部分方案都是针对英语的语音识别，或者没有指定某一种具体的语言，但是中文有其特殊性，例如中文里...

【技术保护点】
1.一种中文视听结合语音识别方法，其特征在于，所述方法包括如下步骤：/n分别接收待识别的视频信号和音频信号；/n将所述视频信号和音频信号输入训练好的拼音字符序列识别模型，得到所述拼音字符序列识别模型输出的拼音字符序列；/n将所述拼音字符序列输入训练好的汉字序列识别模型，得到所述汉字序列识别模型输出的汉字序列。/n

【技术特征摘要】
1.一种中文视听结合语音识别方法，其特征在于，所述方法包括如下步骤：
分别接收待识别的视频信号和音频信号；
将所述视频信号和音频信号输入训练好的拼音字符序列识别模型，得到所述拼音字符序列识别模型输出的拼音字符序列；
将所述拼音字符序列输入训练好的汉字序列识别模型，得到所述汉字序列识别模型输出的汉字序列。

2.根据权利要求1所述的中文视听结合语音识别方法，其特征在于，所述拼音字符序列识别模型包括视频编码器、音频编码器和第一解码器；
将所述视频信号和音频信号输入训练好的拼音字符序列识别模型，得到所述拼音字符序列识别模型输出的拼音字符序列，包括如下步骤：
所述视频编码器提取所述视频信号的特征序列；
所述音频编码器提取所述音频信号的特征序列；
所述音频编码器将所述视频信号的特征序列和所述音频信号的特征序列通过注意力机制进行融合，得到融合特征序列；
所述第一解码器根据所述融合特征序列输出拼音字符序列。

3.根据权利要求2所述的中文视听结合语音识别方法，其特征在于，所述视频编码器提取所述视频信号的特征序列，包括如下步骤：
将所述视频信号的图像帧序列输入卷积神经网络，获取所述卷积神经网络输出的每一帧图像的图像特征；
将所述图像特征输入第一循环神经网络，提取所述图像帧序列之间的时序特征，将所述第一循环神经网络的输出序列作为所述视频信号的特征序列。

4.根据权利要求2所述的中文视听结合语音识别方法，其特征在于，所述音频编码器提取所述音频信号的特征序列，包括如下步骤：
计算所述音频信号的梅尔频率倒谱系数值；
将所述梅尔频率倒谱系数值输入第二循环神经网络，提取所述音频信号的特征序列。

5.根据权利要求4所述的中文视听结合语音识别方法，其特征在于，所述第二循环神经网络包括三层长短期记忆层；
所述音频编码器将所述视频信号的特征序列和所述音频信号的特征序列通过注意力机制进行融合，包括所述音频编码器在所述第二循环神经网络的顶层长短期记忆层中，基于注意力机制将所述顶层长短期记忆层的状态数据和所述视频信号的特征序列进行融合。

6.根据权利要求2所述的中文视听结合语音识别方法，其特征在于，所述第一解码器根据所述融合特征序列中输出拼音字符序列，包括如下步骤：
所述第一解码器将所述融合特征序列输入基于...

【专利技术属性】
技术研发人员：郭永亮，张坤雷，
申请(专利权)人：爱驰汽车有限公司，
类型：发明
国别省市：江西;36

全部详细技术资料下载我是这个专利的主人