一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质制造方法及图纸

技术编号：28875316 阅读：23 留言：0更新日期：2021-06-15 23:09

本发明专利技术公开了一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质，本方法在视听语音识别子网络中所使用的Skip RNN相比普通的RNN改善了推理速度慢，梯度消失以及难以捕获长期依存关系等问题，采用的TCN可以解决视频帧提取特征不完善问题，采用的多模态融合注意力机制可以有效改善多模态融合问题，采用了多次模态融合来提升识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质
本专利技术属于语音识别领域，涉及一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质。
技术介绍
语音识别是人工智能、自然语言处理和信号处理的基本问题，尤其在近十年的深度学习的勃兴中其得到了巨大的发展。目前语音识别的性能已经有了很大提升，但是在有噪声干扰的情况下，语音信号表现出极大的波动性，语音识别算法性能不尽如人意。如何提高噪声环境下语音识别系统的性能已经成为自然语言处理领域的热门问题。视觉唇语识别技术与听觉语音识别技术的目标均是预测所说内容对应的文本信息，因此视觉唇语和听觉语音可以视为共享相同基本分布的两种异构模式。针对这个特点，多模态视听语音识别被创造性的提出。多模态视听语音识别算法主要分为三步：提取视频和音频特征、音视频特征融合以及识别。但是在视频特征提取以及音视频特征融合中依然存在一些问题，采用普通的卷积神经网络(CNN)去提取视频特征只是单纯的将图像中的特征提取出来，并没有将视频帧关联的时序信息提取出来。在音视频特征融合中，如何赋予不同的模态以不同的权重是一个难题。一般语音识别的准确率是高于唇语识别的，如果在特征融合中被赋予了错误的权重，那么融合后的准确率比单纯语音识别准确率更低。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺点，提供一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质，解决了现有技术中存在的视频帧提取信息不完善问题和特征融合问题。为达到上...

【技术保护点】
1.一种基于多次模态融合的视听语音识别方法，其特征在于，包括以下步骤：/n步骤1，将音频信号进行傅里叶变换后获得语谱图，所述语谱图乘以梅尔标度滤波器后获得语音语谱图；从原始视频中提取出原始视频特征；/n步骤2，将语音语谱图输入至第一音频编码器中获得第一音频特征，将原始视频特征输入至第一视频编码器中获得第一视频特征；/n步骤3，通过特征融合层融合第一音频特征和第一视频特征，获得第一融合特征；/n步骤4，通过第一音频解码器对第一融合特征解码，获得语音增强语谱图；/n步骤5，通过第二音频编码器处理语音增强语谱图获得音频上下文向量；通过第二视频编码器处理原始视频特征获得视频上下文向量；所述第二音频编码器和第二视频编码器各自由一层时间卷积块和两层Skip LSTM组成；/n步骤6，通过注意力层融合音频上下文向量和视频上下文向量，获得第二融合特征；/n步骤7，通过第二音频解码器解码处理第二融合特征，获得识别出的概率最大的字符。/n

【技术特征摘要】
1.一种基于多次模态融合的视听语音识别方法，其特征在于，包括以下步骤：
步骤1，将音频信号进行傅里叶变换后获得语谱图，所述语谱图乘以梅尔标度滤波器后获得语音语谱图；从原始视频中提取出原始视频特征；
步骤2，将语音语谱图输入至第一音频编码器中获得第一音频特征，将原始视频特征输入至第一视频编码器中获得第一视频特征；
步骤3，通过特征融合层融合第一音频特征和第一视频特征，获得第一融合特征；
步骤4，通过第一音频解码器对第一融合特征解码，获得语音增强语谱图；
步骤5，通过第二音频编码器处理语音增强语谱图获得音频上下文向量；通过第二视频编码器处理原始视频特征获得视频上下文向量；所述第二音频编码器和第二视频编码器各自由一层时间卷积块和两层SkipLSTM组成；
步骤6，通过注意力层融合音频上下文向量和视频上下文向量，获得第二融合特征；
步骤7，通过第二音频解码器解码处理第二融合特征，获得识别出的概率最大的字符。

2.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法，其特征在于，步骤1中，从原始视频中提取出原始视频特征的具体过程为：将原始视频通过ffmpeg开源工具读取成视频帧，通过dlib开源工具对视频帧进行人脸检测，将检测后的每个视频帧裁剪成120x120的包含人脸的图片，然后使用OpenCV从包含人脸的图片中裁剪出32x32大小的唇部图片，所有的唇部图片通过三维残差网络提取出原始视频特征。

3.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法，其特征在于，步骤2中，所述第一音频编码器和第一视频编码器均由三个时间卷积块堆叠组成。

4.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法，其特征在于，步骤3中，将第一音频特征和第一视频特征以通道层面相加后，送入全连接层得到第一融合特征。

5.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法，其特征在于，所述第一音频解码器为一个时间卷...

【专利技术属性】
技术研发人员：王志，郭加伟，余凡，赵欣伟，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人