一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质制造方法及图纸

技术编号:28875316 阅读:23 留言:0更新日期:2021-06-15 23:09
本发明专利技术公开了一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质,本方法在视听语音识别子网络中所使用的Skip RNN相比普通的RNN改善了推理速度慢,梯度消失以及难以捕获长期依存关系等问题,采用的TCN可以解决视频帧提取特征不完善问题,采用的多模态融合注意力机制可以有效改善多模态融合问题,采用了多次模态融合来提升识别准确率。

【技术实现步骤摘要】
一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质
本专利技术属于语音识别领域,涉及一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质。
技术介绍
语音识别是人工智能、自然语言处理和信号处理的基本问题,尤其在近十年的深度学习的勃兴中其得到了巨大的发展。目前语音识别的性能已经有了很大提升,但是在有噪声干扰的情况下,语音信号表现出极大的波动性,语音识别算法性能不尽如人意。如何提高噪声环境下语音识别系统的性能已经成为自然语言处理领域的热门问题。视觉唇语识别技术与听觉语音识别技术的目标均是预测所说内容对应的文本信息,因此视觉唇语和听觉语音可以视为共享相同基本分布的两种异构模式。针对这个特点,多模态视听语音识别被创造性的提出。多模态视听语音识别算法主要分为三步:提取视频和音频特征、音视频特征融合以及识别。但是在视频特征提取以及音视频特征融合中依然存在一些问题,采用普通的卷积神经网络(CNN)去提取视频特征只是单纯的将图像中的特征提取出来,并没有将视频帧关联的时序信息提取出来。在音视频特征融合中,如何赋予不同的模态以不同的权重是一个难题。一般语音识别的准确率是高于唇语识别的,如果在特征融合中被赋予了错误的权重,那么融合后的准确率比单纯语音识别准确率更低。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺点,提供一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质,解决了现有技术中存在的视频帧提取信息不完善问题和特征融合问题。为达到上述目的,本专利技术采用以下技术方案予以实现:一种基于多次模态融合的视听语音识别方法,包括以下步骤:步骤1,将音频信号进行傅里叶变换后获得语谱图,所述语谱图乘以梅尔标度滤波器后获得语音语谱图;从原始视频中提取出原始视频特征;步骤2,将语音语谱图输入至第一音频编码器中获得第一音频特征,将原始视频特征输入至第一视频编码器中获得第一视频特征;步骤3,通过特征融合层融合第一音频特征和第一视频特征,获得第一融合特征;步骤4,通过第一音频解码器对第一融合特征解码,获得语音增强语谱图;步骤5,通过第二音频编码器处理语音增强语谱图获得音频上下文向量;通过第二视频编码器处理原始视频特征获得视频上下文向量;所述第二音频编码器和第二视频编码器各自由一层时间卷积块和两层SkipLSTM组成;步骤6,通过注意力层融合音频上下文向量和视频上下文向量,获得第二融合特征;步骤7,通过第二音频解码器解码处理第二融合特征,获得识别出的概率最大的字符。本专利技术的进一步改进在于:优选的,步骤1中,从原始视频中提取出原始视频特征的具体过程为:将原始视频通过ffmpeg开源工具读取成视频帧,通过dlib开源工具对视频帧进行人脸检测,将检测后的每个视频帧裁剪成120x120的包含人脸的图片,然后使用OpenCV从包含人脸的图片中裁剪出32x32大小的唇部图片,所有的唇部图片通过三维残差网络提取出原始视频特征。优选的,步骤2中,所述第一音频编码器和第一视频编码器均由三个时间卷积块堆叠组成。优选的,步骤3中,将第一音频特征和第一视频特征以通道层面相加后,送入全连接层得到第一融合特征。优选的,所述第一音频解码器为一个时间卷积块。优选的,步骤6中,注意力层通过多模态注意力机制融合,具体的公式为:a=softmax(sim(Q,K))公式中,Q代表音频模态,K代表视频模态,sim是求Q与K之间的相关性。优选的,步骤7中,所述第二音频解码器为一层SkipLSTM。一种基于多次模态融合的视听语音识别装置,包括:转换模块,用于将音频信号进行傅里叶变换后获得语谱图,所述语谱图乘以梅尔标度滤波器后获得语音语谱图;从原始视频中提取出原始视频特征;第一提取模块,用于将语音语谱图输入至第一音频编码器中获得第一音频特征,将原始视频特征输入至第一视频编码器中获得第一视频特征;第一融合模块,用于通过特征融合层融合第一音频特征和第一视频特征,获得第一融合特征;第一解码模块,用于通过第一音频解码器对第一融合特征解码,获得语音增强语谱图;第二提取模块,用于通过第二音频编码器处理语音增强语谱图获得音频上下文向量;通过第二视频编码器处理原始视频特征获得视频上下文向量;所述第二音频编码器和第二视频编码器各自由一层时间卷积块和两层SkipLSTM组成;第二融合模块,用于通过注意力层融合音频上下文向量和视频上下文向量,获得第二融合特征;第二解码模块,用于通过第二音频解码器解码处理第二融合特征,获得识别出的概率最大的字符。一种基于多次模态融合的视听语音识别设备,包括处理器和存储器;所述存储器,用于存储计算机执行指令;所述处理器,用于执行存储器存储的计算机执行指令。一种计算机可读存储介质,存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述的基于多次模态融合的视听语音识别方法。与现有技术相比,本专利技术具有以下有益效果:本专利技术公开了一种基于多次模态融合的视听语音识别方法,本方法在视听语音识别子网络中所使用的SkipRNN相比普通的RNN改善了推理速度慢,梯度消失以及难以捕获长期依存关系等问题,采用的TCN可以解决视频帧提取特征不完善问题,采用的多模态融合注意力机制可以有效改善多模态融合问题,采用了多次模态融合来提升识别准确率。本专利技术还公开了一种基于多次模态融合的视听语音识别装置,该装置通过多个转换、提取、融合和解码模块,完成了视频特征和音频的特征的多次提取和融合,最终提升了语音识别的准确率。本专利技术还公开了一种基于多次模态融合的视听语音识别设备,其包括处理器和存储器;所述存储器,用于存储计算机执行指令;所述处理器,用于执行存储器存储的计算机执行指令。本专利技术还公开了一种计算机可读存储介质,存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述的语音识别方法。【附图说明】图1是整体网络结构图;图2是视听语音增强子网络结构图;图3是视听语音识别子网络结构图;图4是时间卷积块网络结构;图5是LRS2数据集中的一个视频帧;图6是添加了10dbNOISE-A噪声的语谱图。【具体实施方式】下面结合附图对本专利技术做进一步详细描述:在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制;术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例本文档来自技高网...

【技术保护点】
1.一种基于多次模态融合的视听语音识别方法,其特征在于,包括以下步骤:/n步骤1,将音频信号进行傅里叶变换后获得语谱图,所述语谱图乘以梅尔标度滤波器后获得语音语谱图;从原始视频中提取出原始视频特征;/n步骤2,将语音语谱图输入至第一音频编码器中获得第一音频特征,将原始视频特征输入至第一视频编码器中获得第一视频特征;/n步骤3,通过特征融合层融合第一音频特征和第一视频特征,获得第一融合特征;/n步骤4,通过第一音频解码器对第一融合特征解码,获得语音增强语谱图;/n步骤5,通过第二音频编码器处理语音增强语谱图获得音频上下文向量;通过第二视频编码器处理原始视频特征获得视频上下文向量;所述第二音频编码器和第二视频编码器各自由一层时间卷积块和两层Skip LSTM组成;/n步骤6,通过注意力层融合音频上下文向量和视频上下文向量,获得第二融合特征;/n步骤7,通过第二音频解码器解码处理第二融合特征,获得识别出的概率最大的字符。/n

【技术特征摘要】
1.一种基于多次模态融合的视听语音识别方法,其特征在于,包括以下步骤:
步骤1,将音频信号进行傅里叶变换后获得语谱图,所述语谱图乘以梅尔标度滤波器后获得语音语谱图;从原始视频中提取出原始视频特征;
步骤2,将语音语谱图输入至第一音频编码器中获得第一音频特征,将原始视频特征输入至第一视频编码器中获得第一视频特征;
步骤3,通过特征融合层融合第一音频特征和第一视频特征,获得第一融合特征;
步骤4,通过第一音频解码器对第一融合特征解码,获得语音增强语谱图;
步骤5,通过第二音频编码器处理语音增强语谱图获得音频上下文向量;通过第二视频编码器处理原始视频特征获得视频上下文向量;所述第二音频编码器和第二视频编码器各自由一层时间卷积块和两层SkipLSTM组成;
步骤6,通过注意力层融合音频上下文向量和视频上下文向量,获得第二融合特征;
步骤7,通过第二音频解码器解码处理第二融合特征,获得识别出的概率最大的字符。


2.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法,其特征在于,步骤1中,从原始视频中提取出原始视频特征的具体过程为:将原始视频通过ffmpeg开源工具读取成视频帧,通过dlib开源工具对视频帧进行人脸检测,将检测后的每个视频帧裁剪成120x120的包含人脸的图片,然后使用OpenCV从包含人脸的图片中裁剪出32x32大小的唇部图片,所有的唇部图片通过三维残差网络提取出原始视频特征。


3.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法,其特征在于,步骤2中,所述第一音频编码器和第一视频编码器均由三个时间卷积块堆叠组成。


4.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法,其特征在于,步骤3中,将第一音频特征和第一视频特征以通道层面相加后,送入全连接层得到第一融合特征。


5.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法,其特征在于,所述第一音频解码器为一个时间卷...

【专利技术属性】
技术研发人员:王志郭加伟余凡赵欣伟
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1