基于三维卷积和视觉Transformer的多模态唇语识别方法、装置及介质制造方法及图纸

技术编号:43089050 阅读:33 留言:0更新日期:2024-10-26 09:37
本发明专利技术提供了基于三维卷积和视觉Transformer的多模态唇语识别方法、装置及介质,属于唇语识别技术领域。所述方法包括:采集唇部视频数据和音频数据,并对数据进行标注和预处理;分别使用基于三维卷积和Transformer的网络从视频和音频中提取视觉特征和音频特征;采用自适应权重融合策略,动态整合视觉和音频两种模态的信息,生成融合特征向量;构建并训练唇语识别模型;将融合特征向量输入到训练完成的唇语识别模型中,依次经过三维卷积神经网络、模型前端编码器和解码器,输出最终的唇语识别结果。本发明专利技术动态结合视频和音频数据,以提升唇语识别的整体性能。

【技术实现步骤摘要】

本专利技术属于唇语识别,具体涉及基于三维卷积和视觉transformer的多模态唇语识别方法、装置及介质。


技术介绍

1、现有的唇语识别方法主要分为两大类:传统方法和基于深度学习的方法。

2、传统方法通常包括唇部检测、唇部特征提取和分类三个步骤。检测和特征提取步骤往往采用图像处理和机器学习算法,如主动轮廓模型、小波变换等,但这些手工设计的特征在复杂场景下容易失效。分类阶段使用隐马尔可夫模型、支持向量机等经典分类器,性能有限。总的来说,传统方法依赖手工设计的特征和简单分类器,遇到真实场景的挑战如噪声、光照变化、姿态变化等,识别精度较低。且唇部运动的细微差异和复杂变化使得准确识别唇语变得困难。

3、近年来,基于深度学习的唇语识别方法逐渐占据主导地位。这些方法通过卷积神经网络等自动从大量数据中学习最优特征表示,避免了手工设计的缺陷。常见的网络包括2d-cnn、3d-cnn、循环神经网络等。但目前方法在时空特征建模、模态融合、泛化能力等方面仍有不足,需要进一步改进和创新。

4、现有的二维卷积神经网络(2dcnn)在捕捉时间维度的本文档来自技高网...

【技术保护点】

1.一种基于三维卷积和视觉Transformer的多模态唇语识别方法,其特征在于,包括:

2.根据权利要求1所述的基于三维卷积和视觉Transformer的多模态唇语识别方法,其特征在于,所述视觉特征提取过程如下:将视频的唇部图像序列依次经过三维卷积模块和8个TransformerBlocks得到输出的视觉特征;

3.根据权利要求1所述的基于三维卷积和视觉Transformer的多模态唇语识别方法,其特征在于,所述融合特征向量整合方式如下:

4.根据权利要求1所述的基于三维卷积和视觉Transformer的多模态唇语识别方法,其特征在于,所述视觉Tra...

【技术特征摘要】

1.一种基于三维卷积和视觉transformer的多模态唇语识别方法,其特征在于,包括:

2.根据权利要求1所述的基于三维卷积和视觉transformer的多模态唇语识别方法,其特征在于,所述视觉特征提取过程如下:将视频的唇部图像序列依次经过三维卷积模块和8个transformerblocks得到输出的视觉特征;

3.根据权利要求1所述的基于三维卷积和视觉transformer的多模态唇语识别方法,其特征在于,所述融合特征向量整合方式如下:

4.根据权利要求1所述的基于三维卷积和视觉transformer的多模态唇语识别方法,其特征在于,所述视觉transformer模型包括se卷积嵌入模块、卷积投影层、多头注意模块、层归一化和多层感知机;

5.根据权利要求4所述的基于三维卷积和视觉transformer的多模态唇语识别方法,其特征在于,所述se卷积嵌入模块对特征向量处理流程如下:

...

【专利技术属性】
技术研发人员:陈海波
申请(专利权)人:山东浪潮数字服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1