基于三维卷积和视觉Transformer的多模态唇语识别方法、装置及介质制造方法及图纸

技术编号：43089050 阅读：33 留言：0更新日期：2024-10-26 09:37

本发明专利技术提供了基于三维卷积和视觉Transformer的多模态唇语识别方法、装置及介质，属于唇语识别技术领域。所述方法包括：采集唇部视频数据和音频数据，并对数据进行标注和预处理；分别使用基于三维卷积和Transformer的网络从视频和音频中提取视觉特征和音频特征；采用自适应权重融合策略，动态整合视觉和音频两种模态的信息，生成融合特征向量；构建并训练唇语识别模型；将融合特征向量输入到训练完成的唇语识别模型中，依次经过三维卷积神经网络、模型前端编码器和解码器，输出最终的唇语识别结果。本发明专利技术动态结合视频和音频数据，以提升唇语识别的整体性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于唇语识别，具体涉及基于三维卷积和视觉transformer的多模态唇语识别方法、装置及介质。

技术介绍

1、现有的唇语识别方法主要分为两大类:传统方法和基于深度学习的方法。

2、传统方法通常包括唇部检测、唇部特征提取和分类三个步骤。检测和特征提取步骤往往采用图像处理和机器学习算法，如主动轮廓模型、小波变换等，但这些手工设计的特征在复杂场景下容易失效。分类阶段使用隐马尔可夫模型、支持向量机等经典分类器，性能有限。总的来说，传统方法依赖手工设计的特征和简单分类器，遇到真实场景的挑战如噪声、光照变化、姿态变化等，识别精度较低。且唇部运动的细微差异和复杂变化使得准确识别唇语变得困难。

3、近年来，基于深度学习的唇语识别方法逐渐占据主导地位。这些方法通过卷积神经网络等自动从大量数据中学习最优特征表示，避免了手工设计的缺陷。常见的网络包括2d-cnn、3d-cnn、循环神经网络等。但目前方法在时空特征建模、模态融合、泛化能力等方面仍有不足，需要进一步改进和创新。

4、现有的二维卷积神经网络（2dcn...

【技术保护点】

1.一种基于三维卷积和视觉Transformer的多模态唇语识别方法，其特征在于，包括：

2.根据权利要求1所述的基于三维卷积和视觉Transformer的多模态唇语识别方法，其特征在于，所述视觉特征提取过程如下：将视频的唇部图像序列依次经过三维卷积模块和8个TransformerBlocks得到输出的视觉特征；

3.根据权利要求1所述的基于三维卷积和视觉Transformer的多模态唇语识别方法，其特征在于，所述融合特征向量整合方式如下：

4.根据权利要求1所述的基于三维卷积和视觉Transformer的多模态唇语识别方法，其特征在于，所述视觉Tra...

【技术特征摘要】

1.一种基于三维卷积和视觉transformer的多模态唇语识别方法，其特征在于，包括：

2.根据权利要求1所述的基于三维卷积和视觉transformer的多模态唇语识别方法，其特征在于，所述视觉特征提取过程如下：将视频的唇部图像序列依次经过三维卷积模块和8个transformerblocks得到输出的视觉特征；

3.根据权利要求1所述的基于三维卷积和视觉transformer的多模态唇语识别方法，其特征在于，所述融合特征向量整合方式如下：

4.根据权利要求1所述的基于三维卷积和视觉transformer的多模态唇语识别方法，其特征在于，所述视觉transformer模型包括se卷积嵌入模块、卷积投影层、多头注意模块、层归一化和多层感知机；

5.根据权利要求4所述的基于三维卷积和视觉transformer的多模态唇语识别方法，其特征在于，所述se卷积嵌入模块对特征向量处理流程如下：

...

【专利技术属性】
技术研发人员：陈海波，
申请(专利权)人：山东浪潮数字服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人