【技术实现步骤摘要】
本专利技术属于唇语识别,具体涉及基于三维卷积和视觉transformer的多模态唇语识别方法、装置及介质。
技术介绍
1、现有的唇语识别方法主要分为两大类:传统方法和基于深度学习的方法。
2、传统方法通常包括唇部检测、唇部特征提取和分类三个步骤。检测和特征提取步骤往往采用图像处理和机器学习算法,如主动轮廓模型、小波变换等,但这些手工设计的特征在复杂场景下容易失效。分类阶段使用隐马尔可夫模型、支持向量机等经典分类器,性能有限。总的来说,传统方法依赖手工设计的特征和简单分类器,遇到真实场景的挑战如噪声、光照变化、姿态变化等,识别精度较低。且唇部运动的细微差异和复杂变化使得准确识别唇语变得困难。
3、近年来,基于深度学习的唇语识别方法逐渐占据主导地位。这些方法通过卷积神经网络等自动从大量数据中学习最优特征表示,避免了手工设计的缺陷。常见的网络包括2d-cnn、3d-cnn、循环神经网络等。但目前方法在时空特征建模、模态融合、泛化能力等方面仍有不足,需要进一步改进和创新。
4、现有的二维卷积神经网络(2dcn
...【技术保护点】
1.一种基于三维卷积和视觉Transformer的多模态唇语识别方法,其特征在于,包括:
2.根据权利要求1所述的基于三维卷积和视觉Transformer的多模态唇语识别方法,其特征在于,所述视觉特征提取过程如下:将视频的唇部图像序列依次经过三维卷积模块和8个TransformerBlocks得到输出的视觉特征;
3.根据权利要求1所述的基于三维卷积和视觉Transformer的多模态唇语识别方法,其特征在于,所述融合特征向量整合方式如下:
4.根据权利要求1所述的基于三维卷积和视觉Transformer的多模态唇语识别方法,其特征
...【技术特征摘要】
1.一种基于三维卷积和视觉transformer的多模态唇语识别方法,其特征在于,包括:
2.根据权利要求1所述的基于三维卷积和视觉transformer的多模态唇语识别方法,其特征在于,所述视觉特征提取过程如下:将视频的唇部图像序列依次经过三维卷积模块和8个transformerblocks得到输出的视觉特征;
3.根据权利要求1所述的基于三维卷积和视觉transformer的多模态唇语识别方法,其特征在于,所述融合特征向量整合方式如下:
4.根据权利要求1所述的基于三维卷积和视觉transformer的多模态唇语识别方法,其特征在于,所述视觉transformer模型包括se卷积嵌入模块、卷积投影层、多头注意模块、层归一化和多层感知机;
5.根据权利要求4所述的基于三维卷积和视觉transformer的多模态唇语识别方法,其特征在于,所述se卷积嵌入模块对特征向量处理流程如下:
...【专利技术属性】
技术研发人员:陈海波,
申请(专利权)人:山东浪潮数字服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。