一种图像预训练模型到视频人脸表情识别的方法技术

技术编号：40231330 阅读：3 留言：0更新日期：2024-02-02 22:33

本发明专利技术提供一种图像预训练模型到视频人脸表情识别的方法，在Vision Transformer模型的基础上插入模态互补模块和时间建模模块，基于人脸表情的图片数据集和视频数据集，提取并引入人脸关键点辅助引导模型关注人脸上与表情更加相关的区域；首先训练出具有图像表征能力的图像预训练模型再扩展到视频模型，训练出具有动态识别能力的人脸表情识别模型。本发明专利技术采用了预先在静态表情数据集上训练然后在动态视频数据集上微调的方法，通过静态数据弥补了视频数据集在数量上的不足；通过模态互补模块对人脸表情特征和人脸关键点做模态融合，并通过时间建模模块学习时间维度信息；同时在视频模型训练阶段基于表情锚的自蒸馏损失提高监督信号，减少了噪声样本的干扰。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习、计算机视觉，具体涉及一种图像预训练模型到视频人脸表情识别的方法。

技术介绍

1、面部表情往往能够反映一个人的情感状态，在人际互动中发挥着至关重要的作用。由于其在应用中的重要性不断增加，如人机交互、医疗辅助和疲劳驾驶检测等，因此理解面部表情中的情感状态变得越来越关键，自动且准确地识别面部表情已经成为计算机视觉领域中的一项重要且备受欢迎的任务。

2、目前，面部表情识别可以大致分为两种类型：静态面部表情识别(sfer)和动态面部表情识别(dfer)。其中，sfer主要集中在从静态图像中识别表情，而dfer集中在从动态图像序列(或视频)中识别表情。本领域技术人员在这一领域已经进行了大量的研究工作，以推动sfer和dfer的发展。

3、在深度学习时代之前，本领域技术人员主要依赖于浅层学习方法和手工特征提取方法来进行fer，例如局部二进制(lbp)、梯度直方图(hog)、非负矩阵分解(nmf)和稀疏表示等。尽管这些方法在实验室环境中的数据集上表现出有希望的性能，但在处理真实世界的人脸时，它们的性能急剧下降。

4、随着深度学习的兴起，fer采用了数据驱动方法，受益于卷积神经网络(cnn)和视觉变换器(vision transformer)等强大的表示能力。fer在真实世界的sfer数据集上取得了显著进展，如raf-db、affectnet、ferplus等，但在dfer数据集上的性能(例如dfew、ferv39k、mafw等)仍然不尽如人意。这主要是由于dfer数据集的收集困难、数据

技术实现思路

1、本专利技术的目的提供一种图像预训练模型到视频人脸表情识别的方法，以解决上述
技术介绍
中提出的问题。

2、为实现上述目的，本专利技术采用如下技术方案：

3、一种图像预训练模型到视频人脸表情识别的方法，包括以下步骤：

4、s1、基于人脸表情图片数据集，提取并引入人脸关键点，训练出具有图像表征能力的图像预训练模型；

5、s2、将该图像预训练模型扩展到视频模型，基于人脸表情视频数据集，再次提取并引入人脸关键点，训练出具有动态识别能力的人脸表情识别模型。

6、进一步地，所述步骤s1具体包括以下操作：

7、s11、在标准的vision transformer模型的基础上插入模态互补模块，得到初始图像训练模型；

8、s12、基于人脸表情图片数据集提取人脸关键点，通过模态互补模块对人脸表情的特征和人脸关键点的特征进行模态融合；

9、s13、基于初始图像训练模型，对经过模态融合后的人脸表情的特征进行学习优化，得到具有图像表征能力的图像预训练模型。

10、进一步地，所述步骤s2具体包括以下操作：

11、s21、在图像预训练模型的基础上插入时间建模模块，得到初始视频训练模型；

12、s22、基于人脸表情视频数据集提取人脸关键点，通过模态互补模块对人脸表情的特征和人脸关键点的特征进行模态融合，人脸表情的特征同时通过时间建模模块学习时间维度信息；

13、s23、基于初始视频训练模型，对经过模态融合和学习时间维度信息后的人脸表情的特征进行学习优化，得到人脸表情识别模型。

14、进一步地，所述人脸关键点是基于人脸表情图片数据集或人脸表情视频数据集通过人脸关键点提取模型获得的；所述初始图像训练模型以人脸表情的图像序列和人脸关键点的图像序列作为输入；所述初始视频训练模型以人脸表情的视频片段和人脸关键点的视频片段作为输入；所述人脸表情和人脸关键点的图像序列或视频片段分别表示为：

15、

16、

17、式中：表示数据集；xf表示人脸表情的图像序列或视频片段；xl表示人脸关键点的图像序列或视频片段；t表示帧数；c表示通道数；h表示高；w表示宽。

18、进一步地，所述初始图像训练模型在接收人脸表情和人脸关键点的图像序列后具体执行以下操作：

19、首先将xf、xl分别通过一个patch embedding层分成n个块，并变换到d维空间，得到：

20、

21、

22、式中：表示人脸表情的tokens；表示人脸关键点的tokens；

23、然后将和输入到模态互补模块中进行模态融合生成引导prompt：生成的引导prompt以残差的形式加到此次模态融合前的人脸表情的tokens中并重复所述模态融合的过程；

24、为每个模态融合的人脸表情的token及其块的类别xclass附上位置信息positionembedding；同时将xclass以及position embedding输入到初始图像训练模型的transformer层中进行学习优化；

25、所述模态融合和学习优化的过程通过公式(1)和公式(2)表示：

26、

27、

28、公式(1)、(2)中：l表示模态融合以及学习优化的次数；l表示transformer层的层数；表示第l次模态融合前的人脸表情的tokens，表示第l次模态融合后的人脸表情的tokens；表示第l+1次模态融合生成的引导prompt；表示第l+1次学习优化后的人脸表情的tokens。

29、进一步地，所述初始视频训练模型在接收人脸表情和人脸关键点的视频片段后具体执行以下操作：

30、首先将xf、xl分别通过一个patch embedding层分成n个块，并变换到d维空间，得到：

31、

32、

33、式中：表示人脸表情的tokens；表示人脸关键点的tokens；

34、然后将和输入到模态互补模块中进行模态融合并生成引导prompt：同时将输入到时间建模模块中学习时间维度信息：生成的引导prompt和学习到的时间维度信息以残差的形式加到此次模态融合和学习时间维度信息前人脸表情的tokens中，并重复所述模态融合和学习时间维度信息的过程；

35、为每个模态融合的人脸表情的token及其块的类别xclass附上位置信息positionembedding；同时将xclass以及position embedding输入到初始视频训练模型的transformer层中进行学习优化；

36、所述模态融合、学习时间维度信息以及学习优化的过程通过公式(3)和公式(4)表示：

37、

38、

39、公式(3)、(4)中：l表示模态融合、学习时间维度信息以及学习优化的次数；l表示transformer层的层数；表示第l次模态融合和学习时间维度信息前的人脸表情的tokens，表示第l次模态融合和学习时间维度信息后的人脸表情的tokens；表示第l+1次模态融合生成的引导prompt；表示第l+本文档来自技高网...

【技术保护点】

1.一种图像预训练模型到视频人脸表情识别的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述步骤S1具体包括以下操作：

3.根据权利要求2所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述步骤S2具体包括以下操作：

4.根据权利要求3所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述人脸关键点是基于人脸表情图片数据集或人脸表情视频数据集通过人脸关键点提取模型获得的；所述初始图像训练模型以人脸表情的图像序列和人脸关键点的图像序列作为输入；所述初始视频训练模型以人脸表情的视频片段和人脸关键点的视频片段作为输入；所述人脸表情和人脸关键点的图像序列或视频片段分别表示为：

5.根据权利要求4所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述初始图像训练模型在接收人脸表情和人脸关键点的图像序列后具体执行以下操作：

6.权利要求4所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述初始视频训练模型在接收人脸

7.根据权利要求5或6所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，将每次模态融合前的人脸表情特征和人脸关键点特征记作和所述通过模态互补模块对人脸表情特征和人脸关键点进行模态融合具体通过以下方法实现：

8.根据权利要求7所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述时间建模模块包括Temporal Adapter模块、Layer Norm层和Simple Adapter模块；其中所述Temporary Adapter模块包括用于捕捉时间信息的多头自注意力模块；所述时间建模模块以人脸表情特征作为输入，人脸表情特征通过时间建模模块学习时间维度信息具体通过以下方法实现：

9.根据权利要求3所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，在所述初始视频训练模型的训练过程中，通过表情锚的自蒸馏损失提供辅助监督信号以减少噪声标签的干扰，具体通过以下方法实现：

...

【技术特征摘要】

1.一种图像预训练模型到视频人脸表情识别的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述步骤s1具体包括以下操作：

3.根据权利要求2所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述步骤s2具体包括以下操作：

6.权利要求4所述的一种图像预训练模型到视频人脸表情识...

【专利技术属性】
技术研发人员：李佳，陈银，洪日昌，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人