一种基于迁移学习的视频动作识别方法技术

技术编号：40525703 阅读：4 留言：0更新日期：2024-03-01 13:45

本发明专利技术公开了一种基于迁移学习的视频动作识别方法，网络模型的训练过程如下：S1：构建训练集；S2：对视频文本标签进行处理得到文本特征，将文本特征拼接作为初始化的分类矩阵；S3：提取视频中的帧图像，对帧图像进行处理得到视频帧特征图；S4：将视频帧特征图输入到隐式时序建模模块中以输出隐式视频表征；S5：将隐式视频帧表征图按照行随机打乱次，将个视频帧特征图输入到显式时序建模模块中，输出正确的显式视频表征，将显式视频表征和隐式视频表征做残差连接得到整个视频的表征；S6：将整个视频的表征和分类矩阵进行内积操作，计算预测分数，得到预测结果；该视频动作识别方法提高了对视频的识别预测准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及迁移学习，尤其涉及一种基于迁移学习的视频动作识别方法。

技术介绍

1、视频理解，尤其是动作识别，是计算机视觉的基础任务之一。它涉及识别和理解从图像、视频或传感器数据中捕捉到的人类或对象的动作和姿态。这个任务在各种应用中具有广泛的用途，包括视频监控、人机交互、虚拟现实、体感游戏、自动驾驶等领域。

2、目前主流的视频动作识别算法主要采取基于cnn或基于transformer的结构。cnn由于在图片领域已相对成熟，早期动作识别的框架是直接对视频帧使用2d卷积，并引入诸如光流、运动轨迹等传统算法来补充时序信息。之后出现了3d卷积，可以从视频片段中同时学习空间特征和相邻帧之间的时序特征，并利用得到的视频特征进行分类。

3、而在近几年，基于transformer结构的视频模型表现出了更好的效果。openai提出的开源模型clip因其出色的泛化性能和图片表征能力，被广泛用于图片域到视频域的迁移学习中。一部分基于clip的工作是先使用clip提取单个视频帧特征，然后设计一个时序建模模块，提取整个视频的特征。基于clip的方法即可以进行端到端的微调，也可以采用parameter-efficiency fine tune的方法，冻结clip的参数，只训练参数量较少的adapter模块，提高训练的效率。然而，一方面，相比与图片，视频蕴含更加丰富的时空信息，而当前方法在分类时使用的或是one-hot标签，或者单个词标签，这些标签没有完整地描述视频的复杂内容，导致视频空间和文本空间不能充分对齐；另一方面，目前迁移学习

技术实现思路

1、基于
技术介绍
存在的技术问题，本专利技术提出了一种基于迁移学习的视频动作识别方法，考虑了视频文本标签、视频两种模态数据，提高了对视频的识别预测准确性。

2、本专利技术提出的一种基于迁移学习的视频动作识别方法，将视频信息输入到网络模型中，以输出预测结果；

3、所述网络模型的训练过程如下：

4、s1：构建训练集，所述训练集包括视频以及视频文本标签；

5、s2：通过大语言模型将视频文本标签进行扩充，并将扩充后的视频文本标签通过clip模型进行编码得到文本特征，将文本特征拼接作为初始化的分类矩阵，分类矩阵在网络模型训练过程中冻结；

6、s3：提取视频中的帧图像，将增强后的帧图像通过clip模型进行编码得到视频帧特征图；

7、s4：基于encoder-only架构的transformer构建可学习位置编码的隐式时序建模模块，将视频帧特征图输入到隐式时序建模模块中，通过自注意力机制计算视频帧特征图得到隐式视频帧表征图，对隐式视频帧表征图进行平均池化操作后得到隐式时序建模模块输出的隐式视频表征；

8、s5：基于交叉注意力机制构建显式时序建模模块，将隐式视频帧表征图按照行随机打乱次，得到个视频帧特征，将个视频帧特征输入到显式时序建模模块中，得到个显式视频表征，所述个显式视频表征与对应的文本特征形成1个正样本对和个负样本对，利用对比学习范式对齐文本-视频空间，输出正确的显式视频表征，将显式视频表征和隐式视频表征做残差连接得到整个视频的表征；

9、s6：将表征和分类矩阵进行内积操作，计算预测分数，得到预测结果。

10、进一步地，在步骤s2中，具体包括：

11、以视频文本标签集合为处理对象，使用大语言模型对视频文本标签集合进行文本扩充，，表示大语言模型，表示扩充后的标签描述；

12、将标签描述通过分词器转化为单词向量，，其中，表示函数，表示描述字符串长度，是文本向量长度；

13、基于clip模型的文本编码器对单词向量进行编码得到文本特征，，其中表示特征维度；

14、将类标签描述的文本特征合并为分类矩阵，分类矩阵的第行为表示为，得到的分类矩阵，表示标签类别。

15、进一步地，在步骤s3中，具体包括：

16、对视频均匀采样帧，以视频帧集合作为处理对象，对视频帧集合进行数据增强，表示采样的帧数，表示图片的高度和宽度，表示图片的通道；

17、将数据增强后的视频帧集合在通道维度上进行堆叠，得到网络模型的输入图像，表示数据增强中裁剪后的尺寸；

18、基于clip模型的图片编码器对输入图像进行编码，得到视频帧特征图，表示特征维度。

19、进一步地，在步骤s4中，隐式时序建模模块包括了位置编码和encoder-only架构自注意力机制，其中：

20、

21、

22、其中，隐式视频帧表征图，隐式视频表征，表示平均池化。

23、进一步地，在步骤s5中，具体包括：

24、将隐式视频帧表征图的顺序设为正确顺序视频帧特征；

25、随机生成数字的序列，表示隐式视频帧表征图的长度，利用切片将视频帧特征图进行打乱，重复次，得到个错误顺序视频帧表征；

26、将视频帧特征图作为query，将个视频帧特征分别作为key和value固定，基于掩码交叉注意力机制对query、key和value计算，将计算后的特征经过全连接层降维得到关注不同顺序的个视频表征；

27、从文本特征中提取一个包含文本信息的向量，将向量加到个视频表征上，得到显式输出值；

28、将显式输出值与对应视频标签的文本特征内积，得到一个分数列向量，将分数列向量输入到时序损失函数中进行对比学习，得到正确的显式视频表征；

29、将显式视频表征和隐式视频表征做残差连接得到整个视频的表征。

30、进一步地，所述时序损失函数公式如下：

31、

32、其中，是当前视频帧的标签文本特征，是正确顺序视频帧特征输入到显式时序建模模块后的输出，是所有顺序视频帧表征输入到显式时序建模模块后的输出，是负样本个数，即打乱次数，是温度系数，·表示点乘。

33、进一步地，在步骤s6中，预测分数以交叉熵损失构建预测损失函数，预测损失函数的公式如下：

34、

35、其中，是对第个样本的预测分数；是第个样本的标签。

36、本专利技术提供的一种基于迁移学习的视频动作识别方法的优点在于：本专利技术结构中提供的一种基于迁移学习的视频动作识别方法，考虑了视频文本标签、视频两种模态数据；在文本侧，为了匹配视频中蕴含的丰富信息，使用大语言模型将原本简单的动作、行为标签扩充为详细描述，可以提高网络模型学习过程中文本-视频空间的对齐能力；同时，使用clip预训练好的文本编码器编码文本描述作为分类矩阵，可以减少训练参数，缩短训练时间；针对迁移学习中时序建模依赖位置编码的隐式时序挖掘问题，设计一个显式时序建模模块，并在与标签文本描述进行交互，充分挖掘文本和本文档来自技高网...

【技术保护点】

1.一种基于迁移学习的视频动作识别方法，其特征在于，将视频信息输入到网络模型中，以输出预测结果；

2.根据权利要求1所述的基于迁移学习的视频动作识别方法，其特征在于，在步骤S2中，具体包括：

3.根据权利要求1所述的基于迁移学习的视频动作识别方法，其特征在于，在步骤S3中，具体包括：

4.根据权利要求3所述的基于迁移学习的视频动作识别方法，其特征在于，在步骤S4中，隐式时序建模模块包括了位置编码和encoder-only架构自注意力机制，其中：

5.根据权利要求4所述的基于迁移学习的视频动作识别方法，其特征在于，在步骤S5中，具体包括：

6.根据权利要求5所述的基于迁移学习的视频动作识别方法，其特征在于，所述时序损失函数公式如下：

7.根据权利要求5所述的基于迁移学习的视频动作识别方法，其特征在于，在步骤S6中，预测分数以交叉熵损失构建预测损失函数，预测损失函数的公式如下：

【技术特征摘要】

1.一种基于迁移学习的视频动作识别方法，其特征在于，将视频信息输入到网络模型中，以输出预测结果；

2.根据权利要求1所述的基于迁移学习的视频动作识别方法，其特征在于，在步骤s2中，具体包括：

3.根据权利要求1所述的基于迁移学习的视频动作识别方法，其特征在于，在步骤s3中，具体包括：

4.根据权利要求3所述的基于迁移学习的视频动作识别方法，其特征在于，在步骤s4中，隐式时序建模模块包括了位...

【专利技术属性】
技术研发人员：张信明，刘语西，陈思宏，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人