基于长短时序特征增强和关键帧特征提取的小样本动作识别方法技术

技术编号：41096970 阅读：6 留言：0更新日期：2024-04-25 13:54

本发明专利技术公开了基于长短时序特征增强和关键帧特征提取的小样本动作识别方法，首先通过额外引入图像的近红外模态来缓解可见光图像的局限性得到融合特征；提取视频帧序列不同时间尺度的局部短期时序信息，从而增强模型对于局部短期时序信息的捕获能力；提取视频的全局长期时序信息，减少被遮挡帧对识别的影响；通过比较每帧的特征向量与全局特征向量之间的余弦相关性，将视频帧序列中判别性更强、与动作相关性更大的帧作为关键帧，并提取关键帧特征；将融合特征、长短时序增强特征和关键帧特征在特征维度连接得到动作特征；通过小样本分类器对动作特征进行识别，完成小样本动作识别任务。该方法使用交叉熵损失优化模型以提高识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于小样本动作识别领域，基于有限的标记数据进行学习，将未标记的视频识别为数据集中具有有限样本的动作类别之一。具体为一种基于长短时序特征增强和关键帧特征提取的小样本动作识别方法。

技术介绍

1、小样本动作识别就是基于有限的标记数据进行学习，将未标记的视频识别为数据集中具有有限样本的动作类别之一。由于深度学习的出现，动作识别有了很大的进步，但模型在训练数据较少的情况下可能会出现过拟合问题，严重影响其泛化性。获取视频数据集需要花费大量的人力和物力，且在现实生活中，很多场景下的动作识别任务中带有标注的数据是明显不足的，例如安全领域和医学领域，因此小样本动作识别研究逐渐发展起来。小样本动作识别在自动驾驶、智能监控、人机交互、运动分析、视频检索等领域都具有广泛的应用前景。

2、目前，现有的小样本动作识别技术大都是基于深度学习实现的。现有的基于深度学习的小样本动作识别方法大多数采用度量学习方式，通过衡量视频识别特征之间的相似性进行动作识别。基于深度学习的小样本动作识别主要有两种策略：基于时间对齐的小样本动作识别和基于特征增强的小样本动作识别。基于时间对齐的小样本动作识别通过对齐视频动作发生的时间顺序以获得一致的特征进行动作识别。基于特征增强的小样本动作识别侧重于学习视频的增强特征表示进行动作识别。

3、尽管现有的基于深度学习的小样本动作识别方法无论在精度上还是在运行速度上都取得了较大的进步，但在小样本动作识别中仍存在数据量匮乏和视频质量参差不齐、不同子动作之间的时序变化多样性、物理遮挡引起的信息丢失、冗余帧信

技术实现思路

1、本专利技术要解决的问题是：尽管现有的基于深度学习的小样本动作识别方法无论在精度上还是在运行速度上都取得了较大的进步，但在小样本动作识别中仍存在数据量匮乏和视频质量参差不齐、不同子动作之间的时序变化多样性、物理遮挡引起的信息丢失、冗余帧信息干扰识别等问题有待解决。

2、为了解决上述问题，本专利技术提供了一种基于长短时序特征增强和关键帧特征提取的小样本动作识别方法。该方法首先将采样的可见光模态视频帧序列和近红外模态视频帧序列输入可见光-近红外双流融合模块得到融合特征；其次将融合特征分别输入长短时序特征增强模块和关键帧特征提取模块，得到长短时序增强特征和关键帧特征；再次将融合特征、长短时序增强特征和关键帧特征在时间维度上平均池化，再连接得到动作特征。最后通过小样本分类器对动作特征进行识别，完成小样本动作识别任务。该方法包括以下步骤：

3、1)模型分别将可见光视频帧序列和近红外视频帧序列作为可见光-近红外双流融合模块的输入，输出融合特征。近红外图像具备广阔的波长范围与光照不变性，光照强度和角度对其影响很小，能够保留较为完善的边缘轮廓信息，可以缓解可见光图像容易受光照不均、背景变化等不良外部条件问题影响的局限性。

4、2)长短时序特征增强模块将融合特征作为输入，模块中的短期时序子模块和长期时序子模块分别提取视频帧序列的局部短期时序信息以及全局长期时序信息，最终输出长短时序增强特征。局部短期时序信息表示视频帧序列局部范围内某几帧之间的时序信息。短期时序子模块利用不同空洞率的空洞卷积，在不同的时间尺度上提取视频帧序列的局部短期时序信息，覆盖子动作之间不同的时间跨度范围，增强模型的局部短期时序信息捕获能力。全局长期时序信息表示整个视频帧序列所蕴含的时间跨度较长的时序信息。长期时序子模块通过计算视频帧序列的全局上下文注意力，提取视频的全局长期时序信息，从而减少被遮挡帧对识别的影响。

5、3)关键帧特征提取模块将融合特征作为输入，通过设置一个聚合视频所有帧信息的全局特征向量，然后比较每帧的特征向量与全局特征向量之间的余弦相关性，将视频帧序列中判别性更强、与动作相关性更大的帧作为关键帧，最终输出关键帧特征。在深度学习领域中，对动作的识别通常基于视频帧序列，视频中的内容相比图像来说更加丰富、信息量更大，但是视频帧序列中冗余信息太多，视频中的很多帧与所做的动作无关，提取视频帧序列中的关键帧特征可以减少视频帧序列中的冗余信息，有效提高动作识别的效率与准确度。

6、4)将融合特征、长短时序增强特征和关键帧特征在时间维度上平均池化，再连接得到动作特征。通过小样本分类器对动作特征进行识别，完成小样本动作识别任务。

7、进一步，所述步骤1)中的可见光-近红外双流融合模块，具体是：

8、1.1)可见光-近红外双流融合模块将可见光视频帧序列和近红外视频帧序列作为输入；

9、1.2)根据所采用数据集的动作类别数，修改resnet-50中最后一层的全连接层，分别提取可见光视频帧序列的特征xrgb和近红外视频帧序列的特征xnir。

10、1.3)基于仿射变换以及实例正则化的思想，对提取到的可见光特征xrgb和近红外特征xnir进行融合：

11、

12、

13、

14、其中，mfusion表示可见光-近红外双流融合模块，xrgb表示可见光特征，xnir表示近红外特征，xrgb,xnir∈rd×t，d是每帧的特征维度，t是单个视频中的帧数量，γ和β通过线性层从近红外特征xnir中获取，分别表示缩放和平移因子，ε是一个非常小的数。

15、1.4)可见光-近红外双流融合模块输出的融合特征f为：

16、f＝{f1，f2，…，ft，…，ft}，ft∈rd，f∈rd×t (4)

17、其中，ft为第t帧的特征。

18、进一步，所述步骤2)中的长短时序特征增强模块，具体是：

19、2.1)将可见光-近红外双流融合模块输出的融合特征f输入线性层。将高维的输入特征映射到低维，同时保留输入的关键信息，线性层的输出特征flinear为：

20、flinear＝{f1，f2，...，ft，...,ft}，ft∈ru，u＜d (5)

21、其中，ft为第t帧的特征。

22、2.2)将flinear输入短期时序子模块。短期时序子模块由4个平行的空洞卷积组成，空洞率分别为1、2、3、4。不同的空洞率可以覆盖子动作之间不同的时间跨度范围，在不同的时间尺度上提取视频帧序列的局部短期时序信息，增强模型的局部短期时序信息捕获能力。

23、当空洞率为r时，空洞卷积的输出特征fr为：

24、

25、

26、ft，r＝[ft-r，ft，ft+r] (8)其中，为第t帧的特征，ft，r表示空洞率为r时第t帧参与空洞卷积的帧特征集合，w∈ru×3是卷积核，其时间宽度为3，表示空洞率为r时的空洞卷积核的第i列。

27、在特征维度上连接flinear，f1，f2，f3和f4，得到短期时序子模块的输出特征f′：

28、f′＝{f1′，f2′，...，ft′，...本文档来自技高网...

【技术保护点】

1.基于长短时序特征增强和关键帧特征提取的小样本动作识别方法，实现该方法的模块包含：可见光-近红外双流融合模块、长短时序特征增强模块、关键帧特征提取模块和小样本分类器；其特征在于，对给定的视频帧序列，进行如下操作：

2.根据权利要求1所述的基于长短时序特征增强和关键帧特征提取的小样本动作识别方法，其特征在于，所述步骤1)中可见光-近红外双流融合模块，具体为：

3.根据权利要求1所述的一种基于长短时序特征增强和关键帧特征提取的小样本动作识别方法，其特征在于，所述步骤2)中的长短时序特征增强模块具体为：

4.根据权利要求1所述的一种基于长短时序特征增强和关键帧特征提取的小样本动作识别方法，其特征在于，所述步骤3)中关键帧特征提取模块具体为：

5.根据权利要求1所述的基于长短时序特征增强和关键帧特征提取的小样本动作识别方法，其特征在于，所述步骤4)中小样本分类器具体为：

6.根据权利要求2、3、4或5所述的基于长短时序特征增强和关键帧特征提取的小样本动作识别方法，其特征在于，本方法使用元学习策略进行训练和测试；元学习由元训练和

...

【技术特征摘要】

4.根据权利要求1所述的一种基于长短时序特征增强和关键帧特征提取的小样本动作识...

【专利技术属性】
技术研发人员：付利华，李鑫辉，邢旻与，李国放，王璐瑶，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人