基于元学习的视频行为识别方法技术

技术编号：40777323 阅读：3 留言：0更新日期：2024-03-25 20:22

本发明专利技术涉及基于元学习的视频行为识别方法，属于计算机视觉技术领域。获取待检测的视频，输入训练后的基于元学习的视频行为识别模型，输出视频行为识别结果。该模型包括内层的域适应行为识别模型和外层的视频行为识别模型；该模型的训练过程分为预热训练和元训练，获取预热训练的样本，对视频行为识别模型进行预热训练，得到元训练集和元测试集，将其输入基于元学习的视频行为识别模型，进行元训练，通过域适应行为识别模型对源域和目标域实现域对齐，通过视频行为识别模型对样本进行视频行为识别，至损失函数收敛停止训练。本发明专利技术针对无人机视频的视频行为识别中域适应差的问题，提高模型域适应，进而提升模型的泛化性，识别结果更准确。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉，特别是涉及基于元学习的视频行为识别方法。

技术介绍

1、随着人工智能技术、大数据技术的发展，建设信息高度集成的智慧校园成为了一种发展趋势。其中，在复杂多变的校园场景视频中识别人类行为对校园安全和管理尤为重要。视频行为识别是一种基于计算机视觉和模式识别技术的视频分析任务，其目标是从视频数据中提取出人类行为的特征并进行分类识别。

2、目前的校园视频行为识别大多都是针对监控视频场景下的，其优势在于覆盖面广，能够同步监视和远程控制；其劣势在于对户外教学以及校园大型活动等场景缺乏全局的信息，对校园中紧急情况的捕获和监管不够灵活方便。而无人机视频具有成像视角广、机动灵活等特点，可以捕获全局信息，所以无人机视频能很好地辅助监控视频预防、控制和快速响应校园突发事件，同时也是一个很好的研究数据。

3、现在的无人机视频行为识别主要存在两大挑战：(1)数据集的数据量少且标注成本高。目前包含校园场景的数据集只有新加坡科技设计大学和山东大学收集的uav_human，以及美国nec实验室采集的nec_drone。(2)无人机视频视觉模式复杂导致较大的域差异。无人机视频数据视角多变且尺度变化大，室外拍摄环境多变，人体目标所占区域较小，动作的外观轮廓信息不明显。因此，无人机视频行为识别的域适应差，造成其识别准确率低。

4、元学习(meta-learning)为域适应无人机视频行为识别提供了新思路。元学习是在多个学习阶段改进学习算法的过程，其核心思想是学习针对任务的先验知识。元学习通常可以形式化为双层优化

技术实现思路

1、为解决上述技术问题，本专利技术提供基于元学习的视频行为识别方法，该方法具体包括：

2、获取待检测的视频；

3、将所述待检测的视频输入训练后的基于元学习的视频行为识别模型，输出视频行为识别结果；

4、所述基于元学习的视频行为识别模型包括内层模型和外层模型，所述内层模型为域适应行为识别模型，所述外层模型为视频行为识别模型；

5、所述基于元学习的视频行为识别模型的训练过程分为预热训练和元训练；

6、所述预热训练包括：获取预热训练的样本，对所述视频行为识别模型进行预热训练，得到元训练集和元测试集；

7、所述元训练包括：将所述元训练集和元测试集作为元训练的样本，输入基于元学习的视频行为识别模型，进行元训练，通过所述域适应行为识别模型对元训练的样本提取域不变信息，实现对源域和目标域的域对齐，通过所述视频行为识别模型对元训练的样本进行视频行为识别，计算所述基于元学习的视频行为识别模型的损失函数，直至所述损失函数收敛则停止训练，得到训练后的基于元学习的视频行为识别模型。

8、本专利技术的有益效果：首先，本专利技术构建基于元学习的视频行为识别模型，其包括内层模型和外层模型，其内层模型为域适应行为识别模型，外层模型为视频行为识别模型，内外层模型的部分参数是互相共享的，迭代训练模型，有效缓解了无人机视频视觉模式复杂而导致的较大域差异问题，增强了模型域适应的能力，进而提升了模型的泛化性，提高了视频行为识别结果的准确性。然后，将大量的、带标注的自然场景视频作为源域，有限的、未标注的无人机视频数据作为目标域，采用源域数据来预热训练视频行为识别模型，进而预测目标域的伪标签，将源域和带有可靠伪标签的目标域随机分为元训练集和元测试集解决了无人机视频数据量缺乏、标注成本高的难题。

本文档来自技高网...

【技术保护点】

1.基于元学习的视频行为识别方法，其特征在于，该方法具体包括：

2.根据权利要求1所述的基于元学习的视频行为识别方法，其特征在于，所述预热训练的具体步骤包括：

3.根据权利要求2所述的基于元学习的视频行为识别方法，其特征在于，所述步骤S101中，所述源域Ds为带标注的自然场景视频数据，所述目标域DT为未标注的无人机视频数据；将所述目标域DT数据按比例分为训练集DTra以及测试集DTes。

4.根据权利要求1所述的基于元学习的视频行为识别方法，其特征在于，所述域适应行为识别模型和所述视频行为识别模型均包括特征提取网络和线性分类器，所述特征提取网络和线性分类器的参数是互相共享的，具体为：所述域适应行为识别模型进行一次优化训练后得到内层参数，将所述内层参数传递给所述视频行为识别模型进行一次优化训练，得到外层参数，交替执行内层参数和外层参数优化学习，直至所述基于元学习的视频行为识别模型训练完成。

5.根据权利要求1或4所述的基于元学习的视频行为识别方法，其特征在于，所述域适应行为识别模型包括特征提取网络、线性分类器、特征投影头以及域间信息传

6.根据权利要求5所述的基于元学习的视频行为识别方法，其特征在于，还包括模型测试，其具体测试过程包括：对所述预热训练的样本进行预处理，得到测试集DTes的T帧输入序列，将所述测试集DTes的T帧输入序列输入经训练后的所述视频行为识别模型，输出视频行为识别结果，根据所述视频行为识别结果进行测试比对，根据测试结果调整元训练集的样本数量，迭代训练，得到训练后的基于元学习的视频行为识别模型。

7.根据权利要求5所述的基于元学习的视频行为识别方法，其特征在于，利用所述特征投影头对所述源域视频的特征序列和目标域视频特征序列实现高维映射，分别得到源域的高维特征序列和目标域的高维特征序列，在高维空间中优化源域与目标域相互之间的域信息，得到优化后的所述信息瓶颈损失函数LIB，其计算公式具体为：

8.根据权利要求5-7任一所述的基于元学习的视频行为识别方法，其特征在于，所述步骤S505中提取域不变信息mi，得到增强后的目标域特征，其具体步骤包括：

9.根据权利要求2、5、6中任一所述的基于元学习的视频行为识别方法，其特征在于，所述预处理的具体流程包括：

10.根据权利要求1所述的基于元学习的视频行为识别方法，其特征在于，所述视频行为识别模型包括基于时空Transformer架构的特征提取网络和线性分类器，所述特征提取网络包括空间编码器和时间编码器，所述空间编码器包含12个多头自注意力层，每层有12个自注意力头；所述时间编码器包含6个多头自注意力层，每层有8个自注意力头。

...

【技术特征摘要】

1.基于元学习的视频行为识别方法，其特征在于，该方法具体包括：

2.根据权利要求1所述的基于元学习的视频行为识别方法，其特征在于，所述预热训练的具体步骤包括：

3.根据权利要求2所述的基于元学习的视频行为识别方法，其特征在于，所述步骤s101中，所述源域ds为带标注的自然场景视频数据，所述目标域dt为未标注的无人机视频数据；将所述目标域dt数据按比例分为训练集dtra以及测试集dtes。

5.根据权利要求1或4所述的基于元学习的视频行为识别方法，其特征在于，所述域适应行为识别模型包括特征提取网络、线性分类器、特征投影头以及域间信息传播模块，所述元训练的具体步骤包括：

6.根据权利要求5所述的基于元学习的视频行为识别方法，其特征在于，还包括模型测试，其具体测试过程包括：对所述预热训练的样本进行预处理，得到...

【专利技术属性】
技术研发人员：杨烽，刘悉，舒文强，高陈强，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人