一种基于时空通道注意力机制的陆地哺乳动物动作识别方法技术

技术编号:43306850 阅读:15 留言:0更新日期:2024-11-12 16:23
本发明专利技术公开了一种基于时空通道注意力机制的陆地哺乳动物动作识别方法,属于深度学习动作识别技术领域。本发明专利技术首先设置动作识别模型,其包括提取视频的时空特征的3D主干网络、提取视频关键帧的空间特征的2D主干网络,对时空特征和空间特征进行特征融合的通道融合模块,其输出经第一卷积块后输入注意力机制模块,注意力机制模块输出的注意力特征图经第二卷积块送入分类层,分类层用于对分类特征图进行动作识别预测,获取动作识别预测结果,包括:陆地哺乳动物动作类别、预测框的置信度和预测框的位置信息;基于采集的训练数据集对动作识别模型进行深度学习训练,当满足预置的收敛条件时,得到用于目标动物的动作识别模型;动作识别模型进行深度学习训练时采用的总损失函数为预测框回归函数、分类函数和置信度函数的加权和。本发明专利技术在现有基于深度学习的时空动作识别模型的基础上,对主干网络架构、损失函数组成等进行优化,一定程度上克服了原模型小样本动作、易混淆动作识别困难等问题,增强了模型泛化能力以及对陆地哺乳动物的识别准确率,提升了检测性能。

【技术实现步骤摘要】

本专利技术涉及深度学习动作识别,尤其涉及一种基于时空通道注意力机制的陆地哺乳动物动作识别方法


技术介绍

1、视频动作识别作为计算机视觉领域的一项重要技术,正逐步展现出其在多个领域的广泛应用价值,特别是在动物动作识别这一新兴方向上有着巨大潜力。动物动作识别不仅对于分析动物行为、理解动物习性至关重要,还能够促进生态保护策略的合理制定。目前,大熊猫、金丝猴、亚洲象等陆地哺乳动物是我国濒危动物的重点保护对象,然而,传统的动物行为观测和数据收集方法的范围和效率都较为有限,这强调了对深度学习模型等先进技术的需求,以达到从视频数据中有效精准地识别出动物行为的目的。

2、目前主流的视频动作识别的模型有以下三种:

3、第一种,双流网络,即将单个关键帧和多帧光流分别输入到两条分支网络,分别捕获时间与空间信息,将两条网络得到的分数加权平均处理,得到最终的识别结果。其缺点为光流信息的计算相对复杂且耗时,增加了时间与计算成本。

4、第二种,3d cnn(卷积神经网络),即将2d卷积网络扩展到3d(如n×n扩展到n×n×n),通过多个3d卷积模块本文档来自技高网...

【技术保护点】

1.一种基于时空通道注意力机制的陆地哺乳动物动作识别方法,其特征在于,包括下列步骤:

2.如权利要求1所述的方法,其特征在于,预测框回归函数具体设置为:

3.如权利要求1或2所述的方法,其特征在于,动作识别模型进行深度学习训练时采用的总损失函数的表达式为:

4.如权利要求1所述的方法,其特征在于,2D主干网络依次包括级联的2D卷积块、LayerNorm归一化层、ConvNeXt模块堆叠的第一堆叠模块、以及若干个由级联的下采样层和ConvNeXt模块为基础单元模块堆叠构成的第二堆叠模块;

5.如权利要求4所述的方法,其特征在于,下采样层为级联...

【技术特征摘要】

1.一种基于时空通道注意力机制的陆地哺乳动物动作识别方法,其特征在于,包括下列步骤:

2.如权利要求1所述的方法,其特征在于,预测框回归函数具体设置为:

3.如权利要求1或2所述的方法,其特征在于,动作识别模型进行深度学习训练时采用的总损失函数的表达式为:

4.如权利要求1所述的方法,其特征在于,2d主干网络依次包括级联的2d卷积块、layernorm归一化层、convnext模块堆叠的第一堆叠模块、以及若干个由级联的下采样层和convnext模块为基础单元模块堆叠构成的第二堆叠模块;

5.如权利要求4所述的方法,其特征在于,下采样层为级联的layer norm归一化层与2d卷积块...

【专利技术属性】
技术研发人员:岳诚浩郑懿韬张萍
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1