基于统一大模型的动作检测分类方法及系统、设备、介质技术方案

技术编号：40606775 阅读：6 留言：0更新日期：2024-03-12 22:13

本发明专利技术公开了一种基于统一大模型的动作检测分类方法及系统、设备、介质，其通过先获取包含特定动作的多个视频并制作样本数据集，然后构建动作检测分类统一大模型并利用样本数据集对统一大模型进行训练，最后利用训练好的统一大模型对待动作分类的视频进行动作类别、开始帧和结束帧的预测。本发明专利技术基于transformer大模型来构建动作检测分类统一大模型，可以直接预测出动作类别、动作开始帧和动作结束帧，无需经历两阶段式训练学习，实现了端到端的学习，极大地节约了计算资源，提高了算法效率，缩短了训练时间，并且可以灵活地迁移到新的动作识别任务，通用性较好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及动作检测分类，特别地，涉及一种基于统一大模型的动作检测分类方法及系统、电子设备、计算机可读取的存储介质。

技术介绍

1、目前，常规的动作识别方法通常是对剪辑后的一段包含特定动作的视频进行分类，但是在大部分现实应用场景中，视频都是未剪辑的，故而常规的动作识别方法难以适用于现实应用场景。因此，现有一些动作识别方法采取了深度学习对未剪辑的视频进行动作识别，其需要经历两个阶段，第一阶段是通过动作检测任务找到动作的开始帧和结束帧进行视频剪辑，第二阶段是通过动作识别任务对剪辑后的视频进行动作分类。由于采用两阶段式方法，导致训练时间很长、计算量很大，且动作分类结果很大程度上依赖于前一阶段的动作检测结果，因此，该方法不能灵活迁移到新的动作识别任务，通用性较差。

技术实现思路

1、本专利技术提供了一种基于统一大模型的动作检测分类方法及系统、电子设备、计算机可读取的存储介质，以解决现有采用深度学习的动作识别方法存在的训练时间长、计算量大、通用性差的技术问题。

2、根据本专利技术的一个方面，提供一种基于统一大模型的动作检测分类方法，包括以下内容：

3、获取包含特定动作的多个视频并制作样本数据集；

4、构建动作检测分类统一大模型，并利用样本数据集对动作检测分类统一大模型进行训练，直至模型收敛，其中，所述动作检测分类统一大模型包括用于提取图像特征的骨干网络、用于对图像特征进行编码处理的图像编码器、用于对编码结果进行解码处理的图像解码器和用于基于解码结果预测动

5、对待动作分类的视频进行预处理，并将预处理结果输入至训练好的动作检测分类统一大模型中，得到动作类别、动作开始帧和动作结束帧。

6、进一步地，所述获取包含特定动作的多个视频并制作样本数据集的过程具体为：

7、将每个视频剪辑为多个视频片段；

8、从每个视频片段中提取出多帧图像，得到原始图像集合，并基于原始图像集合预测每个视频片段的动作类别及对应的开始帧和结束帧；

9、对原始图像集合中的每帧图像进行行人检测后裁剪出roi图像，得到每个视频片段对应的roi图像集合；

10、以每个视频片段的roi图像集合作为特征、以每个视频片段的动作类别及对应的开始帧和结束帧作为标签，制作样本数据集。

11、进一步地，制作标签的过程具体为：

12、若视频片段不含特定动作，则动作类别标注为0、开始帧标注为0、结束帧标注为0；若视频片段含特定动作的完整过程，则动作类别标注为1、开始帧标注为开始时间ts、结束帧标注为结束时间te；若视频片段含特定动作但没有开始帧，则动作类别标注为1、开始帧标注为开始时间0、结束帧标注为结束时间te；若视频片段含特定动作但没有结束帧，则动作类别标注为1、开始帧标注为开始时间ts、结束帧标注为t+1；若视频片段含特定动作但没有开始帧和结束帧，则动作类别标注为1、开始帧标注为开始时间0、结束帧标注为t+1。

13、进一步地，所述图像编码器包括转换器编码模块和一维卷积层，骨干网络提取的图像特征向量结合位置向量输入至转换器编码模块进行空间编码，得到类别向量，类别向量结合时间向量输入至一维卷积层再进行时间编码，得到时空编码向量。

14、进一步地，所述骨干网络先从每帧roi图像中提取出对应的特征图，再将特征图输入至1*1卷积，以将特征图重构为特征向量。

15、进一步地，所述骨干网络采用残差网络resnet50。

16、进一步地，所述图像解码器包括转换器解码模块，所述转换器解码模块的自注意力输入为可学习的动作提示编码向量、自注意力输出作为交互注意力机制的查询向量，图像编码器的输出作为交互注意力机制的键向量和值向量输入，所述动作提示编码向量为一个随机初始化的动作类别编码向量，每个动作提示编码负责关注特定的一个动作类别，在训练过程中，每个动作提示编码与全部键向量分别计算相似度，并根据相似度计算结果确定对应的每个值向量的权重，相似度越高、权重越大。

17、另外，本专利技术还提供一种基于统一大模型的动作检测分类系统，包括：

18、样本制作模块，用于获取包含特定动作的多个视频并制作样本数据集；

19、模型训练模块，用于构建动作检测分类统一大模型，并利用样本数据集对动作检测分类统一大模型进行训练，直至模型收敛，其中，所述动作检测分类统一大模型包括骨干网络、图像编码器、图像解码器和预测头，所述预测头包括动作类别预测头、开始帧预测头和结束帧预测头；

20、动作检测分类模块，用于对待动作分类的视频进行预处理，并将预处理结果输入至训练好的动作检测分类统一大模型中，得到动作类别、动作开始帧和动作结束帧。

21、另外，本专利技术还提供一种电子设备，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上所述的方法的步骤。

22、另外，本专利技术还提供一种计算机可读取的存储介质，用于存储基于统一大模型进行动作检测分类的计算机程序，所述计算机程序在计算机上运行时执行如上所述的方法的步骤。

23、本专利技术具有以下效果：

24、本专利技术的基于统一大模型的动作检测分类方法，通过先获取包含特定动作的多个视频并制作样本数据集，然后构建动作检测分类统一大模型并利用样本数据集对统一大模型进行训练，最后利用训练好的统一大模型对待动作分类的视频进行动作类别、开始帧和结束帧的预测。本专利技术基于transformer大模型来构建动作检测分类统一大模型，可以直接预测出动作类别、动作开始帧和动作结束帧，无需经历两阶段式训练学习，实现了端到端的学习，极大地节约了计算资源，提高了算法效率，缩短了训练时间，并且可以灵活地迁移到新的动作识别任务，通用性较好。

25、另外，本专利技术的基于统一大模型的动作检测分类系统同样具有上述优点。

26、除了上面所描述的目的、特征和优点之外，本专利技术还有其它的目的、特征和优点。下面将参照图，对本专利技术作进一步详细的说明。

本文档来自技高网...

【技术保护点】

1.一种基于统一大模型的动作检测分类方法，其特征在于，包括以下内容：

2.如权利要求1所述的基于统一大模型的动作检测分类方法，其特征在于，所述获取包含特定动作的多个视频并制作样本数据集的过程具体为：

3.如权利要求2所述的基于统一大模型的动作检测分类方法，其特征在于，制作标签的过程具体为：

4.如权利要求1所述的基于统一大模型的动作检测分类方法，其特征在于，所述图像编码器包括转换器编码模块和一维卷积层，骨干网络提取的图像特征向量结合位置向量输入至转换器编码模块进行空间编码，得到类别向量，类别向量结合时间向量输入至一维卷积层再进行时间编码，得到时空编码向量。

5.如权利要求1所述的基于统一大模型的动作检测分类方法，其特征在于，所述骨干网络先从每帧ROI图像中提取出对应的特征图，再将特征图输入至1*1卷积，以将特征图重构为特征向量。

6.如权利要求5所述的基于统一大模型的动作检测分类方法，其特征在于，所述骨干网络采用残差网络ResNet50。

7.如权利要求1～6任一项所述的基于统一大模型的动作检测分类方法，其特

8.一种基于统一大模型的动作检测分类系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如权利要求1～7任一项所述的方法的步骤。

10.一种计算机可读取的存储介质，用于存储基于统一大模型进行动作检测分类的计算机程序，其特征在于，所述计算机程序在计算机上运行时执行如权利要求1～7任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于统一大模型的动作检测分类方法，其特征在于，包括以下内容：

2.如权利要求1所述的基于统一大模型的动作检测分类方法，其特征在于，所述获取包含特定动作的多个视频并制作样本数据集的过程具体为：

3.如权利要求2所述的基于统一大模型的动作检测分类方法，其特征在于，制作标签的过程具体为：

5.如权利要求1所述的基于统一大模型的动作检测分类方法，其特征在于，所述骨干网络先从每帧roi图像中提取出对应的特征图，再将特征图输入至1*1卷积，以将特征图重构为特征向量。

6.如权利要求5所述的基于统一大模型的动作检测分类方法，其特征在于，所述骨干网络采用残差网络resnet50。

7.如权利要求...

【专利技术属性】
技术研发人员：李娇娇，刘伟华，马金民，李林，
申请(专利权)人：智慧眼科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人