一种基于典型动作网络的时序动作定位方法技术

技术编号：40020316 阅读：7 留言：0更新日期：2024-01-16 16:39

本发明专利技术公开了一种基于典型动作网络的时序动作定位方法，包括步骤1：从给定视频中抽取视频特征；步骤2：根据视频特征，利用聚类算法生成典型动作；步骤3：根据典型动作之间的信息传递关系，构建基于结构信息传递的典型动作网络模块；步骤4：将典型动作网络模块与时序动作定位方法ActionFormer结合；步骤5：基于相似性比较的分类估计；步骤6：训练和测试；本方法通过将典型动作网络模块与已有的时序动作定位方法相结合，能够有效提高算法的表征力和判别力，具有表征力和判别力好、定位准确的特点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉算法研究，具体涉及一种基于典型动作网络的时序动作定位方法。

技术介绍

1、在万物互联的信息时代，视频作为记录客观世界并传递信息的有效媒介，在生产生活中得到广泛的应用，这也使得视频解译的需求越来越强烈；

2、为了有效地感知动作的结构，视频动作解译领域的研究者们已经进行深入的探索并取得一系列的成果；mengmeng xu等人在2020年的工作g-tad:sub-graph localizationfor temporal action detection中建模视频片段的时序邻域和语义邻域关系，runhaozeng等人在2021年的工作graph convolutional module for temporal actionlocalization in videos中以图中拓扑结构表示邻近动作提议之间的关系；近期，自注意力机制展现出优良的动作结构建模能力，其中，ashish vaswani等人在2017年的工作attention is all you need中通过密集连接使得视频帧只经过一个序列化操作便能与任意邻近帧进行交互，而邻近帧充分的交互能为视频帧提供丰富的时序上下文信息；然而，图卷积机制和自注意力机制希望为每类动作学习一种唯一确定的表征，但通常忽略类内多样性，忽略一个动作通常含有多个阶段，而每个阶段的视频帧也展现出不同的外观和运动特性；此外，已有方法通常局限于单个视频，甚至视频中一个滑动窗，进行动作结构建模，尚未充分探索跨视频类别级的关系；

3、为了表征同类动作的多样性并进

4、基于此，亟需设计一种基于典型动作网络的时序动作定位方法，以提高视频解译任务过程中的表征力和判别力，从而解决上述现有技术存在的问题。

技术实现思路

1、针对上述存在的问题，本专利技术旨在提供一种基于典型动作网络的时序动作定位方法，本方法通过考虑一个动作类别，首先，本方法收集此类所有动作实例的每个特征并进行聚类，选取有代表性的特征作为典型动作片段；然后，本方法将典型动作片段划分为三个阶段并按照时间顺序嵌入到一个有向图中，从类别层面全局地构建典型动作网络；接下来，本方法在典型动作网络中设计四种信息交互步骤：阶段内部交互、相邻阶段传递、典型信息聚合和视频帧广播，这四种步骤按顺序处理时序信息，调整典型动作网络中每个典型动作片段的特征，为所处理的每帧视频提供恰当的时序信息引导；最终，典型动作网络模块与已有的时序动作定位方法相结合，取得性能增益的过程，能够有效提高模块的表征力和判别力，具有表征力和判别力好、定位准确的特点。

2、为了实现上述目的，本专利技术所采用的技术方案如下：

3、一种基于典型动作网络的时序动作定位方法，包括

4、步骤1：从给定视频中抽取视频特征；

5、步骤2：根据视频特征，利用聚类算法生成典型动作；

6、步骤3：根据典型动作之间的信息传递关系，构建基于结构信息传递的典型动作网络模块；

7、步骤4：将典型动作网络模块与时序动作定位方法actionformer结合；

8、步骤5：对典型动作网络模块与时序动作定位方法actionformer结合后的结果进行基于相似性比较的分类估计；

9、步骤6：设置损失函数，对分类结果进行训练和测试。

10、优选的，步骤1所述的从给定视频中抽取视频特征的过程为

11、给定视频，利用i3d模型，从给定视频中抽取一系列视频特征，得到给定视频的高层语义表征：

12、f＝[f1，f2，…，ft]，

13、其中，表示第t个视频特征，ft反映一段连续视频帧的信息。优选的，步骤2所述的利用聚类算法生成典型动作的过程包括

14、步骤2.1：考虑一类动作，收集所有动作实例的特征表示，使用k-means算法将特征聚类，得到m个聚类簇；对于每簇特征表示，将最靠近聚类中心的特征当作典型特征，得到m个典型特征；

15、步骤2.2：在得到m个典型特征后，将每个动作实例均匀地划分为三个阶段：动作开端、动作演变和动作结尾。

16、优选的，步骤3所述的构建典型动作网络模块的过程包括

17、步骤3.1：连接属于同一阶段的多个典型动作，并在每两个典型动作之间进行双向的信息交互；

18、步骤3.2：从“动作开端”到“动作演变”和从“动作演变”到“动作结尾”两种信息传递；将开端阶段的每个典型特征与演变阶段的所有典型特征连接，将演变阶段的每个典型特征与结尾阶段的所有典型特征连接，最终，在不同阶段典型特征之间建立一个有向图；

19、步骤3.3：将典型信息聚合到视频帧，为动作解译任务提供时序信息支持；同时将视频帧特征与所有典型特征逐个比较，并使用注意力机制自适应地从各个动作阶段聚合特征；

20、步骤3.4：使用视频帧广播操作将当前视频帧的特性传递给典型动作网络模块；每个典型动作综合考虑其自身特征和正在处理的视频帧特征，按照注意力机制更新自身特征。

21、优选的，在步骤3所述的典型动作网络模块中，典型动作以图变换网络的形式运行，具体过程为：

22、1.首先，初始化图变换网络的节点特征和边特征

23、(1)使用一个线性变换层将典型动作特征投影到隐空间，此外，考虑一条由节点vi指向节点vj的边，将边的特征表示为eij；

24、(2)在初始化阶段，拼接xi和xj两个节点的特征，并应用一个线性变换层进行特征投影，此外，采用随机游走策略为每个节点产生位置编码，并使用一个线性变换层将位置编码投影到隐空间

25、(3)典型动作网络模块每层使用图变换网络，对于第l层的图变换网络，其第i个节点的特征为对应的位置编码为连接节点vi和vj的边所对应的特征为使用投影矩阵来处理节点特征和对应的位置编码，使用投影矩阵来处理边特征；

26、(4)为计算节点vi和其相邻节点vj，j∈ni的相关性，估计相关性向量

27、

28、其中，表示逐元素相乘，[·]表示在通道维度拼接；

29、2.按照下式计算本文档来自技高网...

【技术保护点】

1.一种基于典型动作网络的时序动作定位方法，其特征在于：包括

2.根据权利要求1所述的一种基于典型动作网络的时序动作定位方法，其特征在于：步骤1所述的从给定视频中抽取视频特征的过程为

3.根据权利要求1所述的一种基于典型动作网络的时序动作定位方法，其特征在于：步骤2所述的利用聚类算法生成典型动作的过程包括

4.根据权利要求1所述的一种基于典型动作网络的时序动作定位方法，其特征在于：步骤3所述的构建典型动作网络模块的过程包括

5.根据权利要求4所述的一种基于典型动作网络的时序动作定位方法，其特征在于：在步骤3所述的典型动作网络模块中，典型动作以图变换网络的形式运行，其具体应用过程为：

6.根据权利要求1所述的一种基于典型动作网络的时序动作定位方法，其特征在于：步骤4所述的将典型动作网络模块与时序动作定位方法ActionFormer结合的过程包括

7.根据权利要求1所述的一种基于典型动作网络的时序动作定位方法，其特征在于：步骤5所述的基于相似性比较的分类估计过程包括

8.根据权利要求1所述的一种基于典

...

【技术特征摘要】

1.一种基于典型动作网络的时序动作定位方法，其特征在于：包括

2.根据权利要求1所述的一种基于典型动作网络的时序动作定位方法，其特征在于：步骤1所述的从给定视频中抽取视频特征的过程为

3.根据权利要求1所述的一种基于典型动作网络的时序动作定位方法，其特征在于：步骤2所述的利用聚类算法生成典型动作的过程包括

4.根据权利要求1所述的一种基于典型动作网络的时序动作定位方法，其特征在于：步骤3所述的构建典型动作网络模块的过程包括

5.根据权利要求4所述的一种基于典型动作网络的时序动作定位...

【专利技术属性】
技术研发人员：张鼎文，孙佳欣，杨乐，程乐超，高源远，韩军伟，彭春蕾，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人