一种基于双向时序编码及双信息融合的无监督视频行为分割方法技术

技术编号：40580969 阅读：5 留言：0更新日期：2024-03-06 17:24

本发明专利技术提供一种基于双向时序编码及双信息融合的无监督视频行为分割方法，具体包括：S1.构建特征预提取模块，用于提取视频中物体的轨迹和运动特征；S2.构建双向时序上下文特征编码网络，包含两个多层感知机特征映射层、前向和后向自回归编码器、及特征融合层；S3.构建两阶段视频行为分割模块，包含基于预测‑相似融合信息的初始分割模块、及优化模块；S4.基于预提取的视频帧特征构建训练集，训练特征编码网络；S5.使用特征预提取模块、训练好的特征编码网络、及两阶段视频行为分割模块对输入视频进行无监督行为分割。相比于已有方法，本发明专利技术充分利用了时序上下文信息及预测‑相似融合信息，提高了分割质量和性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于深度学习、计算机视觉及视频行为理解领域，具体涉及一种基于双向时序编码及双信息融合的无监督视频行为分割方法。

技术介绍

1、视频行为分割是计算机视觉领域的核心任务，其主要目标是将视频行为数据分割成不同的时间片段，其中每个片段对应特定行为或动作，为行为识别、检测和安防监控等视频理解领域提供关键应用价值。

2、现有视频行为分割方法通常依赖于有监督学习，需要耗费大量时间和人力资源进行帧级别的行为标签标注，这严重限制了实际应用的可行性。此外，有监督视频行为分割方法通常面临难以泛化到不同场景的问题，因为它们通常在特定数据集上训练，无法应对不同环境和数据变化。

3、为了克服有监督视频行为分割方法的局限性，近年来无监督视频行为分割方法受到关注。这类方法旨在自动分割视频中的不同行为片段，无需预先提供行为标签，从而显著减少了标注成本，增加了实际应用的可行性。目前，无监督视频行为分割方法主要分为两类：基于预测的方法和基于聚类的方法。基于预测的方法通常采用时序模型(如：循环神经网络)进行未来帧预测，使用预测损失序列的局部极值点作为分割边界，但这类方法容易受不适当的极值点数量干扰，导致分割结果碎片化，并且无法关联同一行为类别的片段，从而面临过分割问题。同时，循环神经网络在长时序上下文建模方面受限，也影响了分割性能。基于聚类的方法根据视频帧特征进行聚类得到行为分组，但离散的帧级别聚类无法充分利时序上下文信息，容易产生碎片化的分割结果和过分割问题，从而影响行为分割性能。

4、综上所述，当前的无监督视频行为分割

技术实现思路

1、针对现有无监督视频行为分割方法面临的上述问题和挑战，本专利技术提供一种基于双向时序编码及双信息融合的无监督视频行为分割方法。

2、一种基于双向时序编码及双信息融合的无监督视频行为分割方法，输入为视频帧序列，输出为分割好的行为片段。

3、该方法由特征预提取模块、双向时序上下文特征编码网络、两阶段视频行为分割模块等三部分组成，具体包括以下步骤：

4、s1.构建特征预提取模块，用于提取视频中物体的轨迹和运动特征；

5、s2.构建双向时序上下文特征编码网络，包含两个多层感知机特征映射层、前向自回归编码器、后向自回归编码器、以及特征融合层；

6、s3.构建两阶段视频行为分割模块，包含基于预测损失和相似性融合信息的细粒度初始分割模块，以及由细粒度到粗粒度的优化模块；

7、s4.基于预提取的视频帧特征构建训练集，训练双向时序上下文特征编码网络；

8、s5.使用特征预提取模块、训练好的双向时序上下文特征编码网络、及两阶段视频行为分割模块对输入视频进行无监督行为分割。

9、所述步骤s1中，特征预提取模块用于提取视频中物体的轨迹和运动特征，其输入为视频帧序列，输出为从该视频中提取出的改进的密集轨迹(improved densetrajectory,idt)特征。

10、所述步骤s2中，双向时序上下文特征编码网络用于对预提取的视频帧特征序列进行重新编码，以充分利用时序上下文信息，具体步骤包括：

11、s21.构建基于多层感知机的特征映射层，用于将输入的预提取的视频帧特征序列映射至新的特征空间，其输入包括两部分，分别是：由第一帧至倒数第二帧组成的特征序列，也叫做正序副本；由第二帧至倒数第一帧组成的特征序列的逆序，也叫做逆序副本；

12、s22.构建基于自回归变压器(transformer)的前向自回归编码器，该编码器由12个基本层组成，每个层包括：多头注意力模块、前馈神经网络、两个残差连接及层归一化。其输入为步骤s21输出的映射至新的特征空间的正序副本，其输出为以自回归方式预测的一步前向的帧特征，即：第二帧至倒数第一帧的预测特征，从而实现对视频帧序列的正向编码；

13、s23.构建后向自回归编码器，该编码器与前向自回归编码器完全同构，差别在于其输入为步骤s21输出的映射至新的特征空间的逆序副本，其输出为以自回归方式预测倒数第二帧至第一帧的特征，从而实现对视频帧序列的反向编码；

14、s24.构建基于多层感知机的特征映射层，将步骤s22和s23输出的预测特征映射回初始特征空间，并对逆序结果进行逆序，使其对应第一帧至倒数第二帧的预测结果；

15、s25.构建特征融合层，包括：以相加取平均方式融合对应帧的正序和逆序预测特征，特别地，对于首尾两帧，分别直接使用逆序和正序预测特征作为融合特征，融合后的特征即为双向时序上下文特征编码网络输出的编码特征。

16、所述步骤s3中，两阶段视频行为分割模块由初始分割模块和优化模块组成，其输入为视频的预提取特征及双向时序上下文特征编码网络输出的编码特征，输出为视频行为分割结果，具体步骤包括：

17、s31.构建初始分割模块，其输入为该视频的预提取特征及双向时序上下文特征编码网络输出的对预提取特征编码后的特征，输出为初始分割片段。具体过程包括：计算帧级别编码特征与预提取特征间的损失序列，即：计算每帧的编码特征与预提取特征间的欧式距离得到预测损失序列；计算帧间特征相似性序列，即：对于每一帧，连接编码特征及预提取特征作为其特征，然后依次计算相邻两帧之间的余弦距离得到帧间相似性序列；以加权求和方式融合预测损失序列和帧间相似性序列，再使用均值滤波对其进行去噪；最后，检测融合序列的局部极大值点作为分割边界，得到初始分割结果；

18、s32.构建优化模块，该模块采用k-means聚类方法合并相关的初始分割片段，以优化初始分割结果，克服过分割问题。该模块输入为步骤s31输出的初始分割片段、及该视频对应的预提取特征及编码特征，输出为优化后的分割结果。具体过程包括：将编码特征与预提取特征的连接视为每一帧的特征，将每个片段包含的所有帧的特征的均值作为其片段特征，使用k-means方法合并相关片段从而对结果进行优化，在优化过程中使用余弦距离指导相关片段的聚类与合并。

19、优选地，所述步骤s31中，在融合帧级别预测损失序列及帧间特征相似性序列时，二者的加权求和权重分别为0.5。

20、所述步骤s4具体包括：

21、s41.构建训练数据集，具体包括：针对每个视频，使用滑动窗口策略将其预提取帧特征序列划分为长度相等的片段，其中滑动窗口大小为500，步长为100，划分好的特征片段组成训练数据集；

22、s42.基于构建好的训练数据集，训练双向时序上下文特征编码网络。

23、进一步的，所述步骤s42中训练双向时序上下文特征编码器的单次迭代过程如下：

24、a1.为输入的特征序列制作两个副本，分别为：由第一帧至倒数第二帧组成的正序副本，以及由第二帧至倒本文档来自技高网...

【技术保护点】

1.一种基于双向时序编码及双信息融合的无监督视频行为分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1具体包括：为输入的行为视频提取改进的密集轨迹特征，用于描述视频中物体的轨迹和运动特征。

3.根据权利要求1所述的方法，其特征在于，所述步骤S2中双向时序上下文特征编码网络用于对预提取的视频帧特征序列进行重新编码，以充分利用时序上下文信息，具体步骤包括:

4.根据权利要求1所述的方法，其特征在于，所述步骤S3具体包括：

5.根据权利要求1所述的方法，其特征在于，所述步骤S4具体包括：

6.根据权利要求5所述的方法，其特征在于，所述步骤S42中训练双向时序上下文特征编码器的单次迭代过程如下：

7.根据权利要求1所述的方法，其特征在于，所述步骤S5中，对输入视频进行无监督行为分割的具体步骤包括：

【技术特征摘要】

1.一种基于双向时序编码及双信息融合的无监督视频行为分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤s1具体包括：为输入的行为视频提取改进的密集轨迹特征，用于描述视频中物体的轨迹和运动特征。

3.根据权利要求1所述的方法，其特征在于，所述步骤s2中双向时序上下文特征编码网络用于对预提取的视频帧特征序列进行重新编码，以充分利用时序上下文信息，...

【专利技术属性】
技术研发人员：郑能干，宋智颖，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人