基于时序复原任务的自监督式视频表征学习方法和设备技术

技术编号：38912676 阅读：11 留言：0更新日期：2023-09-25 09:28

本发明专利技术涉及一种基于时序复原任务的自监督式视频表征学习方法和设备，包括如下步骤：获取训练视频并划分为多个片段，选取用于训练的多个片段，打乱顺序并进行自动标注，构建时序复原任务；将用于训练的片段输入骨干网络中，获取各个片段对应的初级特征，将初级特征输入基于多头注意力的编码器，得到各个片段的顺序感知特征；将顺序感知特征聚合并输入基于硬注意力指针网络的解码器中，通过比较片段之间的时序逻辑关系得到复原后的片段序列，实现时序复原，根据复原后的片段序列计算损失函数值并对所述骨干网络的参数进行更新；重复上述步骤，选取不同的片段对所述骨干网络进行训练，获取预训练好的骨干网络。获取预训练好的骨干网络。获取预训练好的骨干网络。

全部详细技术资料下载

【技术实现步骤摘要】
基于时序复原任务的自监督式视频表征学习方法和设备

[0001]本专利技术涉及计算机
，尤其是涉及一种基于时序复原任务的自监督式视频表征学习方法和设备。

技术介绍

[0002]表征学习的主要目的是提供通用的预训练模型以便在下游任务中有效地进行迁移学习，泛化性是表征学习追求的重要特性，泛化性越强代表模型在预训练中捕获了越多的共享信息，也预示着模型可能在更多的下游任务中表现优异。视频的表征学习在视频理解和推理相关任务中扮演了十分重要的作用，因为视频蕴含了丰富的时空信息，而且用于提取视频特征的骨干网络通常参数量更大，跳过表征学习在下游任务中从头开始训练骨干网络相对困难。为了缓解预训练时需要大量人工标注的问题，自监督式表征学习被用来自动产生标注，从而更高效地利用大量无标签数据。目前自监督式视频表征学习主要可分为两类方法，一类是基于对比学习的，通过定义正负样本来学习特征空间，另一类是基于代理任务的，通过求解任务的方式赋予骨架网络理解时空信息的能力。基于对比学习的方法通常需要根据假定的区分界限划分正负样本，然后设计相应的数据增强方法以保留学习中的不变特性并同时多样化可变特性。相较之下，基于代理任务的方法则不会有人为定义正负样本和设计数据增强，而是直接利用数据的自然特点，比如视频的自然播放速度或者片段的自然时间顺序，对这些自然特点进行一定变换并进行预测，以此作为预训练的任务。另外，为了提升预训练的效率，课程学习的理念被借鉴来将预训练划分成难度不同的多个阶段，通过逐渐增加数据量或者增加样本难度的方式在不同阶段设置不同难度的预训练...

【技术保护点】

【技术特征摘要】
1.一种基于时序复原任务的自监督式视频表征学习方法，其特征在于，包括如下步骤：步骤S1，获取训练视频并划分为多个片段，选取用于训练的多个片段，打乱顺序并进行自动标注，构建时序复原任务；步骤S2，将用于训练的片段输入骨干网络中，获取各个片段对应的初级特征，将初级特征输入基于多头注意力的编码器，得到各个片段的顺序感知特征；步骤S3，将顺序感知特征聚合并输入基于硬注意力指针网络的解码器中，通过比较片段之间的时序逻辑关系得到复原后的片段序列，实现时序复原，根据复原后的片段序列计算损失函数值并对所述骨干网络的参数进行更新；步骤S4，重复步骤S1
‑
S3，选取不同的片段对所述骨干网络进行训练，获取预训练好的骨干网络。2.根据权利要求1所述的一种基于时序复原任务的自监督式视频表征学习方法，其特征在于，所述的步骤S3中，根据预设的预训练策略，通过改变将划分片段的数量和/或改变用于训练的片段数量和/或在所述解码器中添加用于排除已复原的片段的非学习掩码向量，以不同的训练难度分阶段对所述骨干网络进行训练。3.根据权利要求1所述的一种基于时序复原任务的自监督式视频表征学习方法，其特征在于，所述的步骤S3中，解码器对聚合后的顺序感知特征进行解析的过程具体为：基于聚合后的顺序感知特征，对第一个复原的片段进行预测，更新解码器隐藏状态；将上一个片段对应的初级特征输入硬注意力指针网络中，更新解码器隐藏状态，基于顺序感知特征和隐藏状态之间的相似度预测下一个复原的片段，重复本步骤，得到复原后的片段序列。4.根据权利要求1所述的一种基于时序复原任务的自监督式视频表征学习方法，其特征在于，所述的步骤S3中，在预测每个复原片段后使用交叉熵函数计算子损失，最后对所有的子损失求...

【专利技术属性】
技术研发人员：王瀚漓，陈子彧，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人