当前位置: 首页 > 专利查询>同济大学专利>正文

基于时序复原任务的自监督式视频表征学习方法和设备技术

技术编号:38912676 阅读:11 留言:0更新日期:2023-09-25 09:28
本发明专利技术涉及一种基于时序复原任务的自监督式视频表征学习方法和设备,包括如下步骤:获取训练视频并划分为多个片段,选取用于训练的多个片段,打乱顺序并进行自动标注,构建时序复原任务;将用于训练的片段输入骨干网络中,获取各个片段对应的初级特征,将初级特征输入基于多头注意力的编码器,得到各个片段的顺序感知特征;将顺序感知特征聚合并输入基于硬注意力指针网络的解码器中,通过比较片段之间的时序逻辑关系得到复原后的片段序列,实现时序复原,根据复原后的片段序列计算损失函数值并对所述骨干网络的参数进行更新;重复上述步骤,选取不同的片段对所述骨干网络进行训练,获取预训练好的骨干网络。获取预训练好的骨干网络。获取预训练好的骨干网络。

【技术实现步骤摘要】
基于时序复原任务的自监督式视频表征学习方法和设备


[0001]本专利技术涉及计算机
,尤其是涉及一种基于时序复原任务的自监督式视频表征学习方法和设备。

技术介绍

[0002]表征学习的主要目的是提供通用的预训练模型以便在下游任务中有效地进行迁移学习,泛化性是表征学习追求的重要特性,泛化性越强代表模型在预训练中捕获了越多的共享信息,也预示着模型可能在更多的下游任务中表现优异。视频的表征学习在视频理解和推理相关任务中扮演了十分重要的作用,因为视频蕴含了丰富的时空信息,而且用于提取视频特征的骨干网络通常参数量更大,跳过表征学习在下游任务中从头开始训练骨干网络相对困难。为了缓解预训练时需要大量人工标注的问题,自监督式表征学习被用来自动产生标注,从而更高效地利用大量无标签数据。目前自监督式视频表征学习主要可分为两类方法,一类是基于对比学习的,通过定义正负样本来学习特征空间,另一类是基于代理任务的,通过求解任务的方式赋予骨架网络理解时空信息的能力。基于对比学习的方法通常需要根据假定的区分界限划分正负样本,然后设计相应的数据增强方法以保留学习中的不变特性并同时多样化可变特性。相较之下,基于代理任务的方法则不会有人为定义正负样本和设计数据增强,而是直接利用数据的自然特点,比如视频的自然播放速度或者片段的自然时间顺序,对这些自然特点进行一定变换并进行预测,以此作为预训练的任务。另外,为了提升预训练的效率,课程学习的理念被借鉴来将预训练划分成难度不同的多个阶段,通过逐渐增加数据量或者增加样本难度的方式在不同阶段设置不同难度的预训练。在完成预训练后,通常会在动作识别和最近邻检索下游任务上验证预训练的效果。
[0003]尽管基于对比学习的方法展现出了更优的性能,此类方法仍需要根据数据集的特点人为定义正负样本以及设计相应的数据增强方法,而基于代理任务的方法则是能够直接利用数据的自然特点,无需进一步关于数据分布的假设。基于代理任务的方法虽然进一步减少了主观因素对预训练的影响,对无标签数据利用不充分、任务不能直接学习到高分离度特征均影响了其性能的进一步提升。目前代理任务通常被表述为单阶段分类问题,没有合理定义不同类之间的距离,而用来进一步处理信息并完成任务的模块通常由简单的拼接操作和线性变换组成,难以高效建立片段间的关联关系。因此,提升任务建模时空逻辑的效率和有效组织预训练是提升基于代理任务的方法性能的关键。

技术实现思路

[0004]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于时序复原任务的自监督式视频表征学习方法和设备,以实现时序特性的高效利用。
[0005]本专利技术的目的可以通过以下技术方案来实现:
[0006]本专利技术的一个方面,提供了一种基于时序复原任务的自监督式视频表征学习方法,包括如下步骤:
[0007]步骤S1,获取训练视频并划分为多个片段,选取用于训练的多个片段,打乱顺序并进行自动标注,构建时序复原任务;
[0008]步骤S2,将用于训练的片段输入骨干网络中,获取各个片段对应的初级特征,将初级特征输入基于多头注意力的编码器,得到各个片段的顺序感知特征;
[0009]步骤S3,将顺序感知特征聚合并输入基于硬注意力指针网络的解码器中,通过比较片段之间的时序逻辑关系得到复原后的片段序列,实现时序复原,根据复原后的片段序列计算损失函数值并对所述骨干网络的参数进行更新;
[0010]步骤S4,重复步骤S1

S3,选取不同的片段对所述骨干网络进行训练,获取预训练好的骨干网络。
[0011]作为优选的技术方案,所述的步骤S3中,根据预设的预训练策略,通过改变将划分片段的数量和/或改变用于训练的片段数量和/或在所述解码器中添加用于排除已复原的片段的非学习掩码向量,以不同的训练难度分阶段对所述骨干网络进行训练。
[0012]作为优选的技术方案,所述的步骤S3中,解码器对聚合后的顺序感知特征进行解析的过程具体为:
[0013]基于聚合后的顺序感知特征,对第一个复原的片段进行预测,更新解码器隐藏状态;
[0014]将上一个片段对应的初级特征输入硬注意力指针网络中,更新解码器隐藏状态,基于顺序感知特征和隐藏状态之间的相似度预测下一个复原的片段,重复本步骤,得到复原后的片段序列。
[0015]作为优选的技术方案,所述的步骤S3中,在预测每个复原片段后使用交叉熵函数计算子损失,最后对所有的子损失求平均作为所述损失函数值。
[0016]作为优选的技术方案,所述的骨干网络为R3D网络、C3D网络或R(2+1)D网络。
[0017]作为优选的技术方案,所述的步骤S1具体为:
[0018]将训练视频沿时间轴分割成互不重叠的片段,选取用于训练的多个片段,打乱顺序并进行自动标注。
[0019]作为优选的技术方案,所述的自监督式视频表征学习方法还包括:
[0020]步骤S5,将预训练好的骨干网络迁移到下游任务中,其中,所述下游任务包括动作识别、最近邻检索、视频描述中的至少一个。
[0021]作为优选的技术方案,对于动作识别任务,通过将预训练好的的骨干网络作为特征提取器并进行参数微调以实现迁移;对于最近邻检索,通过将预训练好的骨干网络参数冻结并直接作为特征提取器并按相似度进行检索以实现迁移;对于视频描述,通过使用预训练好的骨干网络预先提取补充特征,然后以特征级轻量融合的方式将补充特征与现有视频描述方法相结合以实现迁移。
[0022]本专利技术的另一个方面,提供了一种电子设备,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行上述基于时序复原任务的自监督式视频表征学习方法的指令。
[0023]本专利技术的另一个方面,提供了一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行上述基于时序复原任务的自监督式视频表征学习方法的指令。
[0024]与现有技术相比,本专利技术具有以下优点:
[0025](1)时序特性的利用效率高:针对动作识别、最近邻检索和视频描述过程中,预训练的模型无法充分捕捉时序特性的问题,不同于以往利用视频时序特性进行预训练的代理任务,本专利技术在预训练过程中,通过将顺序感知特征聚合并输入基于硬注意力指针网络的解码器中,得到复原后的片段序列,实现时序复原,提供的时序复原任务分多步利用视频时序特性,逐步累积时空线索以对乱序排列的片段序列进行复原,在复原过程中反复比较片段之间的时序逻辑关系,从而实现了时序特性的高效利用,也在下游任务中表现出的更佳结果得到证明。
[0026](2)预训练策略可扩展性强:本专利技术提供的时序复原任务和用于求解该任务的任务网络具有良好灵活性,基于多头注意力的编码器能够处理不同数量的片段并建立片段间的时序关系,而基于硬注意力指针网络的解码器能仅调整少量参数层即可复原不同数量的片段,也能通过掩码机制调整预训练任务的难度,因此本专利技术可用于广泛探索预训练策略,从中找本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序复原任务的自监督式视频表征学习方法,其特征在于,包括如下步骤:步骤S1,获取训练视频并划分为多个片段,选取用于训练的多个片段,打乱顺序并进行自动标注,构建时序复原任务;步骤S2,将用于训练的片段输入骨干网络中,获取各个片段对应的初级特征,将初级特征输入基于多头注意力的编码器,得到各个片段的顺序感知特征;步骤S3,将顺序感知特征聚合并输入基于硬注意力指针网络的解码器中,通过比较片段之间的时序逻辑关系得到复原后的片段序列,实现时序复原,根据复原后的片段序列计算损失函数值并对所述骨干网络的参数进行更新;步骤S4,重复步骤S1

S3,选取不同的片段对所述骨干网络进行训练,获取预训练好的骨干网络。2.根据权利要求1所述的一种基于时序复原任务的自监督式视频表征学习方法,其特征在于,所述的步骤S3中,根据预设的预训练策略,通过改变将划分片段的数量和/或改变用于训练的片段数量和/或在所述解码器中添加用于排除已复原的片段的非学习掩码向量,以不同的训练难度分阶段对所述骨干网络进行训练。3.根据权利要求1所述的一种基于时序复原任务的自监督式视频表征学习方法,其特征在于,所述的步骤S3中,解码器对聚合后的顺序感知特征进行解析的过程具体为:基于聚合后的顺序感知特征,对第一个复原的片段进行预测,更新解码器隐藏状态;将上一个片段对应的初级特征输入硬注意力指针网络中,更新解码器隐藏状态,基于顺序感知特征和隐藏状态之间的相似度预测下一个复原的片段,重复本步骤,得到复原后的片段序列。4.根据权利要求1所述的一种基于时序复原任务的自监督式视频表征学习方法,其特征在于,所述的步骤S3中,在预测每个复原片段后使用交叉熵函数计算子损失,最后对所有的子损失求...

【专利技术属性】
技术研发人员:王瀚漓陈子彧
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1