当前位置: 首页 > 专利查询>海南大学专利>正文

一种基于无监督预训练模型的视频表示方法及装置制造方法及图纸

技术编号:37801944 阅读:8 留言:0更新日期:2023-06-09 09:32
本发明专利技术提出一种基于无监督预训练模型的视频表示方法,包括,获取视频样本集,将视频样本集的视频帧嵌入和视频标题的文本标记作为输入,分别使用掩码框架建模和掩码语言建模对视频表示模型进行预训练,得到预训练模型;通过对比学习方法对视频样本集中的视频标题的文本标记进行重新构造,得到正样本集、中等样本集和负样本集;通过动态队列训练方法使用所述正样本集、中等样本集和负样本集对预训练模型进行对比训练,得到完成的视频表示模型;获取待标注视频,通过完成的视频表示模型完成内容提取。容提取。容提取。

【技术实现步骤摘要】
一种基于无监督预训练模型的视频表示方法及装置


[0001]本专利技术属于大数据人工智能深度学习领域。

技术介绍

[0002]随着短视频的兴起,每天都有大量的短视频被制作出来并上传到各大视频平台。面对海量的短视频,如何更好地了解视频内容并推荐给合适的用户,是所有短视频平台的重要课题。短视频信息丰富,一般由短视频文字标题、封面图、视频内容等元素组成。为了更准确地提取内容标签,需要综合利用这些多模态信息。
[0003]当然,使用人工标注的数据可以达到更好的训练效果,但是短视频数量如此之多,仅仅依靠人工标注的数据是不现实的。在短视频平台上,每天上传的视频数以百万计,人工标注耗费大量时间和金钱。在大多数情况下,使用少量手动注释数据进行微调。因此,我们提出了一种自监督学习的预训练方法来解决这个问题。这种预训练方法可以在不使用任何人工标注数据的情况下进行自监督学习,并取得良好的效果。
[0004]预训练任务分为特定任务的预训练和与任务无关的预训练。特定任务预训练通常基于特定场景,其效果往往优于特定场景下的与任务无关的预训练。但是,一些与任务无关的预训练,例如Mask Language模型,可以帮助增强模型的理解能力。因此,我们的预训练方法分为两个阶段。在第一阶段,使用掩码语言建模(MLM)和掩码框架建模(MFM)来训练模型。在第二阶段,使用对比学习来训练模型。我们的预训练方法在视频相似度任务上获得了良好的性能。参考对比学习在学习嵌入方面取得的成功,我们对数据进行了增强,构造了正样本、中样本和负样本三种。正对采用完全相同的句子,它们的嵌入仅在dropout掩码上有所不同。我们使用单词删除来构建中等样本。在每个培训课程中,标题中30%的文本被随机删除。
[0005]我们的预训练面临一个挑战:培训效率。对于大规模的预训练,训练效率可能很重要。在对比学习中,更多的负面实例通常会带来更好的表现。
[0006]然而,传统的批量负采样受到有限GPU内存的限制。为了在训练时有更多的负样本,我们设计了一个动态队列,这样上一批的负样本就可以用于下一批的训练。当我们计算梯度时,我们只计算两个通道之一的梯度。因此,GPU内存在训练期间只会增加少量。
[0007]本专利技术针对上述问题提出了一种自我监督的预训练方法,在不使用任何人工注释数据的情况下取得了显着的效果;并提出了如何构建正样本和中等样本的方法;以及提出了一个损失函数来实现有竞争力的表现。

技术实现思路

[0008]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0009]为此,本专利技术的目的在于提出一种基于无监督预训练模型的视频表示方法,用于更准确地提取短视频的内容标签。
[0010]为达上述目的,本专利技术第一方面实施例提出了一种基于无监督预训练模型的视频
表示方法,包括:
[0011]获取视频样本集,将所述视频样本集的视频帧嵌入和视频标题的文本标记作为输入,分别使用掩码框架建模和掩码语言建模对视频表示模型进行预训练,得到预训练模型;
[0012]通过对比学习方法对所述视频样本集中的视频标题的文本标记进行重新构造,得到正样本集、中等样本集和负样本集;
[0013]通过动态队列训练方法使用所述正样本集、中等样本集和负样本集对所述预训练模型进行对比训练,得到完成的视频表示模型;
[0014]获取待标注视频,通过所述完成的视频表示模型完成内容提取。
[0015]另外,根据本专利技术上述实施例的一种基于无监督预训练模型的视频表示方法还可以具有以下附加的技术特征:
[0016]进一步地,在本专利技术的一个实施例中,所述将所述视频样本集的视频帧嵌入和视频标题的文本标记作为输入,分别使用掩码框架建模和掩码语言建模对视频表示模型进行预训练,包括:
[0017]将所述视频帧嵌入通过全连接层,使所述视频帧嵌入尺寸与所述文本标记的尺寸一致;
[0018]连接特殊标记、所述视频帧嵌入、特殊标记和所述文本标记;
[0019]将所述特殊标记、所述视频帧嵌入、所述特殊标记和所述文本标记输入视频表示模型以学习多模态表示;
[0020]对所述视频帧嵌采用掩码框架模型,对所述文本标记采用掩码语言模型作为基线对视频表示模型进行预训练。
[0021]进一步地,在本专利技术的一个实施例中,所述通过对比学习方法对所述视频样本集中的视频标题的文本标记进行重新构造,得到正样本集、中等样本集和负样本集,包括:
[0022]将相同的文本标记传递给所述预训练模型的编码器两次,通过两次应用标准dropout,得到两个不同的嵌入作为正样本对,从而进行正样本集的构建;
[0023]在所述正样本集的基础上,随机删除预设数量的文本标记,从而进行中等样本集的构建。
[0024]进一步地,在本专利技术的一个实施例中,所述通过动态队列训练方法使用所述正样本集、中等样本集和负样本集对所述预训练模型进行对比训练,包括:
[0025]构建一个最大容量为M的队列,当一个正样本对训练完成时,将得到的最终嵌入作为负例添加到所述队列中,从而进行负样本集的构建;
[0026]其中,当所述队列的容量达到最大值时,删除第一个添加的负例。
[0027]进一步地,在本专利技术的一个实施例中,所述通过动态队列训练方法使用所述正样本集、中等样本集和负样本集对所述预训练模型进行对比训练,还包括:
[0028]通过引入排名损失函数对所述视频表示模型进行优化;其中,定义x
i
和是正样本对,x
i
和是中等样本对,是负样本,h
i
和表示x
i
和和表示表示表示表示则损失函数定义为:
[0029][0030]其中λ1,λ2,λ3是温度超参数,是余弦相似度
[0031]为达上述目的,本专利技术第二方面实施例提出了一种基于无监督预训练模型的视频表示装置,包括以下模块:
[0032]预训练模块,用于获取视频样本集,将所述视频样本集的视频帧嵌入和视频标题的文本标记作为输入,分别使用掩码框架建模和掩码语言建模对视频表示模型进行预训练,得到预训练模型;
[0033]构造模块,用于通过对比学习方法对所述视频样本集中的视频标题的文本标记进行重新构造,得到正样本集、中等样本集和负样本集;
[0034]训练模块,用于通过动态队列训练方法使用所述正样本集、中等样本集和负样本集对所述预训练模型进行对比训练,得到完成的视频表示模型;
[0035]提取模块,用于获取待标注视频,通过所述完成的视频表示模型完成内容提取。
[0036]进一步地,在本专利技术的一个实施例中,所述预训练模块模块,还用于:
[0037]将所述视频帧嵌入通过全连接层,使所述视频帧嵌入尺寸与所述文本标记的尺寸一致;
[0038]连接特殊标记、所述视频帧嵌入、特殊标记和所述文本标记;
[0039]将所述特殊标记、所述视频帧嵌入、所述特殊标记和所述文本标记输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无监督预训练模型的视频表示方法,其特征在于,包括以下步骤:获取视频样本集,将所述视频样本集的视频帧嵌入和视频标题的文本标记作为输入,分别使用掩码框架建模和掩码语言建模对视频表示模型进行预训练,得到预训练模型;通过对比学习方法对所述视频样本集中的视频标题的文本标记进行重新构造,得到正样本集、中等样本集和负样本集;通过动态队列训练方法使用所述正样本集、中等样本集和负样本集对所述预训练模型进行对比训练,得到完成的视频表示模型;获取待标注视频,通过所述完成的视频表示模型完成内容提取。2.根据权利要求1所述的方法,其特征在于,所述将所述视频样本集的视频帧嵌入和视频标题的文本标记作为输入,分别使用掩码框架建模和掩码语言建模对视频表示模型进行预训练,包括:将所述视频帧嵌入通过全连接层,使所述视频帧嵌入尺寸与所述文本标记的尺寸一致;连接特殊标记、所述视频帧嵌入、特殊标记和所述文本标记;将所述特殊标记、所述视频帧嵌入、所述特殊标记和所述文本标记输入视频表示模型以学习多模态表示;对所述视频帧嵌采用掩码框架模型,对所述文本标记采用掩码语言模型作为基线对视频表示模型进行预训练。3.根据权利要求1所述的方法,其特征在于,所述通过对比学习方法对所述视频样本集中的视频标题的文本标记进行重新构造,得到正样本集、中等样本集和负样本集,包括:将相同的文本标记传递给所述预训练模型的编码器两次,通过两次应用标准dropout,得到两个不同的嵌入作为正样本对,从而进行正样本集的构建;在所述正样本集的基础上,随机删除预设数量的文本标记,从而进行中等样本集的构建。4.根据权利要求1所述的方法,其特征在于,所述通过动态队列训练方法使用所述正样本集、中等样本集和负样本集对所述预训练模型进行对比训练,包括:构建一个最大容量为M的队列,当一个正样本对训练完成时,将得到的最终嵌入作为负例添加到所述队列中,从而进行负样本集的构建;其中,当所述队列的容量达到最大值时,删除第一个添加的负例。5.根据权利要求1所述的方法,其特征在于,所述通过动态队列训练方法使用所述正样本集、中等样本集和负样本集对所述预训练模型进行对比训练,还包括:通过引入排名损失函数对所述视频表示模型进行优化;其中,定义x
i
和是正样本对,x

【专利技术属性】
技术研发人员:周丽娟罗宁谢泽勋韦冰张树东韦松伟
申请(专利权)人:海南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1