多模态预训练方法和装置制造方法及图纸

技术编号:31316936 阅读:20 留言:0更新日期:2021-12-12 23:55
本公开提供一种多模态预训练方法和装置。多模态预训练方法包括:对视频

【技术实现步骤摘要】
多模态预训练方法和装置


[0001]本公开涉及信息处理领域,特别涉及一种多模态预训练方法和装置。

技术介绍

[0002]视觉语言多模态预训练技术是近期多模态领域的新兴课题之一,它的目的是让模型能在大规模弱标注的视觉(如图像、视频)和文本数据对上进行预训练以得到一个更好的多模态特征表示,从而提升各种多模态下游任务模型的性能。
[0003]视觉语言多模态预训练的相关技术基本都是借鉴自然语言处理领域的BERT(Bidirectional Encoder Representations From Transformer,基于变换器的双向编码器表征)预训练模型的方法。

技术实现思路

[0004]专利技术人注意到,在相关技术中,视频文本多模态预训练技术为了挖掘两个模态之间的联系,仅利用带有掩码(Mask)的输入视频文本在预训练期间进行全局特征表示关联性的学习,这种学习方式使得输入视频帧和单词序列之间的整体视频

文本关系没有得到充分探索,从而导致多模态特征质量的下降。
[0005]据此,本公开提供一种多模态预训练方案,能够增强跨模态数据之间的关联性,有效提升多模态预训练模型对多模态数据内容的理解能力。
[0006]根据本公开实施例的第一方面,提供一种多模态预训练方法,包括:对视频

文本对中的视频进行采样,以得到第一视频帧序列;对所述视频

文本对中的文本进行分词处理,以得到第一分词序列;对所述第一视频帧序列进行掩码处理,以得到第二视频帧序列;对所述第一分词序列进行掩码处理,以得到第二分词序列;对所述第一视频帧序列进行编码,以得到第一视频特征,对所述第一分词序列进行编码,以得到第一分词特征;对所述第二视频帧序列进行编码,以得到第二视频特征,对所述第二分词序列进行编码,以得到第二分词特征;利用所述第一视频特征、所述第一分词特征、所述第二视频特征、所述第二分词特征确定预训练的目标函数;利用所述预训练的目标函数进行多模态预训练。
[0007]在一些实施例中,确定预训练的目标函数包括:利用所述第一分词特征、所述第二视频特征和预设的第一负样本特征确定第一对比损失值;利用所述第一视频特征、所述第二分词特征和预设的第二负样本特征确定第二对比损失值;根据所述第一对比损失值和所述第二对比损失值确定第一目标;利用所述第一视频特征、所述第二视频特征和所述第二负样本特征确定第三对比损失值;利用所述第一分词特征、所述第二分词特征和所述第一负样本特征确定第四对比损失值;根据所述第三对比损失值和所述第四对比损失值确定第二目标;根据所述第一目标和所述第二目标确定所述目标函数。
[0008]在一些实施例中,确定第一对比损失值包括:将所述第一分词特征转换为全局的第一正样本特征;将所述第二视频特征转换为全局的视频查询特征;利用所述视频查询特征、所述第一正样本特征和所述第一负样本特征确定第一对比损失值。
[0009]在一些实施例中,确定第二对比损失值包括:将所述第一视频特征转换为全局的第二正样本特征;将所述第二分词特征转换为全局的文本查询特征;利用所述文本查询特征、所述第二正样本特征和所述第二负样本特征确定第二对比损失值。
[0010]在一些实施例中,确定第三对比损失值包括:利用所述视频查询特征、所述第二正样本特征和所述第二负样本特征确定第三对比损失值。
[0011]在一些实施例中,确定第四对比损失值包括:利用所述文本查询特征、所述第一正样本特征和所述第一负样本特征确定第四对比损失值。
[0012]在一些实施例中,所述第一目标为所述第一对比损失值和所述第二对比损失值之和;所述第二目标为所述第三对比损失值和所述第四对比损失值之和。
[0013]在一些实施例中,所述目标函数为所述第一目标和所述第二目标之和。
[0014]在一些实施例中,对所述第二视频特征和所述第二分词特征进行融合处理,以得到融合特征;将所述融合特征输入带掩码的文本建模MLM模型以得到第三目标,将所述融合特征输入带掩码的文本生成MSG模型以得到第四目标;所述根据所述第一目标和所述第二目标确定所述目标函数包括:根据所述第一目标、所述第二目标、所述第三目标和所述第四目标确定所述目标函数。
[0015]在一些实施例中,所述目标函数为所述第一目标、所述第二目标、所述第三目标和所述第四目标之和。
[0016]根据本公开实施例的第二方面,提供一种多模态预训练装置,包括:第一处理模块,被配置为对视频

文本对中的视频进行采样,以得到第一视频帧序列,还被配置为对所述视频

文本对中的文本进行分词处理,以得到第一分词序列;第二处理模块,被配置为对所述第一视频帧序列进行掩码处理,以得到第二视频帧序列,还被配置为对所述第一分词序列进行掩码处理,以得到第二分词序列;第三处理模块,被配置为对所述第一视频帧序列进行编码,以得到第一视频特征,还被配置为对所述第一分词序列进行编码,以得到第一分词特征;第四处理模块,被配置为对所述第二视频帧序列进行编码,以得到第二视频特征,还被配置为对所述第二分词序列进行编码,以得到第二分词特征;第五处理模块,被配置为利用所述第一视频特征、所述第一分词特征、所述第二视频特征、所述第二分词特征确定预训练的目标函数;第六处理模块,被配置为利用所述预训练的目标函数进行多模态预训练。
[0017]根据本公开实施例的第三方面,提供一种多模态预训练装置,包括:存储器,被配置为存储指令;处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。
[0018]根据本公开实施例的第四方面,提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如上述任一实施例涉及的方法。
[0019]通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
[0020]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可
以根据这些附图获得其他的附图。
[0021]图1为本公开一个实施例的多模态预训练方法的流程示意图;
[0022]图2为本公开另一个实施例的多模态预训练方法的流程示意图;
[0023]图3为本公开一个实施例的多模态预训练装置的结构示意图;
[0024]图4为本公开另一个实施例的多模态预训练装置的结构示意图;
[0025]图5为本公开一个实施例的多模态预训练模型示意图。
具体实施方式
[0026]下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态预训练方法,包括:对视频

文本对中的视频进行采样,以得到第一视频帧序列;对所述视频

文本对中的文本进行分词处理,以得到第一分词序列;对所述第一视频帧序列进行掩码处理,以得到第二视频帧序列;对所述第一分词序列进行掩码处理,以得到第二分词序列;对所述第一视频帧序列进行编码,以得到第一视频特征,对所述第一分词序列进行编码,以得到第一分词特征;对所述第二视频帧序列进行编码,以得到第二视频特征,对所述第二分词序列进行编码,以得到第二分词特征;利用所述第一视频特征、所述第一分词特征、所述第二视频特征、所述第二分词特征确定预训练的目标函数;利用所述预训练的目标函数进行多模态预训练。2.根据权利要求1所述的方法,其中,确定预训练的目标函数包括:利用所述第一分词特征、所述第二视频特征和预设的第一负样本特征确定第一对比损失值;利用所述第一视频特征、所述第二分词特征和预设的第二负样本特征确定第二对比损失值;根据所述第一对比损失值和所述第二对比损失值确定第一目标;利用所述第一视频特征、所述第二视频特征和所述第二负样本特征确定第三对比损失值;利用所述第一分词特征、所述第二分词特征和所述第一负样本特征确定第四对比损失值;根据所述第三对比损失值和所述第四对比损失值确定第二目标;根据所述第一目标和所述第二目标确定所述目标函数。3.根据权利要求2所述的方法,其中,确定第一对比损失值包括:将所述第一分词特征转换为全局的第一正样本特征;将所述第二视频特征转换为全局的视频查询特征;利用所述视频查询特征、所述第一正样本特征和所述第一负样本特征确定第一对比损失值。4.根据权利要求3所述的方法,其中,确定第二对比损失值包括:将所述第一视频特征转换为全局的第二正样本特征;将所述第二分词特征转换为全局的文本查询特征;利用所述文本查询特征、所述第二正样本特征和所述第二负样本特征确定第二对比损失值。5.根据权利要求4所述的方法,其中,确定第三对比损失值包括:利用所述视频查询特征、所述第二正样本特征和所述第二负样本特征确定第三对比损失值。6.根据权利要求5所述的方法,其中,确定第四对比损失值包括:利用所述文本查询特征、所述第一正样本特征和所述第一负样本特征确定第四对比损
失值。7.根据权利要求...

【专利技术属性】
技术研发人员:李业豪潘滢炜姚霆梅涛
申请(专利权)人:北京京东尚科信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1