【技术实现步骤摘要】
多模态预训练方法和装置
[0001]本公开涉及信息处理领域,特别涉及一种多模态预训练方法和装置。
技术介绍
[0002]视觉语言多模态预训练技术是近期多模态领域的新兴课题之一,它的目的是让模型能在大规模弱标注的视觉(如图像、视频)和文本数据对上进行预训练以得到一个更好的多模态特征表示,从而提升各种多模态下游任务模型的性能。
[0003]视觉语言多模态预训练的相关技术基本都是借鉴自然语言处理领域的BERT(Bidirectional Encoder Representations From Transformer,基于变换器的双向编码器表征)预训练模型的方法。
技术实现思路
[0004]专利技术人注意到,在相关技术中,视频文本多模态预训练技术为了挖掘两个模态之间的联系,仅利用带有掩码(Mask)的输入视频文本在预训练期间进行全局特征表示关联性的学习,这种学习方式使得输入视频帧和单词序列之间的整体视频
‑
文本关系没有得到充分探索,从而导致多模态特征质量的下降。
[0005]据此,本公开提供一种多模态预训练方案,能够增强跨模态数据之间的关联性,有效提升多模态预训练模型对多模态数据内容的理解能力。
[0006]根据本公开实施例的第一方面,提供一种多模态预训练方法,包括:对视频
‑
文本对中的视频进行采样,以得到第一视频帧序列;对所述视频
‑
文本对中的文本进行分词处理,以得到第一分词序列;对所述第一视频帧序列进行掩码处理,以得到第二视频 ...
【技术保护点】
【技术特征摘要】
1.一种多模态预训练方法,包括:对视频
‑
文本对中的视频进行采样,以得到第一视频帧序列;对所述视频
‑
文本对中的文本进行分词处理,以得到第一分词序列;对所述第一视频帧序列进行掩码处理,以得到第二视频帧序列;对所述第一分词序列进行掩码处理,以得到第二分词序列;对所述第一视频帧序列进行编码,以得到第一视频特征,对所述第一分词序列进行编码,以得到第一分词特征;对所述第二视频帧序列进行编码,以得到第二视频特征,对所述第二分词序列进行编码,以得到第二分词特征;利用所述第一视频特征、所述第一分词特征、所述第二视频特征、所述第二分词特征确定预训练的目标函数;利用所述预训练的目标函数进行多模态预训练。2.根据权利要求1所述的方法,其中,确定预训练的目标函数包括:利用所述第一分词特征、所述第二视频特征和预设的第一负样本特征确定第一对比损失值;利用所述第一视频特征、所述第二分词特征和预设的第二负样本特征确定第二对比损失值;根据所述第一对比损失值和所述第二对比损失值确定第一目标;利用所述第一视频特征、所述第二视频特征和所述第二负样本特征确定第三对比损失值;利用所述第一分词特征、所述第二分词特征和所述第一负样本特征确定第四对比损失值;根据所述第三对比损失值和所述第四对比损失值确定第二目标;根据所述第一目标和所述第二目标确定所述目标函数。3.根据权利要求2所述的方法,其中,确定第一对比损失值包括:将所述第一分词特征转换为全局的第一正样本特征;将所述第二视频特征转换为全局的视频查询特征;利用所述视频查询特征、所述第一正样本特征和所述第一负样本特征确定第一对比损失值。4.根据权利要求3所述的方法,其中,确定第二对比损失值包括:将所述第一视频特征转换为全局的第二正样本特征;将所述第二分词特征转换为全局的文本查询特征;利用所述文本查询特征、所述第二正样本特征和所述第二负样本特征确定第二对比损失值。5.根据权利要求4所述的方法,其中,确定第三对比损失值包括:利用所述视频查询特征、所述第二正样本特征和所述第二负样本特征确定第三对比损失值。6.根据权利要求5所述的方法,其中,确定第四对比损失值包括:利用所述文本查询特征、所述第一正样本特征和所述第一负样本特征确定第四对比损
失值。7.根据权利要求...
【专利技术属性】
技术研发人员:李业豪,潘滢炜,姚霆,梅涛,
申请(专利权)人:北京京东尚科信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。