图文音多模态预训练模型方法、装置、电子设备和介质制造方法及图纸

技术编号:38590519 阅读:18 留言:0更新日期:2023-08-26 23:30
本发明专利技术涉及计算机技术领域,提供一种图文音多模态预训练模型方法、装置、电子设备和介质,其中方法包括:获取训练样本的多模态信息;基于多模态信息中文本模态特征与其他模态特征之间的语义相似度,将多模态信息进行特征分组对齐,得到各模态分组并确定分组对齐损失;基于各模态分组中图、音和图音模态中的一种,对随机掩码的文本进行文本重建,并基于各组重建文本和各组样本文本确定文本重建损失;基于分组对齐损失和文本重建损失,对模型进行参数迭代,得到多模态模型。本发明专利技术提供的图文音多模态预训练模型方法、装置、电子设备和介质,能够提高多模态模型的下游任务性能和泛化性能。够提高多模态模型的下游任务性能和泛化性能。够提高多模态模型的下游任务性能和泛化性能。

【技术实现步骤摘要】
图文音多模态预训练模型方法、装置、电子设备和介质


[0001]本专利技术涉及计算机
,尤其涉及一种图文音多模态预训练模型方法、装置、电子设备和介质。

技术介绍

[0002]多模态预训练是一个涵盖多个研究领域、涉及多种模态数据的交叉学科。该任务旨在利用大规模数据集训练一个通用的多模态模型,从而实现各种跨模态之间信息的理解与生成,如文本

视频检索、音视频文本重建、视觉问答等。
[0003]在目前的多模态预训练领域,常见的方法和框架只使用两个模态的数据进行学习,例如视觉和语言模态,包括但不限于图像

文本数据和视频

文本数据。然而,实际场景下的视频往往还包含着音频数据,这些音频数据对视频数据或相关联、或作为补充地提供了丰富的语义信息,常见方法和框架忽略了这些音频数据中存在的可利用信息,模型性能提升受限。一些学者提出使用视频、文本和音频数据进行多模态预训练,然而目前存在的公开数据集中,上述三个模态间的数据关联性弱,导致模型学习多模态信息融合和对齐时遇到困难。

技术实现思路

[0004]本专利技术提供一种图文音多模态预训练模型方法、装置、电子设备和介质,用以解决现有技术中多模态模型性能提升受限的缺陷。
[0005]本专利技术提供一种图文音多模态预训练模型方法,包括:
[0006]获取训练样本的多模态信息,所述多模态信息包括视觉、音频和文本,所述视觉包括视频和/或图像;
[0007]基于所述多模态信息中文本模态特征与其他模态特征之间的语义相似度,将所述多模态信息进行特征分组对齐,得到各模态分组并确定分组对齐损失;所述其他模态特征包括视觉模态特征、音频模态特征和音视觉组合模态特征中的一种;
[0008]基于各模态分组中其他模态特征,对随机掩码的文本进行文本重建,得到各组重建文本,并基于所述各组重建文本和各组样本文本确定文本重建损失;
[0009]基于所述分组对齐损失和所述文本重建损失,对模型进行参数迭代,得到多模态模型。
[0010]根据本专利技术提供的图文音多模态预训练模型方法,所述各模态分组包括文本

视觉模态分组、文本

音频模态分组、文本

音视觉组合模态分组中的至少一种,所述确定分组对齐损失,包括:
[0011]基于所述文本模态特征与视觉模态特征之间的语义相似度,确定第一分组对齐损失;
[0012]基于所述文本模态特征与音频模态特征之间的语义相似度,确定第二分组对齐损失;
[0013]基于所述文本模态特征与音视觉组合模态特征之间的语义相似度,确定第三分组对齐损失;
[0014]基于所述第一分组对齐损失、所述第二分组对齐损失以及所述第三分组对齐损失中的至少一种,确定所述分组对齐损失。
[0015]根据本专利技术提供的图文音多模态预训练模型方法,所述多模态信息中文本模态特征与其他模态特征之间的语义相似度的确定步骤包括:
[0016]基于所述多模态信息中各个模态的局部特征的权重,对所述各个模态的局部特征进行加权平均,得到各个模态的全局特征;
[0017]基于所述各个模态的全局特征,确定所述多模态信息中文本模态特征与其他模态特征之间的语义相似度。
[0018]根据本专利技术提供的图文音多模态预训练模型方法,所述基于各模态分组中其他模态特征,对随机掩码的文本进行文本重建,得到各组重建文本,包括:
[0019]分别将所述各模态分组中文本模态特征和其他模态特征进行跨模态特征融合,得到各模态分组的融合特征;
[0020]基于所述各模态分组的融合特征,应用文本掩码建模方法,针对各模态分组,分别对随机掩码的文本进行文本重建,得到各组重建文本。
[0021]根据本专利技术提供的图文音多模态预训练模型方法,所述基于所述各组重建文本和各组样本文本确定文本重建损失,包括:
[0022]基于所述文本

视觉模态分组的重建文本和样本文本之间的差异,确定第一文本重建损失;
[0023]基于所述文本

音频模态分组的重建文本和样本文本之间的差异,确定第二文本重建损失;
[0024]基于所述文本

音视觉组合模态分组的重建文本和样本文本之间的差异,确定第三文本重建损失;
[0025]基于所述第一文本重建损失、所述第二文本重建损失以及所述第三文本重建损失中的至少一种,确定所述文本重建损失。
[0026]根据本专利技术提供的图文音多模态预训练模型方法,所述基于所述多模态信息中文本模态特征与其他模态特征之间的语义相似度,将所述多模态信息进行特征分组对齐,之前还包括:
[0027]基于各个单模态编码器,对所述多模态信息分别进行特征提取,得到视觉模态特征、音频模态特征和文本模态特征;
[0028]将所述视觉模态特征和所述音频模态特征进行特征融合,得到所述音视觉组合模态特征。
[0029]根据本专利技术提供的图文音多模态预训练模型方法,所述多模态模型用于文本

视觉检索、文本

音频检索、文本

音视觉检索、视觉文本标注、音频文本标注、音视觉文本标注、视觉问答和音频视觉问答中的至少一种。
[0030]本专利技术还提供一种图文音多模态预训练模型装置,包括:
[0031]信息获取单元,用于获取训练样本的多模态信息,所述多模态信息包括视觉、音频和文本,所述视觉包括视频和/或图像;
[0032]分组对齐单元,用于基于所述多模态信息中文本模态特征与其他模态特征之间的语义相似度,将所述多模态信息进行特征分组对齐,得到各模态分组并确定分组对齐损失;所述其他模态特征包括视觉模态特征、音频模态特征和音视觉组合模态特征中的一种;
[0033]文本重建单元,用于基于各模态分组中其他模态特征,对随机掩码的文本进行文本重建,得到各组重建文本,并基于所述各组重建文本和各组样本文本确定文本重建损失;
[0034]参数迭代单元,用于基于所述分组对齐损失和所述文本重建损失,对模型进行参数迭代,得到多模态模型。
[0035]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述图文音多模态预训练模型方法。
[0036]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图文音多模态预训练模型方法。
[0037]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图文音多模态预训练模型方法。
[0038]本专利技术提供的图文音多模态预训练模型方法、装置、电子设备和介质,充分利用视觉、音频和文本多模态信息之间的强关联关系,设计多模态理解和生成预训练方法,基于分组对齐损失和文本重建损失,对模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图文音多模态预训练模型方法,其特征在于,包括:获取训练样本的多模态信息,所述多模态信息包括视觉、音频和文本,所述视觉包括视频和/或图像;基于所述多模态信息中文本模态特征与其他模态特征之间的语义相似度,将所述多模态信息进行特征分组对齐,得到各模态分组并确定分组对齐损失,所述其他模态特征包括视觉模态特征、音频模态特征和音视觉组合模态特征中的一种;基于各模态分组中其他模态特征,对随机掩码的文本进行文本重建,得到各组重建文本,并基于所述各组重建文本和各组样本文本确定文本重建损失;基于所述分组对齐损失和所述文本重建损失,对模型进行参数迭代,得到多模态模型。2.根据权利要求1所述的图文音多模态预训练模型方法,其特征在于,所述各模态分组包括文本

视觉模态分组、文本

音频模态分组、文本

音视觉组合模态分组中的至少一种,所述确定分组对齐损失,包括:基于所述文本模态特征与视觉模态特征之间的语义相似度,确定第一分组对齐损失;基于所述文本模态特征与音频模态特征之间的语义相似度,确定第二分组对齐损失;基于所述文本模态特征与音视觉组合模态特征之间的语义相似度,确定第三分组对齐损失;基于所述第一分组对齐损失、所述第二分组对齐损失以及所述第三分组对齐损失中的至少一种,确定所述分组对齐损失。3.根据权利要求2所述的图文音多模态预训练模型方法,其特征在于,所述多模态信息中文本模态特征与其他模态特征之间的语义相似度的确定步骤包括:基于所述多模态信息中各个模态的局部特征的权重,对所述各个模态的局部特征进行加权平均,得到各个模态的全局特征;基于所述各个模态的全局特征,确定所述多模态信息中文本模态特征与其他模态特征之间的语义相似度。4.根据权利要求1所述的图文音多模态预训练模型方法,其特征在于,所述基于各模态分组中其他模态特征,对随机掩码的文本进行文本重建,得到各组重建文本,包括:分别将所述各模态分组中文本模态特征和其他模态特征进行跨模态特征融合,得到各模态分组的融合特征;基于所述各模态分组的融合特征,应用文本掩码建模方法,针对各模态分组,分别对随机掩码的文本进行文本重建,得到各组重建文本。5.根据权利要求4所述的图文音多模态预训练模型方法,其特征在于,所述基于所述各组重建文本和各组样本文本确定文本重建损失,包括:基于所述文本

视觉模态分组的重建文本和样本文本之间的差异,确...

【专利技术属性】
技术研发人员:刘静何兴建陈思涵王卫宁朱欣鑫
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1