图文音多模态预训练模型方法、装置、电子设备和介质制造方法及图纸

技术编号：38590519 阅读：18 留言：0更新日期：2023-08-26 23:30

本发明专利技术涉及计算机技术领域，提供一种图文音多模态预训练模型方法、装置、电子设备和介质，其中方法包括：获取训练样本的多模态信息；基于多模态信息中文本模态特征与其他模态特征之间的语义相似度，将多模态信息进行特征分组对齐，得到各模态分组并确定分组对齐损失；基于各模态分组中图、音和图音模态中的一种，对随机掩码的文本进行文本重建，并基于各组重建文本和各组样本文本确定文本重建损失；基于分组对齐损失和文本重建损失，对模型进行参数迭代，得到多模态模型。本发明专利技术提供的图文音多模态预训练模型方法、装置、电子设备和介质，能够提高多模态模型的下游任务性能和泛化性能。够提高多模态模型的下游任务性能和泛化性能。够提高多模态模型的下游任务性能和泛化性能。

全部详细技术资料下载

【技术实现步骤摘要】
图文音多模态预训练模型方法、装置、电子设备和介质

[0001]本专利技术涉及计算机
，尤其涉及一种图文音多模态预训练模型方法、装置、电子设备和介质。

技术介绍

[0002]多模态预训练是一个涵盖多个研究领域、涉及多种模态数据的交叉学科。该任务旨在利用大规模数据集训练一个通用的多模态模型，从而实现各种跨模态之间信息的理解与生成，如文本
‑
视频检索、音视频文本重建、视觉问答等。
[0003]在目前的多模态预训练领域，常见的方法和框架只使用两个模态的数据进行学习，例如视觉和语言模态，包括但不限于图像
‑
文本数据和视频
‑
文本数据。然而，实际场景下的视频往往还包含着音频数据，这些音频数据对视频数据或相关联、或作为补充地提供了丰富的语义信息，常见方法和框架忽略了这些音频数据中存在的可利用信息，模型性能提升受限。一些学者提出使用视频、文本和音频数据进行多模态预训练，然而目前存在的公开数据集中，上述三个模态间的数据关联性弱，导致模型学习多模态信息融合和对齐时遇到困难。

技术实现思路

[0004]本专利技术提供一种图文音多模态预训练模型方法、装置、电子设备和介质，用以解决现有技术中多模态模型性能提升受限的缺陷。
[0005]本专利技术提供一种图文音多模态预训练模型方法，包括：
[0006]获取训练样本的多模态信息，所述多模态信息包括视觉、音频和文本，所述视觉包括视频和/或图像；
[0007]基于所述多模态信息中文本模态特征与其...

【技术保护点】

【技术特征摘要】
1.一种图文音多模态预训练模型方法，其特征在于，包括：获取训练样本的多模态信息，所述多模态信息包括视觉、音频和文本，所述视觉包括视频和/或图像；基于所述多模态信息中文本模态特征与其他模态特征之间的语义相似度，将所述多模态信息进行特征分组对齐，得到各模态分组并确定分组对齐损失，所述其他模态特征包括视觉模态特征、音频模态特征和音视觉组合模态特征中的一种；基于各模态分组中其他模态特征，对随机掩码的文本进行文本重建，得到各组重建文本，并基于所述各组重建文本和各组样本文本确定文本重建损失；基于所述分组对齐损失和所述文本重建损失，对模型进行参数迭代，得到多模态模型。2.根据权利要求1所述的图文音多模态预训练模型方法，其特征在于，所述各模态分组包括文本
‑
视觉模态分组、文本
‑
音频模态分组、文本
‑
音视觉组合模态分组中的至少一种，所述确定分组对齐损失，包括：基于所述文本模态特征与视觉模态特征之间的语义相似度，确定第一分组对齐损失；基于所述文本模态特征与音频模态特征之间的语义相似度，确定第二分组对齐损失；基于所述文本模态特征与音视觉组合模态特征之间的语义相似度，确定第三分组对齐损失；基于所述第一分组对齐损失、所述第二分组对齐损失以及所述第三分组对齐损失中的至少一种，确定所述分组对齐损失。3.根据权利要求2所述的图文音多模态预训练模型方法，其特征在于，所述多模态信息中文本模态特征与其他模态特征之间的语义相似度的确定步骤包括：基于所述多模态信息中各个模态的局部特征的权重，对所述各个模态的局部特征进行加权平均，得到各个模态的全局特征；基于所述各个模态的全局特征，确定所述多模态信息中文本模态特征与其他模态特征之间的语义相似度。4.根据权利要求1所述的图文音多模态预训练模型方法，其特征在于，所述基于各模态分组中其他模态特征，对随机掩码的文本进行文本重建，得到各组重建文本，包括：分别将所述各模态分组中文本模态特征和其他模态特征进行跨模态特征融合，得到各模态分组的融合特征；基于所述各模态分组的融合特征，应用文本掩码建模方法，针对各模态分组，分别对随机掩码的文本进行文本重建，得到各组重建文本。5.根据权利要求4所述的图文音多模态预训练模型方法，其特征在于，所述基于所述各组重建文本和各组样本文本确定文本重建损失，包括：基于所述文本
‑
视觉模态分组的重建文本和样本文本之间的差异，确...

【专利技术属性】
技术研发人员：刘静，何兴建，陈思涵，王卫宁，朱欣鑫，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人