基于多模态特征融合的模型训练方法、电子设备及介质技术

技术编号:42081609 阅读:21 留言:0更新日期:2024-07-19 16:59
本发明专利技术实施例涉及视觉语言领域,公开了一种基于多模态特征融合的模型训练方法、电子设备及存储介质。其中,方法包括:获取舆情信息的多模态样本,多模态样本至少包含描述舆情信息的第一文本样本、描述舆情信息的图片样本以及采用文本方式所述图片样本的第二文本样本;采用预训练模型提取第一文本样本的第一文本特征、第二文本样本的第二文本特征以及图片样本的图像特征;以及,将第一文本特征与第二文本特征进行融合,得到第三文本特征;训练预训练模型基于第三文本特征与图像特征进行对比学习,得到符合训练目标的预训练模型。本方案能够对预训练过程中的文本特征进行增强,让模型学习增强后的多模态特征,进而提高模型的性能。

【技术实现步骤摘要】

本专利技术涉及视觉语言领域,特别涉及一种基于多模态特征融合的模型训练方法、电子设备及介质


技术介绍

1、视觉语言预训练的主要目的是使用大规模图文数据集进行联合预训练,学习多模态信息之间的关联,从而改进如图像描述生成、视觉问答、图像文本检索等一系列视觉-语言下游任务。

2、现阶段的大多数视觉语言预训练模型或是将文本和视觉特征连接在一起馈送到单个transformer块中,或是将文本和视觉特征独立地发送到两个不同的transformer块中,并配合多个预训练目标对后续表征进行融合和其他操作,并在一些多模态数据集(如mscoco、flickr30k等)上对不同的下游任务进行实验。

3、但是受通用多模态数据集图文对范式的影响,当下视觉语言预训练工作仅能关注图片和对应图片描述文本之间的关系,聚焦于使用大规模通用数据集进行预训练,而忽略了能够增强多模态表征的其他因素。


技术实现思路

1、本专利技术实施方式的目的在于提供一种基于多模态特征融合的模型训练方法、电子设备及存储介质,在提取文本特征时,引本文档来自技高网...

【技术保护点】

1.一种基于多模态特征融合的模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述预训练模型包括图像编码器和文本编码器;

3.根据权利要求2所述的方法,其特征在于,所述预训练模型还包括线性特征融合层;

4.根据权利要求3所述的方法,其特征在于,按预置的所述舆情信息的类别所对应的融合比例将所述第一文本特征与所述第二文本特征进行融合,得到所述第三文本特征的融合公式为:w'=add(α*w1+β*w2);

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述预训练模型包括共享嵌入层;

6.根据权利要...

【技术特征摘要】

1.一种基于多模态特征融合的模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述预训练模型包括图像编码器和文本编码器;

3.根据权利要求2所述的方法,其特征在于,所述预训练模型还包括线性特征融合层;

4.根据权利要求3所述的方法,其特征在于,按预置的所述舆情信息的类别所对应的融合比例将所述第一文本特征与所述第二文本特征进行融合,得到所述第三文本特征的融合公式为:w'=add(α*w1+β*w2);

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述预训练模型包括共享...

【专利技术属性】
技术研发人员:过弋王智博
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1