【技术实现步骤摘要】
本专利技术涉及视觉语言领域,特别涉及一种基于多模态特征融合的模型训练方法、电子设备及介质。
技术介绍
1、视觉语言预训练的主要目的是使用大规模图文数据集进行联合预训练,学习多模态信息之间的关联,从而改进如图像描述生成、视觉问答、图像文本检索等一系列视觉-语言下游任务。
2、现阶段的大多数视觉语言预训练模型或是将文本和视觉特征连接在一起馈送到单个transformer块中,或是将文本和视觉特征独立地发送到两个不同的transformer块中,并配合多个预训练目标对后续表征进行融合和其他操作,并在一些多模态数据集(如mscoco、flickr30k等)上对不同的下游任务进行实验。
3、但是受通用多模态数据集图文对范式的影响,当下视觉语言预训练工作仅能关注图片和对应图片描述文本之间的关系,聚焦于使用大规模通用数据集进行预训练,而忽略了能够增强多模态表征的其他因素。
技术实现思路
1、本专利技术实施方式的目的在于提供一种基于多模态特征融合的模型训练方法、电子设备及存储介质,
...【技术保护点】
1.一种基于多模态特征融合的模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述预训练模型包括图像编码器和文本编码器;
3.根据权利要求2所述的方法,其特征在于,所述预训练模型还包括线性特征融合层;
4.根据权利要求3所述的方法,其特征在于,按预置的所述舆情信息的类别所对应的融合比例将所述第一文本特征与所述第二文本特征进行融合,得到所述第三文本特征的融合公式为:w'=add(α*w1+β*w2);
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述预训练模型包括共享嵌入层;
...【技术特征摘要】
1.一种基于多模态特征融合的模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述预训练模型包括图像编码器和文本编码器;
3.根据权利要求2所述的方法,其特征在于,所述预训练模型还包括线性特征融合层;
4.根据权利要求3所述的方法,其特征在于,按预置的所述舆情信息的类别所对应的融合比例将所述第一文本特征与所述第二文本特征进行融合,得到所述第三文本特征的融合公式为:w'=add(α*w1+β*w2);
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述预训练模型包括共享...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。