【技术实现步骤摘要】
一种多模态数据集的数据增强方法及装置
[0001]本申请涉及数据处理
,具体而言,涉及一种多模态数据集的数据增强方法及装置。
技术介绍
[0002]在多模态任务中,需要用到多模态数据集,其中,多模态数据集包括图像
‑
文本对。为了减少网络的过拟合现象,可以对多模态数据集进行数据增强,其中,数据增强主要是为了通过对训练图片进行变换,从而可以得到泛化能力更强的网络,以更好的适应应用场景。
[0003]在现有技术中,在对上述多模态数据集进行数据增强的过程中,一般通过对图像进行图像处理实现对图像的扩充,其中,图像处理可以包括:翻转变换(flip)、缩放变换(zoom)、平移变换(shift)、尺度变换(scale)、对比度变换(contrast)、噪声扰动(noise)等。但是,采用上述现有技术中的数据增强方法,数据增强的效果较差。
技术实现思路
[0004]本申请实施例的目的在于提供一种多模态数据集的数据增强方法及装置,用以解决现有技术中对多模态数据集进行数据增强的效果较差的技术问题。 ...
【技术保护点】
【技术特征摘要】
1.一种多模态数据集的数据增强方法,其特征在于,包括:获取多模态数据集中的第一图像文本对;其中,所述多模态数据集包括多组图像文本对,每组图像文本对包括一张图像以及用于描述该图像的文本;将所述第一图像文本对中的第一图像转换为对应的第一图像向量;根据所述第一图像向量生成第二图像向量;将所述第二图像向量转换为对应的第二图像,得到第二图像文本对;其中,所述第二图像文本对包括所述第二图像以及所述第一图像文本对中的文本;将所述第二图像文本对加入所述多模态数据集中,以实现对所述多模态数据集的数据增强。2.根据权利要求1所述的多模态数据集的数据增强方法,其特征在于,所述将所述第一图像文本对中的第一图像转换为对应的第一图像向量的步骤,通过数据转换模型中的图像编码器执行。3.根据权利要求2所述的多模态数据集的数据增强方法,其特征在于,所述数据转换模型还包括:文本编码器以及图像文本匹配网络,所述数据转换模型通过如下过程进行训练:获取多个样本图像、多个样本文本以及对应的标注数据;其中,所述标注数据用于表征所述样本图像与所述样本文本之间的真实匹配关系;将所述多个样本图像输入所述图像编码器中,得到对应的多个样本图像向量,以及,将所述多个样本文本输入所述文本编码器中,得到对应的多个样本文本向量;将所述多个样本图像向量以及所述多个样本文本向量输入所述图像文本匹配网络中,得到对应的预测匹配关系;根据所述预测匹配关系以及所述标注数据,对所述数据转换模型的参数进行更新。4.根据权利要求3所述的多模态数据集的数据增强方法,其特征在于,所述数据转换模型为CLIP模型。5.根据权利要求4所述的多模态数据集的数据增强方法,其特征在于,所述根据所述预测匹配关系以及所述标注数据,对所述数据转换模型的参数进行更新,包括:根据所述CLIP模型对应的损失函数计算表征所述预测匹配关系与所述真实匹配关系之间的差异的预测损失;其中,所述损失函数用于增大匹配的样本图像与样本文本之间的相似度,降低不匹配的样本图像与...
【专利技术属性】
技术研发人员:刘小康,李健铨,胡加明,
申请(专利权)人:鼎富智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。