一种多模态数据集的数据增强方法及装置制造方法及图纸

技术编号：36185730 阅读：30 留言：0更新日期：2022-12-31 20:49

本申请提供一种多模态数据集的数据增强方法及装置，应用于数据处理技术领域，其中，方法包括：获取多模态数据集中的第一图像文本对；将第一图像文本对中的第一图像转换为对应的第一图像向量；根据第一图像向量生成第二图像向量；将第二图像向量转换为对应的第二图像，得到第二图像文本对；其中，第二图像文本对包括第二图像以及第一图像文本对中的文本；将第二图像文本对加入多模态数据集中，以实现对多模态数据集的数据增强。与现有技术中直接对图像进行处理相比，本申请实施例中对图像转换得到的向量进行处理，从而可以得到更多的新的图像，同时还可以得到改变风格后的图像。因此，本申请实施例中对多模态数据集进行数据增强的效果较好。的效果较好。的效果较好。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态数据集的数据增强方法及装置

[0001]本申请涉及数据处理
，具体而言，涉及一种多模态数据集的数据增强方法及装置。

技术介绍

[0002]在多模态任务中，需要用到多模态数据集，其中，多模态数据集包括图像
‑
文本对。为了减少网络的过拟合现象，可以对多模态数据集进行数据增强，其中，数据增强主要是为了通过对训练图片进行变换，从而可以得到泛化能力更强的网络，以更好的适应应用场景。
[0003]在现有技术中，在对上述多模态数据集进行数据增强的过程中，一般通过对图像进行图像处理实现对图像的扩充，其中，图像处理可以包括：翻转变换(flip)、缩放变换(zoom)、平移变换(shift)、尺度变换(scale)、对比度变换(contrast)、噪声扰动(noise)等。但是，采用上述现有技术中的数据增强方法，数据增强的效果较差。

技术实现思路

[0004]本申请实施例的目的在于提供一种多模态数据集的数据增强方法及装置，用以解决现有技术中对多模态数据集进行数据增强的效果较差的技术问题。
[0005本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多模态数据集的数据增强方法，其特征在于，包括：获取多模态数据集中的第一图像文本对；其中，所述多模态数据集包括多组图像文本对，每组图像文本对包括一张图像以及用于描述该图像的文本；将所述第一图像文本对中的第一图像转换为对应的第一图像向量；根据所述第一图像向量生成第二图像向量；将所述第二图像向量转换为对应的第二图像，得到第二图像文本对；其中，所述第二图像文本对包括所述第二图像以及所述第一图像文本对中的文本；将所述第二图像文本对加入所述多模态数据集中，以实现对所述多模态数据集的数据增强。2.根据权利要求1所述的多模态数据集的数据增强方法，其特征在于，所述将所述第一图像文本对中的第一图像转换为对应的第一图像向量的步骤，通过数据转换模型中的图像编码器执行。3.根据权利要求2所述的多模态数据集的数据增强方法，其特征在于，所述数据转换模型还包括：文本编码器以及图像文本匹配网络，所述数据转换模型通过如下过程进行训练：获取多个样本图像、多个样本文本以及对应的标注数据；其中，所述标注数据用于表征所述样本图像与所述样本文本之间的真实匹配关系；将所述多个样本图像输入所述图像编码器中，得到对应的多个样本图像向量，以及，将所述多个样本文本输入所述文本编码器中，得到对应的多个样本文本向量；将所述多个样本图像向量以及所述多个样本文本向量输入所述图像文本匹配网络中，得到对应的预测匹配关系；根据所述预测匹配关系以及所述标注数据，对所述数据转换模型的参数进行更新。4.根据权利要求3所述的多模态数据集的数据增强方法，其特征在于，所述数据转换模型为CLIP模型。5.根据权利要求4所述的多模态数据集的数据增强方法，其特征在于，所述根据所述预测匹配关系以及所述标注数据，对所述数据转换模型的参数进行更新，包括：根据所述CLIP模型对应的损失函数计算表征所述预测匹配关系与所述真实匹配关系之间的差异的预测损失；其中，所述损失函数用于增大匹配的样本图像与样本文本之间的相似度，降低不匹配的样本图像与...

【专利技术属性】
技术研发人员：刘小康，李健铨，胡加明，
申请(专利权)人：鼎富智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人