一种多模态检索模型的训练方法、多模态检索方法及装置制造方法及图纸

技术编号：38339508 阅读：11 留言：0更新日期：2023-08-02 09:20

本公开涉及人工智能技术领域，提供了一种多模态检索模型的训练方法、多模态检索方法及装置。该方法包括：获取训练数据集，训练数据集包括多个训练数据，每一个训练数据均包括一个图像样本和一个文本样本；对训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集；使用新的训练数据集训练多模态检索模型，该多模态检索模型可应用于不同类目的分类任务，如可适用于图文互搜等任务，其适应性和通用性强。性和通用性强。性和通用性强。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态检索模型的训练方法、多模态检索方法及装置

[0001]本公开涉及人工智能
，尤其涉及一种多模态检索模型的训练方法、多模态检索方法及装置。

技术介绍

[0002]目前主流的图像分类模型主要有ResNet(深度卷积神经网络)、Vit(深度学习注意力神经网络)。而现有的图像分类模型普遍存在如下局限性：一是模型在精调后无法对新类别进行分类，比如在模型完成1000个常见事物的分类训练后，模型只能在这1000个类别上进行分类，而对这之外的类别无法进行表示，具有较强的局限性；二是模型在下游任务上进行精调后，会损害模型对原有知识的掌握能力，比如模型在花卉数据集上进行精调后，对其他类别的事物(如动物等)的分类能力下降，出现灾难性遗忘现象。
[0003]因此，现有的图像分类模型无法适用于不同类目的分类任务，如无法适用于图文互搜等任务，其适应性和通用性差。

技术实现思路

[0004]有鉴于此，本公开实施例提供了一种多模态检索模型的训练方法、多模态检索方法及装置，以解决现有的图像分类模型无法适用于不同类目的分类任务，如无法适用于图文互搜等任务，其适应性和通用性差的问题。
[0005]本公开实施例的第一方面，提供了一种多模态检索模型的训练方法，包括：
[0006]获取训练数据集，训练数据集包括多个训练数据，每一个训练数据均包括一个图像样本和一个文本样本；
[0007]对训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集；
[0008]使用新的训练数据集训...

【技术保护点】

【技术特征摘要】
1.一种多模态检索模型的训练方法，其特征在于，包括：获取训练数据集，所述训练数据集包括多个训练数据，每一个训练数据均包括一个图像样本和一个文本样本；对所述训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集；使用所述新的训练数据集训练多模态检索模型。2.根据权利要求1所述的方法，其特征在于，对所述训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集，包括：将所述训练数据集划分为第一数据集和第二数据集，所述第一数据集中包括至少一个训练数据；对所述第一数据集中的图像样本进行随机裁剪，得到第三数据集，所述第三数据集的数据数量与所述第一数据集的数据数量相同；其中，所述图像样本中被裁剪区域的面积占其整体面积的30％～60％，所述被裁剪区域用纯灰色填充，所述图像样本中的裁剪保留区域的形状为矩形或凸多边形；根据所述第一数据集、第二数据集和第三数据集，确定新的训练数据集。3.根据权利要求1所述的方法，其特征在于，对所述训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集，包括：将所述训练数据集划分为第四数据集和第五数据集，所述第四数据集包括至少一个训练数据；对所述第四数据集中的文本样本进行添加高斯噪声处理，得到第六数据集，所述第六数据集的数据数量与所述第四数据集的数据数量相同；根据所述第四数据集、第五数据集和第六数据集，确定新的训练数据集。4.根据权利要求3所述的方法，其特征在于，对所述第四数据集中的文本样本进行添加高斯噪声处理，得到第六数据集，包括：采用文本编码器对所述第四数据集中的每个文本样本进行编码，得到对应的文本向量；对所述文本向量的各个维度添加高斯噪声，得到第六数据集，所述高斯噪声的标准差不大于文本向量模长的10％，且均值为0。5.根据权利要求1所述的方法，其特征在于，对所述训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集，包括：将所述训练数据集划分为第七数据集和第八数据集；对所述第七数据集中的图像样本进行随机裁剪，得到第九数据集，所述第七数据集的数据数量与所述第九数据集的数据数量相同；对所述第八数据集中的文本样本进行添加高斯噪声处理，得到第十数据集，所述第八数据集的数据数量与所述第十数据集的数据数量相同；根据所述第七数据集、第八数据集、第九数据集和第十数据集，确定新的训练...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：深圳须弥云图空间科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人