一种多模态检索模型的训练方法、多模态检索方法及装置制造方法及图纸

技术编号:38339508 阅读:11 留言:0更新日期:2023-08-02 09:20
本公开涉及人工智能技术领域,提供了一种多模态检索模型的训练方法、多模态检索方法及装置。该方法包括:获取训练数据集,训练数据集包括多个训练数据,每一个训练数据均包括一个图像样本和一个文本样本;对训练数据集中的图像样本和/或文本样本进行增强处理,得到新的训练数据集;使用新的训练数据集训练多模态检索模型,该多模态检索模型可应用于不同类目的分类任务,如可适用于图文互搜等任务,其适应性和通用性强。性和通用性强。性和通用性强。

【技术实现步骤摘要】
一种多模态检索模型的训练方法、多模态检索方法及装置


[0001]本公开涉及人工智能
,尤其涉及一种多模态检索模型的训练方法、多模态检索方法及装置。

技术介绍

[0002]目前主流的图像分类模型主要有ResNet(深度卷积神经网络)、Vit(深度学习注意力神经网络)。而现有的图像分类模型普遍存在如下局限性:一是模型在精调后无法对新类别进行分类,比如在模型完成1000个常见事物的分类训练后,模型只能在这1000个类别上进行分类,而对这之外的类别无法进行表示,具有较强的局限性;二是模型在下游任务上进行精调后,会损害模型对原有知识的掌握能力,比如模型在花卉数据集上进行精调后,对其他类别的事物(如动物等)的分类能力下降,出现灾难性遗忘现象。
[0003]因此,现有的图像分类模型无法适用于不同类目的分类任务,如无法适用于图文互搜等任务,其适应性和通用性差。

技术实现思路

[0004]有鉴于此,本公开实施例提供了一种多模态检索模型的训练方法、多模态检索方法及装置,以解决现有的图像分类模型无法适用于不同类目的分类任务,如无法适用于图文互搜等任务,其适应性和通用性差的问题。
[0005]本公开实施例的第一方面,提供了一种多模态检索模型的训练方法,包括:
[0006]获取训练数据集,训练数据集包括多个训练数据,每一个训练数据均包括一个图像样本和一个文本样本;
[0007]对训练数据集中的图像样本和/或文本样本进行增强处理,得到新的训练数据集;
[0008]使用新的训练数据集训练多模态检索模型。
[0009]本公开实施例的第二方面,提供了一种多模态检索方法,包括:
[0010]获取检索文本和/或检索图像;
[0011]将检索文本和/或检索图像输入多模态检索模型中,输出检索结果,多模态检索模型是由第一方面的多模态检索模型的训练方法训练得到的。
[0012]本公开实施例的第三方面,提供了一种多模态检索模型的训练装置,包括:
[0013]获取模块,被配置为获取训练数据集,训练数据集包括多个训练数据,每一个训练数据均包括一个图像样本和一个文本样本;
[0014]处理模块,被配置为对训练数据集中的图像样本和/或文本样本进行增强处理,得到新的训练数据集;
[0015]训练模块,被配置为使用新的训练数据集训练多模态检索模型。
[0016]本公开实施例的第四方面,提供了一种多模态检索装置,包括:
[0017]数据获取模块,被配置为获取检索文本和/或检索图像;
[0018]检索模块,被配置为将检索文本和/或检索图像输入多模态检索模型中,输出检索
结果,多模态检索模型是由第一方面的多模态检索模型的训练方法训练得到的。
[0019]本公开实施例的第五方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述第一方面或第二方面的方法的步骤。
[0020]本公开实施例的第六方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面或第二方面的方法的步骤。
[0021]本公开实施例与现有技术相比,其有益效果至少包括:通过获取训练数据集,训练数据集包括多个训练数据,每一个训练数据均包括一个图像样本和一个文本样本;对训练数据集中的图像样本和/或文本样本进行增强处理,得到新的训练数据集;使用新的训练数据集训练多模态检索模型,该多模态检索模型可应用于不同类目的分类任务,如可适用于图文互搜等任务,其适应性和通用性强。
附图说明
[0022]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0023]图1是本公开实施例提供的一种多模态检索模型的训练方法的流程示意图;
[0024]图2是本公开实施例提供的多模态检索模型的训练方法中的一种图像裁剪方式的示意图;
[0025]图3是本公开实施例提供的多模态检索模型的训练方法中的一种多模态检索模型的结构示意图;
[0026]图4是本公开实施例提供的一种多模态检索方法的流程示意图;
[0027]图5是本公开实施例提供的一种多模态检索模型的训练装置的结构示意图;
[0028]图6是本公开实施例提供的一种多模态检索装置的结构示意图;
[0029]图7是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0030]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
[0031]下面将结合附图详细说明根据本公开实施例的一种多模态检索模型的训练方法、多模态检索方法及装置。
[0032]图1是本公开实施例提供的一种多模态检索模型的训练方法的流程示意图。如图1所示,该多模态检索模型的训练方法包括:
[0033]步骤S101,获取训练数据集,训练数据集包括多个训练数据,每一个训练数据均包括一个图像样本和一个文本样本。
[0034]训练数据可以是采用现有的爬虫技术从网络上爬取到的携带有文本描述内容的图像。其中,一个训练数据是一个图像文本对,即包含一个图像样本和一个文本样本。这里的文本样本(文本标签)通常是指与之配对的图像的标签内容,如可以是一句话、一段话等。
[0035]传统的图像分类模型(如ResNet、Vit)的图像标签通常是一个名词,如“猫”、“狗”、“车”等。并且在标注的时候,不会进行更细的分类标注,例如,不管是“加菲猫”还是“布偶猫”,都会把所有猫标注为“猫”,这种标注方式不能对图像进行完整的样本描述,比较生硬,无法实现更细粒度的分类。这类模型在实际应用中容易出现将某些差异较大,明显不属于一个类别的图像“强行”分成同类的现象。如将“加菲猫”(动物)和“布偶猫”(玩偶)强行分成“猫”这一同类。此外,现有的图像分类模型在精调后无法对新类别进行分类,且模型在下游任务上进行精调后,会损害模型对原有知识的掌握能力,模型的泛化能力和识别精确度均较差,无法适用于不同类目的分类任务,如无法适用于图文互搜等任务,其适应性和通用性差。
[0036]然而,本公开的训练数据中的文本样本(文本标签)不再是一个名词,而是一个句子,甚至是一段话,可以更加丰富且完整地描述图像所包含的信息,有效地解决了传统的图像分类模型的强行分类现象,可实现“无限细粒度”的分类效果。本公开通过大量的图像文本对训练多模态检索模型,可以获得泛化能力好且识别精度较本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态检索模型的训练方法,其特征在于,包括:获取训练数据集,所述训练数据集包括多个训练数据,每一个训练数据均包括一个图像样本和一个文本样本;对所述训练数据集中的图像样本和/或文本样本进行增强处理,得到新的训练数据集;使用所述新的训练数据集训练多模态检索模型。2.根据权利要求1所述的方法,其特征在于,对所述训练数据集中的图像样本和/或文本样本进行增强处理,得到新的训练数据集,包括:将所述训练数据集划分为第一数据集和第二数据集,所述第一数据集中包括至少一个训练数据;对所述第一数据集中的图像样本进行随机裁剪,得到第三数据集,所述第三数据集的数据数量与所述第一数据集的数据数量相同;其中,所述图像样本中被裁剪区域的面积占其整体面积的30%~60%,所述被裁剪区域用纯灰色填充,所述图像样本中的裁剪保留区域的形状为矩形或凸多边形;根据所述第一数据集、第二数据集和第三数据集,确定新的训练数据集。3.根据权利要求1所述的方法,其特征在于,对所述训练数据集中的图像样本和/或文本样本进行增强处理,得到新的训练数据集,包括:将所述训练数据集划分为第四数据集和第五数据集,所述第四数据集包括至少一个训练数据;对所述第四数据集中的文本样本进行添加高斯噪声处理,得到第六数据集,所述第六数据集的数据数量与所述第四数据集的数据数量相同;根据所述第四数据集、第五数据集和第六数据集,确定新的训练数据集。4.根据权利要求3所述的方法,其特征在于,对所述第四数据集中的文本样本进行添加高斯噪声处理,得到第六数据集,包括:采用文本编码器对所述第四数据集中的每个文本样本进行编码,得到对应的文本向量;对所述文本向量的各个维度添加高斯噪声,得到第六数据集,所述高斯噪声的标准差不大于文本向量模长的10%,且均值为0。5.根据权利要求1所述的方法,其特征在于,对所述训练数据集中的图像样本和/或文本样本进行增强处理,得到新的训练数据集,包括:将所述训练数据集划分为第七数据集和第八数据集;对所述第七数据集中的图像样本进行随机裁剪,得到第九数据集,所述第七数据集的数据数量与所述第九数据集的数据数量相同;对所述第八数据集中的文本样本进行添加高斯噪声处理,得到第十数据集,所述第八数据集的数据数量与所述第十数据集的数据数量相同;根据所述第七数据集、第八数据集、第九数据集和第十数据集,确定新的训练...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1