图像检索模型的训练方法、装置、设备以及存储介质制造方法及图纸

技术编号：32224672 阅读：16 留言：0更新日期：2022-02-09 17:29

本公开提供了一种图像检索模型的训练方法、装置、设备以及存储介质，涉及人工智能技术领域，具体为计算机视觉和深度学习技术。该方法包括：获取包括至少一个训练图像对的训练图像集，训练图像对包括第一图像和第二图像；针对训练图像对中的每个训练图像对，利用初始图像检索模型的第一编码器分别提取第一图像的第一特征和第二图像的第二特征，利用初始图像检索模型的第二编码器分别提取第一图像的第三特征和第二图像的第四特征；基于第一特征与第三特征的第一对比损失、第二特征与第四特征的第二对比损失更新初始图像检索模型的参数，得到训练完成的图像检索模型。基于本公开提供的方法训练得到的图像检索模型具有更高的检索精度。索精度。索精度。

全部详细技术资料下载

【技术实现步骤摘要】
图像检索模型的训练方法、装置、设备以及存储介质

[0001]本公开涉及人工智能
，具体为计算机视觉和深度学习技术，尤其涉及图像检索模型的训练方法、装置、设备以及存储介质。

技术介绍

[0002]对比学习是无监督学习的一种，能够从无标注的数据中学习知识。对比学习受训练的批次大小影响明显，一般地一次训练的批次越大，对比学习的效果越好。但是提升训练的批次大小受限于服务器的硬件配置，普通服务器显存有限导致不能设置更大的训练批次。现有的基于负例的对比学习，比如MoCo(基于动量比对的非监督式视觉表征学习)虽然能够比较好的学习不同样本之间的特征表达，但是MoCo并没有完全利用一次训练的负样本特征，从而导致GPU(graphics processing unit，图形处理器)资源浪费，使得模型的性能得不到完全的释放。

技术实现思路

[0003]本公开提供了一种图像检索模型的训练方法、装置、设备以及存储介质。
[0004]根据本公开的第一方面，提供了一种图像检索模型的训练方法，包括：获取训练图像集，其中，训练图像集中包括至少一个训练图像对，训练图像对包括第一图像和第二图像；针对至少一个训练图像对中的每个训练图像对，利用初始图像检索模型的第一编码器分别提取第一图像的第一特征和第二图像的第二特征，并利用初始图像检索模型的第二编码器分别提取第一图像的第三特征和第二图像的第四特征；基于第一特征与第三特征的第一对比损失以及第二特征与第四特征的第二对比损失更新初始图像检索模型的参数，得到训练完成的图像检索模型。r/>[0005]根据本公开的第二方面，提供了一种图像检索方法，包括：获取待检索图像；将待检索图像输入至预先训练的图像检索模型中，输出得到检索结果，其中，图像检索模型通过如第一方面中任一项所述的方法训练得到。
[0006]根据本公开的第三方面，提供了一种图像检索模型的训练装置，包括：第一获取模块，被配置成获取训练图像集，其中，训练图像集中包括至少一个训练图像对，训练图像对包括第一图像和第二图像；提取模块，被配置成针对至少一个训练图像对中的每个训练图像对，利用初始图像检索模型的第一编码器分别提取第一图像的第一特征和第二图像的第二特征，并利用初始图像检索模型的第二编码器分别提取第一图像的第三特征和第二图像的第四特征；更新模块，被配置成基于第一特征与第三特征的第一对比损失以及第二特征与第四特征的第二对比损失更新初始图像检索模型的参数，得到训练完成的图像检索模型。
[0007]根据本公开的第四方面，提供了一种图像检索装置，包括：第二获取模块，被配置成获取待检索图像；检索模块，被配置成将待检索图像输入至预先训练的图像检索模型中，输出得到检索结果，其中，图像检索模型通过如第一方面中任一项所述的方法训练得到。
[0008]根据本公开的第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面或第二方面中任一实现方式描述的方法。
[0009]根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面或第二方面中任一实现方式描述的方法。
[0010]根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面或第二方面中任一实现方式描述的方法。
[0011]应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案，不构成对本公开的限定。其中：
[0013]图1是本公开可以应用于其中的示例性系统架构图；
[0014]图2是根据本公开的图像检索模型的训练方法的一个实施例的流程图；
[0015]图3是根据本公开的图像检索模型的训练方法的另一个实施例的流程图；
[0016]图4是根据本公开的图像检索模型的训练方法的又一个实施例的流程图；
[0017]图5是根据本公开的图像检索方法的一个实施例的流程图；
[0018]图6是根据本公开的图像检索模型的训练装置的一个实施例的结构示意图；
[0019]图7是根据本公开的图像检索装置的一个实施例的结构示意图；
[0020]图8是用来实现本公开实施例的图像检索模型的训练方法或图像检索方法的电子设备的框图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
[0022]需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0023]图1示出了可以应用本公开的图像检索模型的训练方法或图像检索模型的训练装置的实施例的示例性系统架构100。
[0024]如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
[0025]用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送信息等。终端设备101、102、103上可以安装有各种客户端应用。
[0026]终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式
计算机等等。当终端设备101、102、103为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。
[0027]服务器105可以提供各种服务。例如，服务器105可以对从终端设备101、102、103获取的训练图像集进行分析和处理，并生成处理结果(例如图像检索模型)。
[0028]需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。
[0029]需要说明的是，本公开实施例所提供的图像检索模型的训练方法或图像检索方法一般由服务器105执行，相应地，图像检索模型的训练装置或图像检索装置一般设置于服务器本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图像检索模型的训练方法，包括：获取训练图像集，其中，所述训练图像集中包括至少一个训练图像对，所述训练图像对包括第一图像和第二图像；针对所述至少一个训练图像对中的每个训练图像对，利用初始图像检索模型的第一编码器分别提取所述第一图像的第一特征和所述第二图像的第二特征，并利用所述初始图像检索模型的第二编码器分别提取所述第一图像的第三特征和所述第二图像的第四特征；基于所述第一特征与所述第三特征的第一对比损失以及所述第二特征与所述第四特征的第二对比损失更新所述初始图像检索模型的参数，得到训练完成的图像检索模型。2.根据权利要求1所述的方法，其中，所述训练图像对通过如下步骤得到：获取初始图像集；针对所述初始图像集中的每张图像，分别进行两种不同的数据增强，得到增强后的第一图像和第二图像；将所述第一图像和所述第二图像作为一个训练图像对。3.根据权利要求1所述的方法，其中，所述基于所述第一特征与所述第三特征的第一对比损失以及所述第二特征与所述第四特征的第二对比损失更新所述初始图像检索模型的参数，包括：分别计算所述第一特征与所述第三特征的第一对比损失以及所述第二特征与所述第四特征的第二对比损失；基于所述第一对比损失与所述第二对比损失得到目标损失；基于所述目标损失利用反向传播算法更新所述第一编码器的参数；通过所述第一编码器的参数动量更新所述第二编码器的参数。4.根据权利要求3所述的方法，还包括：分别计算所述第一特征与所述第四特征的第三对比损失以及所述第二特征与所述第三特征的第四对比损失；以及所述基于所述第一对比损失与所述第二对比损失得到目标损失，包括：将所述第一对比损失、所述第二对比损失、所述第三对比损失与所述第四对比损失相加，得到所述目标损失。5.根据权利要求4所述的方法，其中，所述第一对比损失、所述第二对比损失、所述第三对比损失与所述第四对比损失均是通过infoNCE损失函数计算得到。6.一种图像检索方法，包括：获取待检索图像；将所述待检索图像输入至预先训练的图像检索模型中，输出得到检索结果，其中，所述图像检索模型通过权利要求1
‑
5中任一项所述的方法训练得到。7.一种图像检索模型的训练装置，包括：第一获取模块，被配置成获取训练图像集，其中，所述训练图像集中包括至少一个训练图像对，所述训练图像对包括第一图像和第二图像；提取模块，被配置成针对所述至少一个训练图像对中的每个训练图像对，利用初始图像检索模型的第一编码器分别提取所述第一图像的第一特征和所述第二图像的第二特征，并利用所述初始图像检索模...

【专利技术属性】
技术研发人员：周文硕，杨大陆，武秉泓，孙钦佩，杨叶辉，黄海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人