用于细粒度图像搜索的对抗学习制造技术

技术编号:26896408 阅读:22 留言:0更新日期:2020-12-29 16:24
公开的是使用用于细粒度图像搜索的对抗学习的系统、方法、和计算机可读介质。图像搜索系统接收搜索查询,搜索查询包括描绘对象的输入图像。搜索系统使用生成器生成标准化视角下对象的向量表示。基于多个视角下已知对象的参考图像的集合以及从评估器接收的反馈数据训练了生成器,反馈数据指示生成器在生成标准化视角下已知对象的向量表示方面的性能。评估器包括生成反馈数据的判别器子模块、标准化器子模块和语义嵌入子模块。图像搜索系统基于对象的向量表示来识别描绘对象的其他图像的集合,以及响应于搜索查询返回其他图像中的至少一个。

【技术实现步骤摘要】
【国外来华专利技术】用于细粒度图像搜索的对抗学习优先权声明本申请要求2018年5月22日提交的美国申请序列号15/985,818的优先权的权益,其在此通过引用被全部并入。
本专利技术的实施方式一般性涉及搜索查询,并且更具体地,涉及用于细粒度图像搜索的对抗学习。
技术介绍
尽管已经对计算机执行的图像搜索进行了广泛的研究,但是其依然是具有挑战性的问题。特别地,在细粒度水平识别图像极其困难,在细粒度水平中,目标是找到与查询内容属于同一细粒度类别的对象(例如,识别汽车的型号和模型)。使用深度神经网络的许多算法已经实现了在细粒度分类上的最先进的性能,但是它们不可直接应用于细粒度图像搜索。当前的细粒度分类系统操作包含固定数量的类别的封闭的数据集,并且因此,没有正确地处理未见过的类别。尽管分类器可以被重新训练以适应新的类别,但是频繁的重新训练由于新数据积累而变得极其昂贵。相比之下,设计的细粒度图像搜索应当发现不属于训练集里的部分的未见过类别。除了新出现的类别之外,对象的视角和姿态变化使得找到正确的细粒度类别更加困难。解决姿态变化的经典方法依赖于匹配局部特征点、改善单应性、以及推断明确的几何变换,但是它们在计算上是昂贵的。基于深度神经网络的最新工作引入了专用模块来学习具体的几何变换以用于语义对应,然而,它们需要预定义的变换类型和良好初始化的变换矩阵以确保合理的性能。这些类型的系统不能处理复杂变换,并且因此,假定包含未知变换的增长的数据库,则这些类型的系统对于细粒度的图像搜索是不现实的。附图说明在不一定按比例绘制的附图中,相同的附图标记可以描述不同视图中的相似的部件。具有不同字母后缀的相同附图标记可以表示相似部件的不同实例。在附图的图中通过示例而非限制的方式示出了一些实施方式,在附图中:图1示出了根据一些示例实施方式的系统配置,其中,电子装置经由网络通信以用于交换数据。图2是根据一些示例实施方式的图像搜索系统的框图。图3是根据一些示例实施方式的生成对抗网络(GAN)的框图。图4是根据一些示例实施方式的图像搜索模块的框图。图5是示出根据某些示例实施方式的执行图像搜索的示例方法的流程图。图6是示出根据某些示例实施方式的生成用于细粒度图像搜索的GAN的示例方法的流程图。图7是示出了可以结合本文中描述的各种硬件架构使用的代表性软件架构的框图。图8是示出根据一些示例实施方式的能够从机器可读介质(例如,机器可读存储介质)读取指令并且执行本文中讨论的方法中的任何一种或更多种方法的机器的部件的框图。具体实施方式在下面的描述中,出于说明的目的,阐述了各种细节以提供对本专利技术的各种实施方式的透彻理解。然而,对于本领域技术人员将明显的是,可以在没有这些具体细节的情况下或者在具有微小改变的情况下实践本主题。在说明书中对“一个实施方式”或“实施方式”的引用意指结合该实施方式描述的特定特征、结构或特性被包括在本主题的至少一个实施方式中。因此,在整个说明书的各个地方出现的短语“在一个实施方式中”或“在实施方式中”的出现不一定都指代同一实施方式。出于说明的目的,阐述了具体配置和细节以提供对本主题的透彻理解。然而,对于本领域普通技术人员将明显的是,可以在没有本文呈现的具体细节的情况下或者以如本文中所描述的各种组合来实践所描述的主题的实施方式。此外,可以省略或简化公知的特征以免使所描述的实施方式不清楚。在整个说明书中可以给出各种示例。这些示例仅是对特定实施方式的描述。权利要求的范围或含义不限于所给出的示例。公开的是使用用于细粒度图像搜索的对抗学习的系统、方法、和计算机可读介质。通过学习隐式变换以对视角和姿态进行标准化,训练生成对抗网络GAN以生成对象的图像表示。GAN包括一起工作的生成器和评估器模型。通过产生高质量特征来训练生成器,以混淆评估器,而评估器旨在通过优化多个学习目标来区分由生成器生成的特征与真实的特征。与包括向生成器提供反馈的单个鉴别器的先前的GAN相比,评估器包括三个子模块:判别器、标准化器、和语义嵌入模块,子模块各自评估由生成器生成的图像并且向生成器提供反馈。每个子模块接收由生成器生成的图像作为输入,该图像在标准化视角下描绘对象。判别器输出所给出的输入图像是真实图像还是生成图像的概率。标准化器输出指示图像被标准化成标准化视角的完成情况的值。语义嵌入模块输出指示基于输入图像确定的对象分类是否与对象的期望对象分类匹配的值。评估器的三个子模块与生成器一起联合地优化,使得它们被平衡以有助于良好的得到的图像表示。一旦被训练,GAN就被用于基于对象的给定输入图像来执行图像搜索。图像搜索返回对象的其他生成图像。最初,GAN使用输入图像来生成标准化视角下对象的图像。GAN基于标准化视角下对象的图像生成向量表示。使用距离函数来识别最接近所生成的向量表示的表示对象的图像的其他向量。响应于图像搜索,返回由所识别的附近向量表示的图像。图1示出了根据一些示例实施方式的示例系统配置100,其中,电子装置经由网络通信以用于交换数据。如图所示,多个装置(即,客户端装置102和图像搜索系统104)连接至通信网络104,并且被配置成通过使用通信网络104来彼此通信。通信网络104是任何类型的网络,包括诸如内联网的局域网(“LAN”)、诸如因特网的广域网(“WAN”)或其任何组合。此外,通信网络104可以是公共网络、专用网络或其组合。通信网络104使用与一个或更多个服务提供商相关联的任何数目的通信链路——包括一个或更多个有线通信链路、一个或更多个无线通信链路或其任意组合——来实现。另外,通信网络104被配置成支持使用任何数目的协议格式化的数据的传输。多个计算装置可以连接至通信网络104。计算装置是能够与其他计算装置进行网络通信的任何类型的通用计算装置。例如,计算装置可以是诸如台式机或工作站的个人计算装置;商业服务器;或诸如膝上型计算机、智能电话或平板个人计算机(PC)的便携式计算装置。计算装置可以包括图8所示的机器800的特征、部件和外围设备中的一些或全部。为了利于与其他计算装置的通信,计算装置包括通信接口,该通信接口被配置成从与该计算装置网络通信的另一计算装置接收诸如请求、数据等的通信并且将该通信传递到在该计算装置上执行的适当的处理模块。通信接口还向与计算装置网络通信的其他计算装置发送通信(例如,传输数据)。在系统100中,用户与图像搜索系统104进行交互,以执行针对与输入图像类似的图像的图像搜索查询。例如,用户使用通过直接和/或间接通信连接至通信网络106的客户端装置102来与图像搜索系统104进行通信并且利用图像搜索系统104的功能。尽管所示的系统100包括仅一个客户端装置102,但这仅是为了易于说明,并且不意味着是限制性的。本领域的技术人员将理解的是,系统100可以包括任何数量的客户端装置102。图像搜索系统104可以同时接受来自任何数量的客户端装置102的连接并且与任何数量的客户端装置102进行交互。图像搜索系统104支持本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n从客户端装置接收搜索查询,所述搜索查询包括描绘对象的输入图像;/n使用生成器生成标准化视角下所述对象的向量表示,已经基于多个视角下已知对象的参考图像的集合以及在训练阶段期间从评估器接收的反馈数据训练了所述生成器,所述反馈数据指示所述生成器在生成标准化视角下所述已知对象的向量表示方面的性能,所述评估器包括生成所述反馈数据的判别器子模块、标准化器子模块和语义嵌入子模块;/n基于所述标准化视角下所述对象的向量表示来识别描绘所述对象的其他图像的集合;以及/n响应于所述搜索查询,将描绘所述对象的所述其他图像中的至少一个返回至所述客户端装置。/n

【技术特征摘要】
【国外来华专利技术】20180522 US 15/985,8181.一种方法,包括:
从客户端装置接收搜索查询,所述搜索查询包括描绘对象的输入图像;
使用生成器生成标准化视角下所述对象的向量表示,已经基于多个视角下已知对象的参考图像的集合以及在训练阶段期间从评估器接收的反馈数据训练了所述生成器,所述反馈数据指示所述生成器在生成标准化视角下所述已知对象的向量表示方面的性能,所述评估器包括生成所述反馈数据的判别器子模块、标准化器子模块和语义嵌入子模块;
基于所述标准化视角下所述对象的向量表示来识别描绘所述对象的其他图像的集合;以及
响应于所述搜索查询,将描绘所述对象的所述其他图像中的至少一个返回至所述客户端装置。


2.根据权利要求1所述的方法,其中,所述判别器子模块从所述生成器接收所述标准化视角下所述已知对象的生成图像,并且输出所述生成图像是所述已知对象的真实图像的概率。


3.根据权利要求2所述的方法,其中,所述标准化器子模块从所述生成器接收所述标准化视角下所述已知对象的所述生成图像,并且输出指示已知图像被转换为所述标准化视角的完成情况的值。


4.根据权利要求3所述的方法,其中,所述语义嵌入子模块从所述生成器接收所述标准化视角下所述已知对象的所述生成图像,并且输出指示基于所述生成图像确定的对象分类是否与所述已知对象的期望对象分类匹配的值。


5.根据权利要求4所述的方法,其中,所述生成器基于从所述判别器子模块、所述标准化器子模块和所述语义嵌入子模块接收的所述反馈数据来修改未来图像的生成。


6.根据权利要求1所述的方法,其中,识别描绘所述对象的所述其他图像的集合包括:
使用距离函数确定所述对象的向量表示与描绘对象的图像的向量表示的集合之间的距离;
基于所述距离识别与所述对象的向量表示最接近的向量表示的集合,与所述对象的向量表示最接近的向量表示的集合表示描绘所述对象的所述其他图像的集合。


7.根据权利要求6所述的方法,其中,所述其他图像的集合包括由所述生成器生成的图像。


8.一种系统,包括:
一个或更多个计算机处理器;以及
存储指令的一个或更多个计算机可读介质,所述指令在由所述一个或更多个计算机处理器执行时使所述系统执行操作,所述操作包括:
从客户端装置接收搜索查询,所述搜索查询包括描绘对象的输入图像;
使用生成器生成标准化视角下所述对象的向量表示,已经基于多个视角下已知对象的参考图像的集合以及在训练阶段期间从评估器接收的反馈数据训练了所述生成器,所述反馈数据指示所述生成器在生成标准化视角下所述已知对象的向量表示方面的性能,所述评估器包括生成所述反馈数据的判别器子模块、标准化器子模块和语义嵌入子模块;
基于所述标准化视角下所述对象的向量表示来识别描绘所述对象的其他图像的集合;以及
响应于所述搜索查询,将描绘所述对象的所述其他图像中的至少一个返回至所述客户端装置。


9.根据权利要求8所述的系统,其中,所述判别器子模块从所述生成器接收所述标准化视角下所述已知对象的生成图像,并且输出所述生成图像是所述已知对象的真实图像的概率。


10.根据权利要求9所述的系统,其中,所述标准化器子...

【专利技术属性】
技术研发人员:凯文·林杨帆王乔松鲁宾逊·皮拉穆图
申请(专利权)人:电子湾有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1