当前位置: 首页 > 专利查询>谷歌公司专利>正文

细粒度图像相似性制造技术

技术编号:14872678 阅读:208 留言:0更新日期:2017-03-23 20:26
用于确定细粒度图像相似性的方法、系统和装置。在一个方面,一种方法包括:通过选择第一、第二和第三图像的图像三元组来在图像三元组上训练图像嵌入函数;由所述图像嵌入函数生成所述第一、第二和第三图像的特征的第一、第二和第三表示;基于所述特征的第一表示和所述特征的第二表示,确定所述第一图像对所述第二图像的第一相似性度量;基于所述特征的第一表示和所述特征的第三表示,确定所述第一图像对所述第三图像的第二相似性度量;基于所述第一和第二相似性度量确定所述图像三元组的图像嵌入函数的性能度量;以及基于所述图像三元组的性能度量来调整所述图像嵌入函数的参数权重。

【技术实现步骤摘要】
【国外来华专利技术】优先权要求本申请根据35USC§119(e)要求于2014年6月20日提交的美国专利申请序列号62/015,107的优先权,其全部内容通过引用并入本文。
技术介绍
本说明书涉及图像处理。互联网提供对各种资源的访问,诸如视频或音频文件、针对特定主题的网页、书籍文章或新闻文章。有许多资源可用,并且为了帮助用户找到他们可能感兴趣的资源,许多公司已经开发了响应于查询来识别资源的搜索系统。对于文本搜索,搜索查询通常是术语和短语。对于图像搜索,例如静止图像和视频的搜索,搜索查询可以是图像,或术语和短语,或图像、术语和短语的组合。搜索系统响应于查询对资源进行排名,并提供链接到所识别的资源的搜索结果。搜索结果通常被排序以根据排名进行查看。当搜索图像时,搜索系统可以使用被训练过的模型函数来识别与搜索查询图像相似的图像。可以使用各种模型函数。许多这些被训练的模型被优化以识别属于相同类别的图像。
技术实现思路
本说明书描述了与图像处理相关的技术,特别是训练图像嵌入函数以区分属于相同类别的图像之间的差异并识别属于相同类别的图像之间的相似性。一般来说,本说明书中描述的主题的一个创新方面可以体现在包括图像三元组上迭代地训练图像嵌入函数的动作的方法中,所述嵌入函数包括参数权重集合,所述参数权重集合作用于输出图像以产生图像特征的表示作为输出,训练的每个迭代包括:选择图像三元组,每个图像三元组是第一图像、第二图像和第三图像的组合,其中度量第一图像与第二图像的相似性的第一成对相关性得分大于度量第一图像与第三图像的相似性的第二成对相关性得分;对于每个图像三元组:提供第一、第二和第三图像中的每一个作为图像嵌入函数的输入,由图像嵌入函数生成第一图像特征的第一表示、第二图像特征的第二表示、和第三图像特征的第三表示,基于特征的第一表示和特征的第二表示,确定度量第一图像与第二图像的相似性的第一相似性度量,基于特征的第一表示和特征的第三表示,确定度量第一图像与第三图像的相似性的第二相似性度量;基于第一和第二相似性度量确定图像三元组的图像嵌入函数的性能度量;基于所述图像三元组的性能度量调整所述图像嵌入函数的参数权重;以及执行所述训练的另一个迭代,直到发生停止事件。该方面的其它实施例包括被配置为执行编码在计算机存储设备上的方法的动作的对应系统、装置和计算机程序。可以实现本说明书中描述的主题的特定实施例,以便实现以下优点和特征中的一个或多个。下面描述的系统和方法学习细粒度图像相似性以区分属于相同类别的图像之间的差异。所得到的图像嵌入函数可以并入语义和视觉相似性特征两者。为此,所学习的图像嵌入函数考虑类内图像和类间图像两者。类内图像是属于同一类的图像,类间图像是属于不同类的图像。该系统实现采样方法和训练数据生成方法以生成包括类内和类间图像集合的图像三元组的健壮(robust)集合。多尺度网络结构可以有效地捕捉全局视觉外观和图像类信息。语义信息的并入对于区分来自不同类的图像是有用的,并且视觉信息的并入对于从同一类中区分图像是有用的。三元组采样方法可以提供大量的训练数据来学习图像嵌入函数。在如下的附图和说明书中阐述了本说明书中描述主题的一个或多个实施例的细节。根据说明书、附图和权利要求,主题的其它特征、方面和优点将变得显而易见。附图说明图1是用于基于图像三元组训练数据学习图像嵌入函数的网络架构的框图。图2是图像三元组的表格。图3是用于基于图像三元组训练数据来学习图像嵌入函数的示例过程的流程图。图4是用于学习图像嵌入函数的网络结构的框图。图5是用于生成图像三元组训练数据的示例过程的流程图。图6是用于生成多个类的图像收集体的示例过程的流程图。在相应附图中相似的参考号码和名称指示相似的元件。
技术实现思路
概览图1是用于基于图像三元组训练数据来学习图像嵌入函数f(.)的系统100的框图。系统100可以在一个或多个联网计算机的数据处理装置系统中实现。系统100对从训练图像102选择的图像三元组迭代地训练图像嵌入函数。图像嵌入函数基于参数权重集合W,所述参数权重集合W作用于输入图像以产生图像特征的表示作为输出。定义图像嵌入函数的数据存储在模型数据104中。每个图像三元组是第一图像112、第二图像114和第三图像116的组合。第一图像可以被认为是“查询”图像Q,第二图像可以被认为是“正性”图像P,而第三图像可以被认为是“负性”图像N。图2是图像三元组的表格200,其中行210对应于查询图像、正性图像和负性图像。每列220对应于图像三元组T,因此Tk={Qk,PkNk本文档来自技高网
...
细粒度图像相似性

【技术保护点】
一种由数据处理装置执行的计算机实现的方法,所述方法包括:在图像三元组上迭代地训练图像嵌入函数,所述嵌入函数包括参数权重的集合,所述参数权重在输入图像上进行操作以产生所述图像的特征的表示作为输出,所述训练的每个迭代包括:选择图像三元组,每个图像三元组是第一图像、第二图像和第三图像的组合,其中度量所述第一图像与所述第二图像的相似性的第一成对相关性得分大于度量所述第一图像与所述第三图像的相似性的第二成对相关性得分;对于每个图像三元组:提供所述第一图像、第二图像和第三图像中的每一个作为所述图像嵌入函数的输入;通过所述图像嵌入函数生成所述第一图像的特征的第一表示、所述第二图像的特征的第二表示和所述第三图像的特征的第三表示;基于特征的所述第一表示和特征的所述第二表示,确定度量所述第一图像与所述第二图像的相似性的第一相似性度量;基于特征的所述第一表示和特征的所述第三表示,确定度量所述第一图像与所述第三图像的相似性的第二相似性度量;基于所述第一相似性度量和第二相似性度量,确定所述图像三元组的所述图像嵌入函数的性能度量;基于所述图像三元组的所述性能度量,调整所述图像嵌入函数的所述参数权重;及执行训练的另一个迭代,直到发生停止事件。...

【技术特征摘要】
【国外来华专利技术】2014.06.20 US 62/015,1071.一种由数据处理装置执行的计算机实现的方法,所述方法包括:在图像三元组上迭代地训练图像嵌入函数,所述嵌入函数包括参数权重的集合,所述参数权重在输入图像上进行操作以产生所述图像的特征的表示作为输出,所述训练的每个迭代包括:选择图像三元组,每个图像三元组是第一图像、第二图像和第三图像的组合,其中度量所述第一图像与所述第二图像的相似性的第一成对相关性得分大于度量所述第一图像与所述第三图像的相似性的第二成对相关性得分;对于每个图像三元组:提供所述第一图像、第二图像和第三图像中的每一个作为所述图像嵌入函数的输入;通过所述图像嵌入函数生成所述第一图像的特征的第一表示、所述第二图像的特征的第二表示和所述第三图像的特征的第三表示;基于特征的所述第一表示和特征的所述第二表示,确定度量所述第一图像与所述第二图像的相似性的第一相似性度量;基于特征的所述第一表示和特征的所述第三表示,确定度量所述第一图像与所述第三图像的相似性的第二相似性度量;基于所述第一相似性度量和第二相似性度量,确定所述图像三元组的所述图像嵌入函数的性能度量;基于所述图像三元组的所述性能度量,调整所述图像嵌入函数的所述参数权重;及执行训练的另一个迭代,直到发生停止事件。2.根据权利要求1所述的方法,其中:确定度量所述第一图像与所述第二图像的所述相似性的所述第一相似性度量包括:根据所述第一图像的所述特征的所述第一表示和所述第二图像的所述特征的所述第二表示来确定第一距离度量;及确定度量所述第一图像与所述第三图像的所述相似性的所述第二相似性度量包括:根据所述第一图像的所述特征的所述第一表示和所述第二图像的所述特征的所述第二表示来确定第二距离度量。3.根据权利要求1所述的计算机实现的方法,其中:所述图像嵌入函数生成欧几里得空间中的所述图像的映射作为特征的所述输出表示;确定度量所述第一图像与所述第二图像的所述相似性的所述第一相似性度量包括:确定所述第一图像的所述特征的所述第一表示与所述第二图像的所述特征的所述第二表示之间的第一欧几里德距离;及确定度量所述第一图像与所述第三图像的所述相似性的所述第二相似性度量包括:确定所述第一图像的所述特征的所述第一表示与所述第三图像的所述特征的所述第三表示之间的第二欧几里德距离。4.根据权利要求3所述的计算机实现的方法,其中确定所述图像三元组的所述图像嵌入函数的性能度量包括:基于所述第一欧几里得距离和所述第二欧几里得距离来确定所述性能度量。5.根据权利要求4所述的计算机实现的方法,其中基于所述第一欧几里德距离和所述第二欧几里德距离来确定所述性能度量包括:基于所述第一欧几里德距离和所述第二欧几里德距离的差来确定铰链损失。6.根据权利要求5所述的计算机实现的方法,还包括:对所述图像三元组的铰链损失求和;确定所述铰链损失的和是否满足最小化准则;及当所述铰链损失的所述和满足所述最小化准则时,确定所述停止事件发生。7.根据权利要求1所述的计算机实现的方法,其中,所述图像嵌入函数包括:第一卷积神经网络,所述第一卷积神经网络具有第一数量的卷积层,并且被训练以将多个图像分类成多个不同的类,并且被配置为接收第一分辨率的图像作为输入;第二卷积神经网络,所述第二卷积神经网络具有第二数量的卷积层,并且被训练以提取小于所述第一分辨率的第二分辨率的低分辨率特征,并且被配置为接收所述第二分辨率的图像作为输入,其中,卷积层的所述第二数量小于卷积层的所述第一数量;及其中,通过所述图像嵌入函数生成所述图像的所述特征的表示包括:以所述第一分辨率将所述图像提供给所述第一卷积神经网络;将所述图像向下采样到所述第二分辨率,以生成向下采样图像;及将所述向下采样图像提供给所述第二卷积神经网络。8.根据权利要求7所述的计算机实现的方法,其中,所述图像嵌入函数还包括:第一归一化层,所述第一归一化层将所述第一卷积神经网络的所述输出归一化;第二归一化层,所述第二归一化层将所述第二卷积神经网络的所述输出归一化;及线性嵌入层,所述线性嵌入层组合所述第一卷积神经网络的和所述第二卷积神经网络的所归一化的输出。9.根据权利要求1所述的计算机实现的方法,还包括:访问多个图像,所述图像被收集到相应类的图像中;对于至少一类的图像:针对每个图像确定成对相关性总和,所述成对相关性总和是基于成对相关性得分,所述成对相关性得分相应地度量所述图像与所述类的图像中的相应其它图像的相似性;根据与其成对相关性总和成比例的似然性,选择所述类的图像中的图像作为所述图像三元组中的第一图像;根据基于选择阈值和度量所述第一图像与所述第二图像的相似性的成对相关性得分的似然性,选择所述类的图像中的另一图像作为所述图像三元组中的第二图像;及根据基于所述部分阈值和度量所述第一图像与所述第三图像的相似性的所述成对相关性得分的似然性,选择所述类的图像中的另一图像作为所述图像三元组中的第三图像。10.根据权利要求9所述的计算机实现的方法,其中:选择所述类的图像中的另一图像作为所述图像三元组中的所述第二图像包括:基于所述选择阈值和所述成对相关性得分中的最小值来选择所述类的图像中的另一图像;及选择所述类的图像中的另一图像作为所述图像三元组中的所述第三图像包括:基于所述选择阈值和所述成对相关性得分中的最小值来选择所述类的图像中的另一图像。11.根据权利要求9所述的计算机实现的方法,还包括:对于至少一个图像三元组,选择另一类的图像中的图像作为所述图像三元组中的第三图像。12.根据权利要求9所述的计算机实现的方法,其中,对于每个图像三元组,所述第一图像、第二图像和第三图像被选择为使得从所述第一成对相关性得分中减去所述第二成对相关性得分所得到的...

【专利技术属性】
技术研发人员:宋扬王江查尔斯·J·罗森贝格
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1