用于检索图像的方法、电子设备和计算机可读存储介质技术

技术编号:20866406 阅读:24 留言:0更新日期:2019-04-17 09:20
根据本公开的实施例,提供了用于检索图像的方法、电子设备和计算机可读存储介质。该方法包括:使用第一神经网络来处理待检索图像,以确定所述待检索图像的局部特征向量;使用第二神经网络来处理所述待检索图像,以确定所述待检索图像的全局特征向量;以及基于所述局部特征向量和所述全局特征向量,确定与所述待检索图像的相似度高于预定阈值的图像。

【技术实现步骤摘要】
用于检索图像的方法、电子设备和计算机可读存储介质
本公开涉及图像处理领域,且更具体地涉及用于检索图像的方法、电子设备和计算机可读存储介质。
技术介绍
深度学习是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。例如,在传统的图像检索技术中,通常可利用图像的底层可视化特征来进行检索。但是由于底层特征与高层语义之间存在“语义鸿沟”问题,导致图像检索效果不满意。相对地,在基于深度学习的图像检索技术中,可以使用卷积神经网络(CNN)来进行图像检索,其具有强大的学习能力、高效的特征表达能力,能够从像素级原始数据到抽象的语义概念逐层提取信息。这使得它在提取图像的全局特征和上下文信息方面具有突出的优势,可以通过组合低级的特征形成更加抽象的高层表示属性类别或者特征,在图像检索中获得好的效果。
技术实现思路
然而,由于视角、距离、光照等因素的变化而经常导致图像检索的结果并不能令人十分满意,因此需要一种能够提高图像检索准确度的方案。为了至少部分解决或减轻上述问题,提供了根据本公开实施例的用于检索图像的方法、设备和计算机可读存储介质。根据本公开的第一方面,提供了一种用于检索图像的方法。该方法包括:使用第一神经网络来处理待检索图像,以确定所述待检索图像的局部特征向量;使用第二神经网络来处理所述待检索图像,以确定所述待检索图像的全局特征向量;以及基于所述局部特征向量和所述全局特征向量,确定与所述待检索图像的相似度高于预定阈值的图像。在一些实施例中,所述第一神经网络是使用图像的具有不同分辨率的多个图像数据来训练和/或使用的。在一些实施例中,具有不同分辨率的多个图像数据的最短边的像素数目包括以下各项中的至少两项:256、384、512、640和768。在一些实施例中,所述第一神经网络包括以下各层:具有维度为11*11*3的96个卷积核的第一卷积层;具有维度为5*5*96的256个卷积核的第二卷积层;具有维度为3*3*256的384个卷积核的第三卷积层;具有维度为3*3*384的384个卷积核的第四卷积层;具有维度为3*3*384的256个卷积核的第五卷积层;具有维度为1*1*256的4096个卷积核的第六卷积层;以及具有维度为13*13*4096的4096个卷积核的第七卷积层。在一些实施例中,所述第一神经网络还包括在所述第七卷积层之后的空间变换网络。在一些实施例中,所述第一神经网络还包括在所述第七卷积层之后的最大池化层和求和池化层。在一些实施例中,所述第一神经网络是通过使用以下损失函数来训练的:其中,Lt表示针对所述第一神经网络的损失函数,ya是标准图像的特征向量,yp是正样本的特征向量,yn是负样本的特征向量,表示向量的2范数的平方,max()表示取最大值函数,以及α为余量值。在一些实施例中,α具有如下定义:在一些实施例中,使用第一神经网络来处理待检索图像,以确定所述待检索图像的局部特征向量的步骤包括:使用所述第一神经网络中的各个卷积层来处理所述待检索图像的具有不同分辨率的多个待检索图像数据,并确定作为输出的针对各个分辨率的多个特征图中相应具有最大激活值的多个感受野;以及使用所述第一神经网络中的求和池化层来处理所述多个感受野,以确定所述局部特征向量。在一些实施例中,所述第二神经网络包括以下各层:具有维度为11*11*3的96个卷积核的第一卷积层;具有维度为5*5*96的256个卷积核的第二卷积层;具有维度为3*3*256的384个卷积核的第三卷积层;具有维度为3*3*384的384个卷积核的第四卷积层;具有维度为3*3*384的256个卷积核的第五卷积层;维度为1*4096的第一全连接层;以及维度为1*4096的第二全连接层。在一些实施例中,所述第二神经网络在所述第五卷积层和所述第一全连接层之间还具有空间变换网络。在一些实施例中,在训练所述第二神经网络时使用的损失函数是以下损失函数:其中,Ls表示针对所述第二神经网络的损失函数,y1、y2分别是两个样本图像的特征向量,y是指示所述两个样本图像是否相似的正确标注,表示向量的2范数的平方,max()表示取最大值函数,以及m为超参数。在一些实施例中,在同时训练所述第一神经网络和所述第二神经网络时使用的损失函数是以下损失函数:L=Lt+λLs其中,L是总损失函数,Lt表示针对所述第一神经网络的损失函数,以及Ls表示针对所述第二神经网络的损失函数,其中,ya是标准图像的特征向量,yp是正样本的特征向量,yn是负样本的特征向量,表示向量的2范数的平方,max()表示取最大值函数,α为余量值,y1、y2分别是两个样本图像的特征向量,y是指示所述两个输入图像是否相似的正确标注,表示向量的2范数的平方,以及m为超参数。根据本公开的第二方面,提供了一种用于检索图像的电子设备,包括:处理器;存储器,其上存储有指令,所述指令在由所述处理器执行时,使得所述处理器执行前述任一方法。根据本公开的第三方面,提供了一种存储指令的计算机可读存储介质。所述指令在由一个或多个处理器执行时,使得所述一个或多个处理器执行前述方法。通过使用根据本公开实施例的用于检索图像的方法、电子设备和计算机可读存储介质,可以更加准确、高效地进行图像检索,并提高神经网络训练效率。附图说明通过下面结合附图说明本公开的优选实施例,将使本公开的上述及其它目的、特征和优点更加清楚,其中:图1是示出了根据本公开实施例的用于检索图像的示例方案的示意图。图2是示出了根据本公开实施例的第一神经网络的示例示意图。图3是示出了根据本公开实施例的第二神经网络的示例示意图。图4是示出了根据本公开实施例的用于检索图像的示例方法的流程图。图5是示出了根据本公开实施例的用于检索图像的电子设备的示例硬件布置的框图。具体实施方式下面参照附图对本公开的优选实施例进行详细说明,在描述过程中省略了对于本公开来说是不必要的细节和功能,以防止对本公开的理解造成混淆。在本说明书中,下述用于描述本公开原理的各种实施例只是说明,不应该以任何方式解释为限制公开的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本公开的示例性实施例。下述描述包括多种具体细节来帮助理解,但这些细节应认为仅仅是示例性的。因此,本领域普通技术人员应认识到,在不脱离本公开的范围和精神的情况下,可以对本文中描述的实施例进行多种改变和修改。此外,为了清楚和简洁起见,省略了公知功能和结构的描述。此外,贯穿附图,相同的附图标记用于相同或相似的功能和操作。随着互联网的普及,图像检索已经成为了人们学习和生活中所使用的重要应用之一。例如,当用户通过网络进行购物时,可以通过向搜索引擎提交想要购买的物品的照片来进行搜索。又例如,在安保领域,当安保人员想要查找监控视频中出现的某个人时,也可以通过图像检索在数据库中进行查找。因此,图像检索的应用领域非常广泛。如前所述,随着近来对神经网络的研究的推进,已经发现可以使用例如卷积神经网络(CNN)对图像的特征进行学习并提取,从而可以实现高效的图像检索功能。以下将简要介绍卷积神经网络。Hubel和Wiesel等人在1950年和1960年的研究表明:猫和猴子的视觉皮层中包含单独对视野中的小区本文档来自技高网...

【技术保护点】
1.一种用于检索图像的方法,包括:使用第一神经网络来处理待检索图像,以确定所述待检索图像的局部特征向量;使用第二神经网络来处理所述待检索图像,以确定所述待检索图像的全局特征向量;以及基于所述局部特征向量和所述全局特征向量,确定与所述待检索图像的相似度高于预定阈值的图像。

【技术特征摘要】
1.一种用于检索图像的方法,包括:使用第一神经网络来处理待检索图像,以确定所述待检索图像的局部特征向量;使用第二神经网络来处理所述待检索图像,以确定所述待检索图像的全局特征向量;以及基于所述局部特征向量和所述全局特征向量,确定与所述待检索图像的相似度高于预定阈值的图像。2.根据权利要求1所述的方法,其中,所述第一神经网络是使用图像的具有不同分辨率的多个图像数据来训练和/或使用的。3.根据权利要求2所述的方法,其中,具有不同分辨率的多个图像数据的最短边的像素数目包括以下各项中的至少两项:256、384、512、640和768。4.根据权利要求1所述的方法,其中,所述第一神经网络包括以下各层:具有维度为11*11*3的96个卷积核的第一卷积层;具有维度为5*5*96的256个卷积核的第二卷积层;具有维度为3*3*256的384个卷积核的第三卷积层;具有维度为3*3*384的384个卷积核的第四卷积层;具有维度为3*3*384的256个卷积核的第五卷积层;具有维度为1*1*256的4096个卷积核的第六卷积层;以及具有维度为13*13*4096的4096个卷积核的第七卷积层。5.根据权利要求3所述的方法,其中,所述第一神经网络还包括在所述第七卷积层之后的最大池化层和求和池化层。6.根据权利要求1所述的方法,其中,所述第一神经网络是通过使用以下损失函数来训练的:其中,Lt表示针对所述第一神经网络的损失函数,yα是标准图像的特征向量,yp是正样本的特征向量,yn是负样本的特征向量,表示向量的2范数的平方,max()表示取最大值函数,以及α为余量值。7.根据权利要求6所述的方法,其中,α具有如下定义:8.根据权利要求1所述的方法,其中,使用第一神经网络来处理待检索图像,以确定所述待检索图像的局部特征向量的步骤包括:使用所述第一神经网络中的各个卷积层来处理所述待检索图像的具有不同分辨率的多个待检索图像数据,并确定作为输出的针对各个分辨率的多个特征图中相应具有最大激活值的多个...

【专利技术属性】
技术研发人员:王婷婷
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1