基于视觉注意力模型的高精度服装图像检索方法及系统技术方案

技术编号:16456465 阅读:63 留言:0更新日期:2017-10-25 20:51
本发明专利技术提供一种基于视觉注意力模型的高精度服装图像检索方法及系统,所述方法包括:特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取注意力图;注意力结合步骤:对输入的特征图和注意力图进行结合,得到注意力特征图;特征向量映射步骤:对输入的特征图和注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;相似图像检索步骤。所述系统包括与所述各步骤相对应的模块。本发明专利技术能够对输入图像利用视觉注意力模型提取出注意力特征,并与全局特征拼接形成多个视角的特征,从而进行高精度的图像检索。

High precision clothing image retrieval method and system based on visual attention model

The invention provides a high precision clothing image retrieval method and system based on visual attention model, the method includes steps: extracting feature map to input image retrieval, feature map extraction floating point number of fixed size components using the depth neural network; attention to map extraction steps: image retrieval using input. Full depth convolutional neural network to extract the attention; attention with steps: the input of the feature map and attention diagram combined with attention, feature image; feature vector mapping steps: the input feature map and attention characteristic map, use the depth of the neural network is mapped into the image feature vector of fixed length; similar image retrieval steps. The system includes modules corresponding to each of the steps. The invention can extract the attention characteristics of the input image by using the visual attention model, and combine with the global features to form the features of multiple perspectives, so as to carry out the high-precision image retrieval.

【技术实现步骤摘要】
基于视觉注意力模型的高精度服装图像检索方法及系统
本专利技术涉及一种计算机视觉和图像处理领域的方法和系统,具体地,涉及一种基于视觉注意力模型的高精度服装图像检索方法及系统。
技术介绍
近年来,随着电子商务的发展,服装检索技术由于其对网上购物的帮助而飞速发展。现存的较为成熟的技术一般都是基于关键词的服装检索,由于关键词无法完全地描述商品,在很多情况下消费者没有办法只通过关键词来准确地检索出其所需的商品。为了解决这样的问题,为消费者提供更准确的检索服务,基于图像的服装检索技术被提出和广泛研究。但是由于服装种类过多以及服装图像本身一般经常带有过多背景等无用信息,服装图像检索一直是一个具有挑战性的问题。随着深度神经网络在图像处理领域逐渐发展,很多服装图像检索技术都开始采用深度神经网络检索图像,并取得了不错的效果。它们一般都是直接将整幅图像输入到深度神经网络中,映射成为特征向量,再通过特征向量之间的距离计算图像之间的相似度,从而完成检索工作。上述这些工作大部分都是直接整幅图像直接输入到神经网络,而一般的服装图像中都会带有干扰,如背景,遮挡等,这些都会对神经网络产生影响。也有一些工作使用人为设定的一些关键点对图像进行特征增强,但是这种方式会受到数据集的制约,如果没有大量的带有关键点信息的数据集,就无法准确提取出关键点位置,甚至可能导致负面效果。除此之外,人为设定的关键信息不一定是适合神经网络算法进行检索的。经检索,公开号为CN106250423A的中国专利技术专利,公开一种基于部分参数共享的深度卷积神经网络跨域服装检索方法。该方法利用了深度神经网络模型中越高层的网络层的特征越具有语义信息,与训练数据所在域的关系越密切,越低层的网络层的特征越具有一般性,越与训练数据所在域无关,依此让传统的深度卷积神经网络跨域服装检索模型中的低层的网络层参数共享,而高层的网络层参数由各个域保有。但上述专利未对服装图像中的干扰进行主动地处理,如根据关键点信息或注意力模型对图像进行特征增强等,未能提升传统服装检索方法的效果。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于视觉注意力模型的高精度服装图像检索方法及系统,使用注意力图提取模块对输入服装图像提取注意力图,并利用注意力图对深度神经网络提取的特征进行增强,从而得到高精度的图像检索结果。根据本专利技术的第一目的,提供一种基于视觉注意力模型的高精度服装图像检索方法,包括:特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;注意力结合步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力图提取步骤得到的注意力图进行结合,得到注意力特征图;特征向量映射步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力结合步骤得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;相似图像检索步骤:根据所述特征向量映射步骤得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。本专利技术所述的基于视觉注意力模型的高精度图像检索方法,是能够进行端到端训练的。优选地,所述注意力图提取步骤,运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该区域在原图像中是衣服的可能性,该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。优选地,所述注意力结合模块,在对模型进行训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图。优选地,所述特征向量映射步骤,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。根据本专利技术的第二目的,提供一种基于视觉注意力模型的高精度服装图像检索系统,包括:特征图提取模块:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;注意力图提取模块:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;注意力结合模块:对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力图进行结合,得到注意力特征图;特征向量映射模块:对输入的所述特征图提取模块得到的特征图和所述注意力图提取模块得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;相似图像检索模块:根据所述特征向量映射模块得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。优选地,所述注意力图提取模块,其中:运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该区域在原图像中是衣服的可能性,该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。优选地,所述注意力结合模块,其中:在训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图。优选地,所述特征向量映射模块,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。与现有技术相比,本专利技术具有如下的有益效果:本专利技术对输入图像利用视觉注意力模型提取出注意力特征,并与全局特征拼接形成多个视角的特征,从而进行高精度的图像检索。进一步的,本专利技术中注意力图提取模块能够对输入图像提取注意力图,注意力图会显示输入图像各个部分的重要程度,在注意力图的影响下,输入图像的干扰信息就会被削弱,神经网络能够提取更纯粹的特征向量,从而大大提升图像检索的准确度。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术一实施例中方法流程图;图2为本专利技术一实施例中方法具体流程图;图3为本专利技术一实施例中注意力结合模块结构图;图4为本专利技术一实施例中图像检索结果页面示意图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变形和改进。这些都属于本专利技术的保护范围。如图1所示,为本专利技术一种基于视觉注意力模型的高精度服装图像检索方法实施例的流程图,该方法将输入图像处理成为特征图与注意力图,并使用注意力结合步骤将注意力图与特征图结合成为注意力特征图,分别将特征图和注意力特征图映射成为全局特征和注意力特征,最后利用特征之间的距离计算相似度,找到最相似图片完成检索任务。具体的,参照图1,所述方法包括如下步骤:特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;注意力图本文档来自技高网
...
基于视觉注意力模型的高精度服装图像检索方法及系统

【技术保护点】
一种基于视觉注意力模型的高精度服装图像检索方法,其特征在于包括:特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;注意力结合步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力图提取步骤得到的注意力图进行结合,得到注意力特征图;特征向量映射步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力结合步骤得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;相似图像检索步骤:根据所述特征向量映射步骤得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。

【技术特征摘要】
1.一种基于视觉注意力模型的高精度服装图像检索方法,其特征在于包括:特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;注意力结合步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力图提取步骤得到的注意力图进行结合,得到注意力特征图;特征向量映射步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力结合步骤得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;相似图像检索步骤:根据所述特征向量映射步骤得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。2.根据权利要求1所述的基于视觉注意力模型的高精度图像检索方法,其特征在于,所述注意力图提取步骤,其中:运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该区域在原图像中是衣服的可能性,该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。3.根据权利要求1所述的基于视觉注意力模型的高精度图像检索方法,其特征在于,所述注意力结合步骤,其中:在训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图。4.根据权利要求3所述的基于视觉注意力模型的高精度图像检索方法,其特征在于,所述注意力结合步骤,其具体如下:在注意力图中的每个点都被视作特征图中对应区域重要的概率,利用这个概率在特征图上对应的位置随机将特征图上的值进行丢弃,产生注意力特征图;首先利用注意力图中的注意力值pij作为概率产生一个伯努利数列bij:P(bij(c)=k)=pijk(1-pij)1-k,k=0or1,c=1…channel其中c是向量在通道维度的索引,channel是特征图在通道维度上的长度,i是高度维度上的索引,j是宽度维度上的索引,bij(c)是伯努利数列在ij位置c通道上的随机变量的一个采样,k是采样值的一种取值,p是注意力图中的值,pij是注意力图在ij位置上的值,P(bij(c)=k)表示随机事件bij(c)=k发生的概率,上标k为指数函数的指数;在系统训练阶段,正向传播过程中,对bij和对应位置的特征向量xij对应位置作乘法,得到的结果yij,公式如下:yij=xij·bij其中xij为特征图在ij位置上的向量,bij为伯努利数列在ij位置上的多元随机变量的一个采样,yij为注意力特征图在ij位置上的向量;在反向传播时,有两个方向的回传梯度:损失函数关于特征图的回传梯度与损失函数关于注意力图的回传梯度损失函数关于特征图的回传梯度的计算公式如下:其中Loss是损失函数,是损失函数关于特征图在ij位置上的回传梯度,是损失函数关于注意力特征图在ij位置上的回传梯度;损失函数关于注意力图的回传梯度的计算公式如下:其中是损失函数关于注意力图在ij位置上的回传梯度,xij(c)是xij为特征图在ij位置c通道上的向量,是损失函数关于注意力特征图在ij位置c通道上的回传梯度;在系统测试阶段,注意力结合的随机性被去除,采用直接相乘的方式将注意力图与特征图相连:yij=pijxij。5.根据权利要求1-4任一项所述的基于视觉注意力模型的高精度图像检索方法,其特征在于,所述特征向量映射步骤,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。6.一种基于视觉注意力模型的高...

【专利技术属性】
技术研发人员:张娅王仲豪顾宇俊王延峰
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1