The invention provides a high precision clothing image retrieval method and system based on visual attention model, the method includes steps: extracting feature map to input image retrieval, feature map extraction floating point number of fixed size components using the depth neural network; attention to map extraction steps: image retrieval using input. Full depth convolutional neural network to extract the attention; attention with steps: the input of the feature map and attention diagram combined with attention, feature image; feature vector mapping steps: the input feature map and attention characteristic map, use the depth of the neural network is mapped into the image feature vector of fixed length; similar image retrieval steps. The system includes modules corresponding to each of the steps. The invention can extract the attention characteristics of the input image by using the visual attention model, and combine with the global features to form the features of multiple perspectives, so as to carry out the high-precision image retrieval.
【技术实现步骤摘要】
基于视觉注意力模型的高精度服装图像检索方法及系统
本专利技术涉及一种计算机视觉和图像处理领域的方法和系统,具体地,涉及一种基于视觉注意力模型的高精度服装图像检索方法及系统。
技术介绍
近年来,随着电子商务的发展,服装检索技术由于其对网上购物的帮助而飞速发展。现存的较为成熟的技术一般都是基于关键词的服装检索,由于关键词无法完全地描述商品,在很多情况下消费者没有办法只通过关键词来准确地检索出其所需的商品。为了解决这样的问题,为消费者提供更准确的检索服务,基于图像的服装检索技术被提出和广泛研究。但是由于服装种类过多以及服装图像本身一般经常带有过多背景等无用信息,服装图像检索一直是一个具有挑战性的问题。随着深度神经网络在图像处理领域逐渐发展,很多服装图像检索技术都开始采用深度神经网络检索图像,并取得了不错的效果。它们一般都是直接将整幅图像输入到深度神经网络中,映射成为特征向量,再通过特征向量之间的距离计算图像之间的相似度,从而完成检索工作。上述这些工作大部分都是直接整幅图像直接输入到神经网络,而一般的服装图像中都会带有干扰,如背景,遮挡等,这些都会对神经网络产生影响。也有一些工作使用人为设定的一些关键点对图像进行特征增强,但是这种方式会受到数据集的制约,如果没有大量的带有关键点信息的数据集,就无法准确提取出关键点位置,甚至可能导致负面效果。除此之外,人为设定的关键信息不一定是适合神经网络算法进行检索的。经检索,公开号为CN106250423A的中国专利技术专利,公开一种基于部分参数共享的深度卷积神经网络跨域服装检索方法。该方法利用了深度神经网络模型中越高层的网络层 ...
【技术保护点】
一种基于视觉注意力模型的高精度服装图像检索方法,其特征在于包括:特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;注意力结合步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力图提取步骤得到的注意力图进行结合,得到注意力特征图;特征向量映射步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力结合步骤得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;相似图像检索步骤:根据所述特征向量映射步骤得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。
【技术特征摘要】
1.一种基于视觉注意力模型的高精度服装图像检索方法,其特征在于包括:特征图提取步骤:对输入的待检索图片,使用深度神经网络提取固定大小的浮点数组成的特征图;注意力图提取步骤:对输入的待检索图片,使用全卷积深度神经网络提取固定大小的0到1之间浮点数组成的注意力图;注意力结合步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力图提取步骤得到的注意力图进行结合,得到注意力特征图;特征向量映射步骤:对输入的所述特征图提取步骤得到的特征图和所述注意力结合步骤得到的注意力特征图,使用深度神经网络映射成为固定长度的图像特征向量;相似图像检索步骤:根据所述特征向量映射步骤得到的图像特征向量使用欧氏距离来计算图像之间的相似度,从而检索出最相似图像。2.根据权利要求1所述的基于视觉注意力模型的高精度图像检索方法,其特征在于,所述注意力图提取步骤,其中:运用了小数量的服装分割数据集进行预训练,能够对输入的任意图片提取出0到1之间浮点数组成的注意力图,注意力图中的数值大小代表该区域在原图像中是衣服的可能性,该步骤能够在整个方法进行端到端训练的过程中被继续学习优化。3.根据权利要求1所述的基于视觉注意力模型的高精度图像检索方法,其特征在于,所述注意力结合步骤,其中:在训练时,使用注意力图中的注意力作为概率对特征图中对应区域在通道维度上进行随机舍弃,生成注意力特征图;在测试时,使用注意力图中的注意力作为权值乘以特征图中对应区域在通道维度上的所有数值,生成注意力特征图。4.根据权利要求3所述的基于视觉注意力模型的高精度图像检索方法,其特征在于,所述注意力结合步骤,其具体如下:在注意力图中的每个点都被视作特征图中对应区域重要的概率,利用这个概率在特征图上对应的位置随机将特征图上的值进行丢弃,产生注意力特征图;首先利用注意力图中的注意力值pij作为概率产生一个伯努利数列bij:P(bij(c)=k)=pijk(1-pij)1-k,k=0or1,c=1…channel其中c是向量在通道维度的索引,channel是特征图在通道维度上的长度,i是高度维度上的索引,j是宽度维度上的索引,bij(c)是伯努利数列在ij位置c通道上的随机变量的一个采样,k是采样值的一种取值,p是注意力图中的值,pij是注意力图在ij位置上的值,P(bij(c)=k)表示随机事件bij(c)=k发生的概率,上标k为指数函数的指数;在系统训练阶段,正向传播过程中,对bij和对应位置的特征向量xij对应位置作乘法,得到的结果yij,公式如下:yij=xij·bij其中xij为特征图在ij位置上的向量,bij为伯努利数列在ij位置上的多元随机变量的一个采样,yij为注意力特征图在ij位置上的向量;在反向传播时,有两个方向的回传梯度:损失函数关于特征图的回传梯度与损失函数关于注意力图的回传梯度损失函数关于特征图的回传梯度的计算公式如下:其中Loss是损失函数,是损失函数关于特征图在ij位置上的回传梯度,是损失函数关于注意力特征图在ij位置上的回传梯度;损失函数关于注意力图的回传梯度的计算公式如下:其中是损失函数关于注意力图在ij位置上的回传梯度,xij(c)是xij为特征图在ij位置c通道上的向量,是损失函数关于注意力特征图在ij位置c通道上的回传梯度;在系统测试阶段,注意力结合的随机性被去除,采用直接相乘的方式将注意力图与特征图相连:yij=pijxij。5.根据权利要求1-4任一项所述的基于视觉注意力模型的高精度图像检索方法,其特征在于,所述特征向量映射步骤,包含两支共享权值的深度神经网络:全局分支和注意力分支,能够分别将特征图和注意力特征图映射成为全局特征向量和注意力特征向量,并拼接在一起作为输入图像的特征向量。6.一种基于视觉注意力模型的高...
【专利技术属性】
技术研发人员:张娅,王仲豪,顾宇俊,王延峰,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。