一种基于深度学习的服装检索方法技术

技术编号:22167076 阅读:46 留言:0更新日期:2019-09-21 10:39
本发明专利技术公开了一种基于深度学习的服装检索方法,该方法利用可变形卷积网络和相似性学习网络实现服装检索功能,设置了包含可变形卷积网络和相似性学习网络的两阶段学习架构,在可变形卷积网络中,学习并提取服装特征,利用哈希编码对特征进行表达,进一步在相似性学习网络中,对哈希编码特征进行比对,获得特征的相似性比对评分结果,该方法能够有效地检索出各种形状特征的服装目标,得到视觉一致性的检索结果。

A Clothing Retrieval Method Based on Deep Learning

【技术实现步骤摘要】
一种基于深度学习的服装检索方法
本专利技术涉及服装检索
,具体涉及一种基于深度学习的服装检索方法,采用包含可变形卷积网络和相似性学习网络的两阶段学习架构,在可变形卷积网络中,学习并提取服装特征,利用哈希编码对特征进行表达,进一步在相似性学习网络中,对哈希编码特征进行比对,获得比对特征的相似性评分结果,该方法能够有效地检索出各种形状特征的服装目标,得到视觉一致性的检索结果。
技术介绍
传统的服装检索方法包括基于文本的方式和基于内容的方式,基于文本的方式不仅费时费力,且存在较大的主观差异性,而在基于内容的方式中,服装图像的低层视觉特征很难充分描述它的高层语义信息,无法保证查询图像和检索结果之间的视觉一致性;近年来,一些基于深度学习的服装检索方法可以有效地学习服装图像的高低层特征,实现服装图像的检索;如何建立有效的深度学习模型实现服装检索是一个亟待解决的实际问题。
技术实现思路
本专利技术的目的是针对现有技术的不足,并针对服装检索中服装目标几何变形问题和视觉一致性问题,利用深度学习策略,构建卷积神经网络,提供一种有效的服装检索方法,该方法能够获得较为准确的检索结果,具有更高的实用价值。实现本专利技术目的的具体技术方案是:一种基于深度学习的服装检索方法,其特征在于,该方法输入分辨率为f×f的RGB图像I,100≤f≤1000,具体包括以下步骤:步骤1:构建服装数据集F从taobao.com网站收集J个单件服装样例,10000≤J≤15000,将收集的J个单件服装样例与http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html提供的DeepFashion数据集合并,得到包含有M个单件服装样例的初始数据集T,80000≤M≤100000,利用T构建服装样例数据集R,R中服装种类数目为U,15≤U≤20,每个服装样例是同一件服装的采样信息,其包含三类信息:具有环境背景的一幅服装图像B、该服装无环境背景的多幅图像{Ek|2≤k≤10}以及此件服装的种类标签Oi,1≤i≤U;进一步按照以下方法构建服装数据集F:F的每个样本的形式定义为三元组(Pi,Qi,li),1≤i≤500000,其中,Pi是从R中选取的B,将其尺度缩放为N×N,N为227、454或者908,Qi是从R中选取的任意样例数据的无环境背景服装图像,将其尺度也缩放为N×N,li是Pi与Qi相似性标签,li取值为0或者1,当Pi与Qi来自于R的同一组样例时,即是相同服装的两幅图像时,li取1,否则取0;步骤2:构建神经网络神经网络构建分为服装特征学习网络F-Net及相似性学习网络S-Net;对于F-Net,先从F中选取Pi或者Qi作为输入,其尺度为227×227,张量形状为227×227×3,F-Net网络的输出有两个部分:一个是来自于F-Net中间层的哈希编码,即Pi的哈希编码HP或者Qi的哈希编码HQ,张量形状为h×1,h为64、128或者256,另一个输出是网络最后一层输出的Pi或者Qi的服装类别特征,张量形状为U×1;对于S-Net,输入的是两个哈希编码HP及HQ,输出的是Pi与Qi相似性的比对结果C,其张量形状为2×1,张量的两个分量分别表示Pi与Qi之间的相似程度及不相似程度,相似程度记为评分V;对于F-Net设置为5个卷积层和4个全连接层,对于前三层卷积得到的特征分别增加一个偏移量,偏移量的张量尺度与特征尺度相同;5个卷积层设计为5个卷积子结构,各层卷积核的个数依次为96、256、384、384、256,前3个子结构都包括以下序列操作:卷积、批归一化、加上偏移量、激活、最大池化,后2个子结构都包括以下序列操作:卷积、激活、最大池化,4个全连接层的神经元的个数分别为4096、4096、h、U,倒数第二层全连接层的神经元个数为h,这一层得到的特征是输入图像的哈希编码结果,最后一层全连接层的神经元个数为U,这一层输出的特征是服装类别特征,F-Net中都采用ReLU激活函数进行处理;对于S-Net设置为3层全连接结构,神经元的个数分别为G、G、2,其中G为512、1024或者2048,前两个全连接层输出的结果进一步采用ReLU函数进行激活;步骤3:神经网络的训练将数据集F中的样本按照7∶1∶2比例划分为训练数据集,评估数据集和测试数据集,利用训练数据集训练网络模型,利用评估数据集评估训练过程中网络的性能,利用测试数据集对网络性能进行测试;首先对F-Net训练50000轮次,训练结束后,再对S-Net进行训练50000轮次,在训练S-Net时,每次训练过程需要输入的是Pi及Qi的编码HP和HQ;在对F-Net进行训练时,损失函数eF定义为:其中,ai是F-Net在最后一个全连接层的U个神经元中得到的第i个类别特征;在对S-Net进行训练时,损失函数eS定义为:其中,bi是S-Net在最后一个全连接层的2个神经元中得到的类别特征,其形状为2×1,yi表示Pi及Qi的相似性,yi形状为2×1,它的两个分量分别表示Pi与Qi之间的相似程度及不相似程度的标签,如果相似,相似程度的分量取1,不相似程度的分量取0,而当Pi与Qi不相似时,相似程度的分量取0,不相似程度的分量取1;步骤4:服装检索操作构建一个服装检索数据集S,其中服装分辨率为f×f,100≤f≤1000,将S中的每一幅服装图像都缩放为227×227,再将S中的每幅图像依次输入到F-Net,分别得到每幅图像的哈希编码,并写入磁盘文件code.txt进行保存;从数据集S中选取I,根据I到磁盘文件code.txt中检索I的哈希编码K,K与磁盘文件code.txt中每个服装的哈希编码,分别多个哈希编码对,将这些哈希编码对依次输入到S-Net中进行预测,得到每次比对的相似性评分,再将这些评分进行降序排列,从中选取最优的检索结果。本专利技术具有简单、实用的特点,本专利技术包含可变形卷积网络和相似性学习网络的两阶段学习架构,在可变形卷积网络中,学习并提取服装特征,利用哈希编码对特征进行表达,进一步在相似性学习网络中,对哈希编码特征进行比对,获得比对特征的相似性评分结果,该方法能够有效地检索出各种形状特征的服装目标,得到视觉一致性的检索结果。附图说明图1为本专利技术服装相似性评分及检索的结果图;图2为本专利技术服装相似及不相似检索的结果图。具体实施方式实施例下面结合附图对本专利技术进一步说明。本实施例在PC机上Ubuntu16.0464位操作系统下进行实施,其硬件配置是CPUi5-7500,内存8G,GPUNVIDIAGeForceGTX10708G;深度学习框架采用Caffe,编程语言采用Python2.7。实现本专利技术目的的具体技术方案是:一种基于深度学习的服装检索方法,同时考虑服装目标的几何变形及查询图像和检索结果之间的视觉一致性的情况下,该方法输入分辨率为227×227的RGB图像I,具体包括以下步骤:步骤1:构建服装数据集F从taobao.com网站收集J个单件服装样例,J为11384,将收集的J个单件服装样例与http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html提供的DeepFashion数据集合并,得到包含有M个单件服装本文档来自技高网...

【技术保护点】
1.一种基于深度学习的服装检索方法,其特征在于,该方法输入分辨率为f×f的RGB图像I,100≤f≤1000,具体包括以下步骤:步骤1:构建服装数据集F从taobao.com网站收集J个单件服装样例,10000≤J≤15000,将收集的J个单件服装样例与http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html提供的DeepFashion数据集合并,得到包含有M个单件服装样例的初始数据集T,80000≤M≤100000,利用T构建服装样例数据集R,R中服装种类数目为U,15≤U≤20,每个服装样例是同一件服装的采样信息,其包含三类信息:具有环境背景的一幅服装图像B、该服装无环境背景的多幅图像{Ek|2≤k≤10}以及此件服装的种类标签Oi,1≤i≤U;构建服装数据集F:F的每个样本的形式定义为三元组(Pi,Qi,li),1≤i≤500000,其中,Pi是从R中选取的B,将其尺度缩放为N×N,N为227、454或者908,Qi是从R中选取的任意样例数据的无环境背景服装图像,将其尺度也缩放为N×N,li是Pi与Qi相似性标签,li取值为0或者1,当Pi与Qi来自于R的同一组样例时,即是相同服装的两幅图像时,li取1,否则取0;步骤2:构建神经网络神经网络构建分为服装特征学习网络F‑Net及相似性学习网络S‑Net;对于F‑Net,先从F中选取Pi或者Qi作为输入,其尺度为227×227,张量形状为227×227×3,F‑Net网络的输出有两个部分:一个是来自于F‑Net中间层的哈希编码,即Pi的哈希编码Hp或者Qi的哈希编码HQ,张量形状为h×1,h为64、128或者256,另一个输出是网络最后一层输出的Pi或者Qi的服装类别特征,张量形状为U×1;对于S‑Net,输入的是两个哈希编码Hp及HQ,输出的是Pi与Qi相似性的比对结果C,其张量形状为2×1,张量的两个分量分别表示Pi与Qi之间的相似程度及不相似程度,相似程度记为评分V;对于F‑Net设置为5个卷积层和4个全连接层,对于前三层卷积得到的特征分别增加一个偏移量,偏移量的张量尺度与特征尺度相同;5个卷积层设计为5个卷积子结构,各层卷积核的个数依次为96、256、384、384、256,前3个子结构都包括以下序列操作:卷积、批归一化、加上偏移量、激活、最大池化,后2个子结构都包括以下序列操作:卷积、激活、最大池化,4个全连接层的神经元的个数分别为4096、4096、h、U,倒数第二层全连接层的神经元个数为h,这一层得到的特征是输入图像的哈希编码结果,最后一层全连接层的神经元个数为U,这一层输出的特征是服装类别特征,F‑Net中都采用ReLU激活函数进行处理;对于S‑Net设置为3层全连接结构,神经元的个数分别为G、G、2,其中G为512、1024或者2048,前两个全连接层输出的结果进一步采用ReLU函数进行激活;步骤3:神经网络的训练将数据集F中的样本按照7∶1∶2比例划分为训练数据集,评估数据集和测试数据集,利用训练数据集训练网络模型,利用评估数据集评估训练过程中网络的性能,利用测试数据集对网络性能进行测试;首先对F‑Net训练50000轮次,训练结束后,再对S‑Net进行训练50000轮次,在训练S‑Net时,每次训练过程需要输入的是Pi及Qi的编码HP和HQ;在对F‑Net进行训练时,损失函数eF定义为:...

【技术特征摘要】
1.一种基于深度学习的服装检索方法,其特征在于,该方法输入分辨率为f×f的RGB图像I,100≤f≤1000,具体包括以下步骤:步骤1:构建服装数据集F从taobao.com网站收集J个单件服装样例,10000≤J≤15000,将收集的J个单件服装样例与http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html提供的DeepFashion数据集合并,得到包含有M个单件服装样例的初始数据集T,80000≤M≤100000,利用T构建服装样例数据集R,R中服装种类数目为U,15≤U≤20,每个服装样例是同一件服装的采样信息,其包含三类信息:具有环境背景的一幅服装图像B、该服装无环境背景的多幅图像{Ek|2≤k≤10}以及此件服装的种类标签Oi,1≤i≤U;构建服装数据集F:F的每个样本的形式定义为三元组(Pi,Qi,li),1≤i≤500000,其中,Pi是从R中选取的B,将其尺度缩放为N×N,N为227、454或者908,Qi是从R中选取的任意样例数据的无环境背景服装图像,将其尺度也缩放为N×N,li是Pi与Qi相似性标签,li取值为0或者1,当Pi与Qi来自于R的同一组样例时,即是相同服装的两幅图像时,li取1,否则取0;步骤2:构建神经网络神经网络构建分为服装特征学习网络F-Net及相似性学习网络S-Net;对于F-Net,先从F中选取Pi或者Qi作为输入,其尺度为227×227,张量形状为227×227×3,F-Net网络的输出有两个部分:一个是来自于F-Net中间层的哈希编码,即Pi的哈希编码Hp或者Qi的哈希编码HQ,张量形状为h×1,h为64、128或者256,另一个输出是网络最后一层输出的Pi或者Qi的服装类别特征,张量形状为U×1;对于S-Net,输入的是两个哈希编码Hp及HQ,输出的是Pi与Qi相似性的比对结果C,其张量形状为2×1,张量的两个分量分别表示Pi与Qi之间的相似程度及不相似程度,相似程度记为评分V;对于F-Net设置为5个卷积层和4个全连接层,对于前三层卷积得到的特征分别增加一个偏移量,偏移量的张量尺度与特征尺度相同;5个卷积层设计为5个卷积子结构,各层卷积核的个数依次为96、256、384、38...

【专利技术属性】
技术研发人员:全红艳王振
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1