基于语义对抗网络的零样本草图检索方法技术

技术编号：21971463 阅读：54 留言：0更新日期：2019-08-28 01:28

本发明专利技术提出了一种基于语义对抗网络的零样本草图检索方法，主要解决现有技术草图类内方差较大和零样本设置下视觉知识难以从已知类迁移到未见类的问题。其方案为：获取训练样本集；构建语义对抗网络，通过VGG16网络提取RGB图像特征；构建生成网络以生成具有判别性的RGB图像特征；将待检索的草图输入语义对抗网络生成语义特征，将语义特征和随机高斯噪声输入生成网络中生成RGB图像特征，在图像检索库中寻找与RGB图像特征最相似的前200张图像得到检索结果。本发明专利技术降低了草图图像特征的类内方差，能保证每个类别中根据草图图像生成的RGB图像特征，提高了零样本草图检索的检索性能，可用于电子商务、医疗诊断、遥感成像。

Zero-sample sketch retrieval method based on semantic antagonism network

全部详细技术资料下载

【技术实现步骤摘要】
基于语义对抗网络的零样本草图检索方法
本专利技术属于图像处理
，特别涉及一种零样本草图检索方法，可用于电子商务、医疗诊断、遥感成像。
技术介绍
草图检索是指根据手绘草图检索真实的自然图像。零样本草图检索方法是一种对未知类别的手绘草图进行真实自然图像检索的方法。现有的草图检索方法主要分为两类：基于人工设计的特征和基于深度学习的方法。其中基于人工设计特征方法包括梯度场HOG描述子、SIFT描述子，而基于深度学习的方法则包括孪生网络、三元组网络、深度草图哈希等，它们的主要思想都是提取图像或者文本信息的判别性特征，然后投影到共同的特征空间中进行相似性度量。但是现有的草图检索方法的前提是所有类别在训练阶段必须都是已知的，这样就无法保证训练数据的规模能够覆盖现实场景中的所有类别，所以当测试未见类别时，检索性能将急剧下降。同时不同的人对草图有不同的理解，导致绘制的草图的类内方差较大，草图检索的任务也更具挑战性。零样本草图检索就是在零样本的设置下实现从已知类别到未见类别的视觉知识迁移，从而解决现有草图检索的问题。当前，研究人员已经提出两种零样本草图检索的方法，例如，YumingShen和LiLiu等人在2018年的ComputerVisionandPatternRecognition会议上发表的名为“Zero-ShotSketch-ImageHashing”的文章，公开了一种零样本草图哈希检索方法，该方法构建了一个端到端的三网络框架，其中前两个网络为二进制编码器，第三个网络利用克罗内克融合层和图卷积，减轻草图图像的异质性，增强数据间的语义关系，同时文章还提出了一种哈...

【技术保护点】
1.一种基于语义对抗网络的零样本草图检索方法，其特征在于，包括如下步骤：(1)获取训练样本集：(1a)从Sketchy草图检索数据库中分别提取10,400幅RGB图像和对应的10,400幅二值草图图像组成成对的第一训练样本；从TU‑Berlin草图检索数据库中分别提取138,839幅RGB图像和138,839幅对应类别的二值草图图像组成成对的第二训练样本；(1b)对提取的所有298,478张图片都进行随机水平翻转，得到298,478张随机水平翻转后的图像；(1c)对298,478张随机水平翻转后的图像重新调整大小至224×224，并将得到的298,478张图像分别组成包含第一训练样本的训练样本集S1和包含第二训练样本的训练样本集S2：(2)构建语义对抗网络：设置由语义特征提取网络、词嵌入网络、语义判别器组成语义对抗网络，其中，语义特征提取网络，用于提取二值草图图像的语义特征；词嵌入网络，用于提取二值草图图像所对应的类别信息的词向量；语义判别器，用于对提取出的草图图像的语义特征和对应类标的词向量进行对抗学习，通过一个对抗损失Ladv(θS,θD)来更新语义特征提取网络的参数，提升输出草图...

【技术特征摘要】
1.一种基于语义对抗网络的零样本草图检索方法，其特征在于，包括如下步骤：(1)获取训练样本集：(1a)从Sketchy草图检索数据库中分别提取10,400幅RGB图像和对应的10,400幅二值草图图像组成成对的第一训练样本；从TU-Berlin草图检索数据库中分别提取138,839幅RGB图像和138,839幅对应类别的二值草图图像组成成对的第二训练样本；(1b)对提取的所有298,478张图片都进行随机水平翻转，得到298,478张随机水平翻转后的图像；(1c)对298,478张随机水平翻转后的图像重新调整大小至224×224，并将得到的298,478张图像分别组成包含第一训练样本的训练样本集S1和包含第二训练样本的训练样本集S2：(2)构建语义对抗网络：设置由语义特征提取网络、词嵌入网络、语义判别器组成语义对抗网络，其中，语义特征提取网络，用于提取二值草图图像的语义特征；词嵌入网络，用于提取二值草图图像所对应的类别信息的词向量；语义判别器，用于对提取出的草图图像的语义特征和对应类标的词向量进行对抗学习，通过一个对抗损失Ladv(θS,θD)来更新语义特征提取网络的参数，提升输出草图图像语义特征的判别性；语义对抗网络中的语义特征提取网络和词嵌入网络的输出都输入到语义判别器中进行对抗学习；(3)对训练样本集中的RGB图像进行特征提取：(3a)使用在ImageNet数据集上预训练的VGG16网络对第一训练样本集中的RGB图像进行特征提取，选取该网络中第二全连接层的输出作为第一训练样本集最终的RGB图像特征，该图像特征的维度为4096；(3b)使用在ImageNet数据集上预训练的VGG16网络对第二训练样本集中的RGB图像进行特征提取，选取该网络中第二全连接层的输出作为第二训练样本集最终的RGB图像特征，该图像特征的维度为4096；(4)构建生成网络：构建依次由concatenate层、条件编码器、三元组损失层、KL损失层、解码器、图像重建损失层、回归器和语义重建损失层组成的生成网络，其中：concatenate层，用于对语义特征提取网络的输出草图语义特征向量xsem和RGB图像特征向量ximg进行维度上的拼接；条件编码器，用于将concatenate层输出作为输入，使数据分布P(ximg,xsem)通过条件编码器后得到均值向量μ和标准差向量σ，形成隐藏潜在变量z的先验分布P(z)；三元组损失层，用于保持每个训练类别内生成特征的判别性，将条件编码器的均值向量输出μ作为输入，使用三元组损失函数对编码器进行训练，该损失层的损失函数为Ltri；KL损失层，用于使得数据分布P(ximg,xsem)与变分分布Q(z|ximg,xsem)近似，然后通过对损失函数LKL的最小化确定变分下界；解码器，用于将维度为1024的潜在向量z和学习得到维度为300的语义特征xsem进行拼接作为输入，以生成草图图像对应的RGB图像特征解码过程的数学表达式为：其中，noise表示随机高斯噪声Z～N(0,1)，噪声维度为1024，表示解码器；图像重建损失层，用于保证生成的RGB图像特征具有足够的判别性，使用重建损失函数：对解码器进行训练，其中，表示生成草图图像对应的RGB图像特征，ximg表示原始的RGB图像特征，表示2范数；回归器，用于将解码器的输出作为输入，通过回归器重建语义特征回归过程的数学表达式为：其中，noise表示随机高斯噪声Z～N(0,1)，噪声维度为1024，表示回归器；语义重建损失层，用于保证生成的RGB图像特征能保存类别级语义信息，该层的损失函数为：其中，表示重构的草图语义特征，xsem表示草图的语义特征；(5)对语义对抗网络和生成网络进行训练：(5a)对语义对抗网络和生成网络进行初始化，随机初始化时采用的网络参数服从均值为0、标准差为0.1的高斯分布，得到初始化的语义对抗网络和生成网络；(5b)设整体网络的损失函数为L＝Ladv+Ltri+LKL+Lrecon_img+Lrecon_sem；...

【专利技术属性】
技术研发人员：杨延华，许欣勋，张啸哲，邓成，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人