一种基于多粒度联想学习的手绘图像实时检索方法技术

技术编号：31757504 阅读：22 留言：0更新日期：2022-01-05 16:40

本发明专利技术属于图像检索领域，具体涉及一种多粒度联想学习的手绘图像实时检索方法，包括：采用三重态损失函数与多粒度联想学习方法训练改进的深度神经网络模型，训练好的深度神经网络模型提取草图分支的嵌入向量，将其送入判别器判断该草图分支的等级，再将该草图分支送入等级对应的降维层，计算草图分支与图像间的欧式距离，根据欧式距离，返回检索到的top

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多粒度联想学习的手绘图像实时检索方法

[0001]本专利技术属于动态草图检索领域，具体涉及一种基于多粒度联想学习的手绘图像实时检索方法。

技术介绍

[0002]图像检索根据检索的图片类型分为基于样图的图像检索(EBIR)和基于草图的图像检索(SBIR)。SBIR是一种使用缺乏颜色信息和纹理信息的手绘草图作为输入，然后检索系统返回与手绘草图相似的图像库图像的方法。这种方法中涉及到的手绘草图是人类对所见事物的一种抽象表达形式，与文本和标签不同是，手绘草图能够以更加直观形象的方式，传递出文字难以表述的图像信息，有效预防信息在传递过程中的异化。比如用户想要查询某件商品时，因缺乏对商品的认知，无法提供图片信息或者文字描述时，可以凭借印象对商品的形状特征进行简单的绘制，通过手绘草图检索对应商品。现今触摸设备快速发展，其中电话、平板等带有触屏功能的智能移动端的普及，为广大用户提供了手绘和手写录入条件，使人们在日常生活、工作、娱乐等场景中采用手绘草图来传递信息的频率不断增加，基于草图的图像检索由于其潜在的商业价值而受到特别关注。
[0003]与基于文本/标签的检索相比，基于手绘草图的图像检索的主要优势在于细粒度，因此衍生出了细粒度草图检索(FG
‑
SBIR,fine
‑
grained SBIR)，其针对手绘草图的细节进行图像匹配，旨在检索图库中的特定照片。现在对于FG
‑
SBIR的研究取得了很大的进展，但在绘制草图的过程中存在两个问题阻碍了FG
‑
>SBIR在实践中的广泛应用：(1)用户的绘图技能不足；(2)绘制完整草图所需的时间。在有参考图片的情况下，不同的绘制者针对相同的对象绘制出的草图，在抽象程度上不尽相同，这导致草图形态迥异；而在没有参考图片的情况下，不同绘制者只能凭借自己的主观印象完成构思以及绘制，这又极大地增加了草图形态的多样性。其次，每个人的绘画水平和绘画风格不一样，这进一步增大了绘制出的草图在风格上的差异，导致草图数据在语义关联上的差异，增加了草图语义理解的难度。尽管最先进的视觉系统擅长识别画得不好的草图，但绘制一幅完整草图所需要的时间根据绘图人的绘图能力而定，如果在画出完整的草图之后才能检索出结果，这个等待时间过于漫长。实际应用中，使用最少的笔画信息能够最快的检索出想要的商品是实时检索中的一个关键。

技术实现思路

[0004]为解决以上现有技术存在的问题，本专利技术提出了一种基于多粒度联想学习的手绘图像实时检索方法，基于多粒度联想学习的手绘图像实时检索方法提出改进的神经网络模型，改进的神经网络模型包括f1、f2和f3三个分支，f1为预训练网络，f2为注意力层，f3为降维层，改进的神经网络模型的训练集为由多张图像与其对应手绘的完整草图组成的图像集，将图像集中每一张图像的完整草图按照绘图的笔画顺序渲染为多张草图，即多张图片，通过渲染后的图像构建该图像的草图分支集合，每次训练选取图像集中的一张图像作为目标图像；
[0005]通过训练集训练改进的神经网络模型，完成训练后，输入手绘图像实时检索图像，改进的神经网络模型的训练过程包括以下步骤：
[0006]S0、根据图像集中图像对应的手绘草图，采用三重损失函数Triplet loss，训练神经网络模型的f1、f2、f3三个分支，训练完成后固定参数；
[0007]S1、根据绘制目标图像所需的笔画数对该目标图像的草图分支中每一张图片划分等级，以避免不完整草图的多样性混淆模型；
[0008]S2、通过预训练网络提取目标图像的特征向量与草图分支中每一张图片的特征向量，采用注意力层的注意力机制得到目标图像的嵌入向量和草图分支中每一张图片的嵌入向量；
[0009]S3、根据图片划分的等级将图片的嵌入向量送入该图片所属等级对应的降维层；
[0010]S4、在等级对应的降维层中降低图片的嵌入向量的维数后，将图片与其下一个等级中的图片进行联想，采用均方损失函数MSE loss计算当前等级与下一等级图片的均方损失，将计算的均方损失作为损失函数更新降维层；重复该过程，直到所有等级的均方损失计算完成。
[0011]S5、采用三重态损失函数Triplet loss计算草图分支中每一张图片和图像集中图像的误差，将该误差与所有等级的误差相加，进行反向传播，以靠近目标图像、远离图像集中除目标图像外的图像为目标调整模型中的参数，逼近图片与目标图像间的嵌入向量，同时逼近两个相邻等级间的嵌入向量；
[0012]S6、获取下一张目标图像的草图分支，重复上述步骤S1
‑
S5，直至模型达到训练次数上限。
[0013]进一步的，将一张图像的完整草图根据绘图的笔画顺序渲染为N张图片，N张图片组成一个草图分支，该草图分支中每一张图片包括完整草图的第一笔至第n笔且每张图片笔画不同，1≤n≤N，根据图片包含的笔画数升序排列，则一个草图分支S＝{s1,s2,...,s
n
...,s
N
}，s
n
表示包含第一笔到第n笔笔画的图片。
[0014]进一步的，采用注意力机制得到草图分支中每一张图片的嵌入向量，其表达式是：
[0015]V
H
＝Global_pooling(B+B.f
att
(B))
[0016]其中，B是经过预训练网络之后得到的特征向量，f
att
()表示注意力机制，Global_pooling(*)表示对经过注意力层得到的嵌入向量做全局池化，V
H
表示草图分支经过全局池化后进一步得到的嵌入向量。
[0017]进一步的，根据笔画数对草图分支的每一张图片划分等级，每个等级设计一个单独的降维层，降维层又称线性映射层，其表达式：
[0018]V
L
＝A.V
H
[0019]其中，A代表线性映射，V
L
表示降维后的草图分支的嵌入向量。
[0020]进一步的，每一个等级都有对应的降维层，降维层将2048维的嵌入向量映射到64维上，采用多粒度联想学习方法，实现不完整手绘图像的特征向量空间向其相对完整手绘图像的特征向量空间逼近，以进一步优化不完整手绘图像的特征向量空间。
[0021]进一步的，所述步骤S1包括：
[0022]若绘制一张完整草图需要笔画为N笔，完整草图渲染后的草图分支中包含N张图片；
[0023]划分等级时，将草图分支中的第1张到第m张图片划分为第一等级，即前m笔划分为第一等级，第m+1张到第2m张图片划分为第二等级，即第1笔到第2m笔划分为第二等级；此后的每一个等级都依次增加m张图片，即增加m笔笔画；
[0024]若P为整数，P＝N/m，则将N张图片共划分为P个等级，若P不为整数，则将N张图片共划分为P+1个等级。
[0025]进一步的，所述步骤S1包括：
[0026]若绘制一张完整草图需要笔画为N笔，完本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多粒度联想学习的手绘图像实时检索方法，其特征在于，基于多粒度联想学习的手绘图像实时检索方法提出改进的神经网络模型，改进的神经网络模型包括f1、f2和f3三个分支，f1为预训练网络，f2为注意力层，f3为降维层，改进的神经网络模型的训练集为由多张图像与其对应手绘的完整草图组成的图像集，将图像集中每一张图像的完整草图按照绘图的笔画顺序渲染为多张草图，完整草图渲染后构建该图像集的草图分支集，每次训练选取图像集中的一张图像作为目标图像；通过训练集训练改进的神经网络模型，完成训练后，输入手绘图像实时检索图像，改进的神经网络模型的训练过程包括以下步骤：S0、根据图像集中图像对应的手绘草图，采用三重损失函数，训练神经网络模型的f1、f2、f3三个分支，训练完成后固定参数；S1、根据绘制目标图像所需的笔画数对该目标图像的草图分支中每一张图片划分等级；S2、通过预训练网络提取目标图像的特征向量与草图分支中每一张图片的特征向量，采用注意力层的注意力机制得到目标图像的嵌入向量和草图分支中每一张图片的嵌入向量；S3、根据图片划分的等级将图片的嵌入向量送入该图片所属等级对应的降维层；S4、在等级对应的降维层中降低图片的嵌入向量的维数后，将图片与其下一个等级中的图片进行联想，采用均方损失函数计算当前等级与下一等级图片的均方损失，将计算的均方损失作为损失函数更新降维层；重复该过程，直到所有等级的均方损失计算完成；S5、采用三重态损失函数计算草图分支中每一张图片和图像集中图像的误差，将该误差与所有等级的误差相加，进行反向传播，以靠近目标图像、远离图像集中除目标图像外的图像为目标调整模型中的参数，逼近图片与目标图像间的嵌入向量，同时逼近两个相邻等级间的嵌入向量；S6、获取下一张目标图像的草图分支，重复上述步骤S1
‑
S5，直至模型达到训练次数上限。2.根据权利要求1所述的一种基于多粒度联想学习的手绘图像实时检索方法，其特征在于，将一张图像的完整草图根据绘图的笔画顺序渲染为N张图片，N张图片组成一个草图分支，该草图分支中每一张图片包括完整草图的第一笔至第n笔且每张图片笔画不同，1≤n≤N，根据图片包含的笔画数升序排列，则一个草图分支S＝{s1,s2,...,s
n
...,s
N
}，s
n
表示包含第一笔到第n笔笔画的图片。3.根据权利要求1所述的一种基于多粒度联想学习的手绘图像实时检索方法，其特征在于，采用注意力机制得到草图分支中每一张图片的嵌入向量，其表达式是：V
H
＝Global_pooling(B+B.f
att
(B))其中，B是经过预训练网络之后得到的特征向量，f
att
()表示注意力机制，Global_pooling(*)表示对经过注意力层得到的嵌入向量做全局池化，V
H
表示草图分支经过全局池化后进一步得到的嵌入向量。4.根据权利要求1或3所述的一种基于多粒度联想学习的手绘图像实时检索方法，其特征在于，...

【专利技术属性】
技术研发人员：戴大伟，刘颖格，唐晓宇，夏书银，王国胤，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人