外观专利的多模态图像检索方法及系统技术方案

技术编号:25439382 阅读:34 留言:0更新日期:2020-08-28 22:27
本发明专利技术公开了外观专利的多模态图像检索方法及系统,首先对外观专利多个视图进行特征提取及融合,再对文本进行特征提取,综合考虑多种模态的信息,最后进行深度视觉语义嵌入,因此在大规模的外观设计专利数据库当中可以具有很好的检索效果;针对ANN中树结构没有对数据进行紧凑编码表示因此效率不高,哈希方法中汉明距离的计算并不是一种精确的距离计算的问题,本发明专利技术提出距离编码乘积量化,在编码的过程当中不仅将数据点编码为子空间聚类索引的串联,而且还将每个数据点与其重建编码表示之间的距离也编码进来,形成一个有效的对每个数据的紧凑编码表示;从而提高检索的效率及准确性。

【技术实现步骤摘要】
外观专利的多模态图像检索方法及系统
本专利技术涉及图像检索
,尤其涉及外观专利的多模态图像检索方法及系统。
技术介绍
由于图像是外观设计专利的主要内容,因此,进行外观设计专利搜索的关键技术是以图搜图核心技术。然而,外观设计专利不仅仅包含了专利设计的多个视图信息,还包含了相关的简要描述等文字信息,比如针对椅子的文字描述“这是一张圆角的木制长方形餐桌椅”等等。因此,如何利用好外观设计专利的文字信息进行多模态检索以使其检索效果达到最优,是一项具有现实意义的问题。多模态学习技术由于其涉及的模态多,信息丰富等优点,近年来不少学者都投入到其中进行研究。然而,不同模态异构数据如何进行融合以及不同模态高层语义方面如何进行更好的统一却一直是多模态研究领域的热点与难点。西安电子科技大学在其专利“基于深层主题自编码模型的多模态检索方法”(申请号:201910527804.X)中提出一种基于深层主题自编码模型的多模态检索方法,以泊松伽马置信自编码网络为基础,发掘不同模态隐层之间由浅到深的联系,得到一个用于检索多模态信息的联合特征,提高检索性能。然而,其重点放在了多模态信息之间的互联,却并未考虑到多模态系统的规模通常是很大的这一问题。因此,涉及到大规模时效果可能不如人意。另外,针对外观专利进行的图像检索往往是一个大规模的图像数据集检索任务。此类检索具有三个典型的主要特征:图像数据量大、特征维度高,要求响应时间短。近似最近邻搜索(ApproximateNearestNeighborSearch)是解决大规模相似性检索的有效方法。ANN通过将全空间进行分割,然后通过某种方式,快速锁定在某几个子空间里做遍历,具有计算效率高、检索质量好的优点。ANN方法大体可以分为三大类:基于树的方法、哈希方法、矢量量化方法。基于递归空间划分的树结构的经典方法包括KD树,R树,有利点树和分层k均值树。但是,对于高维数据而言,大多数这些技术中的搜索性能甚至可能比遍历扫描更慢。而且,它们没有对数据进行紧凑编码表示,因此在处理十亿等等大规模数据量的问题时效率较低。紧凑编码表示通过将高维数据编码为紧凑码,通过简单的位串操作或预先计算的查找表来进行快速距离(相似性)计算,具有很高的压缩率。目前可分为两大类:基于哈希和基于矢量量化的方法。哈希方法中,数据点被编码为保持相似性的二进制代码,因此可以通过遍历相似的二进制代码或在邻近的哈希桶中找到其近邻数据点。重庆邮电大学在其专利“一种基于多图正则化深度哈希的多模态医学图像检索方法”(申请号:201910048281.0)中提出利用多通道深度模型提取多模态医学图像的深度特征,然后构建近邻图以保持数据的局部流行结构,最后将向量编码为哈希码在汉明距离来进行相似性搜索。然而,由于将高维数据投影到汉明空间的过程中会有精度损失,汉明距离仅给出离散化的排序,而本质上不提供精确的距离,因此基于哈希的汉明距离计算方法对于大规模的图像来说存在着精确度不够的问题。基于量化的方法与聚类紧密相关。在这些方法中,一个数据点的紧凑编码表示就是对包含该数据点的聚类的索引(即码字索引)进行编码。乘积量化将原始数据空间分解为低维子空间,并使用K均值聚类分别量化每个子空间,并在子空间中进行编码。然后,它将聚类索引串联起来作为紧凑编码。在这之后,又有不少研究者针对PQ进行了改进,例如Ge等提出的OPQ,以及随后的LOPQ。相比于其他方法,PQ及其改进方法在近似K近邻搜索中获得了最好的实验结果。部分原因是PQ平衡了乘积空间,并且可以更准确地估算距离。然而,它们也存在随着每个子空间聚类数目增加导致检索效果变差,并且在距离估算方面也具有存在着一定的偏置与方差的缺陷。
技术实现思路
本专利技术为解决现有外观专利多模态图像检索方法其检索效率低下、检索精度不高的问题,提供了外观专利的多模态图像检索方法及系统。为实现以上专利技术目的,而采用的技术手段是:外观专利的多模态图像检索方法,包括以下步骤:S1.提取外观专利多视图的图像特征及文本特征;S2.对所述图像特征及文本特征进行深度视觉语义量化,利用深度学习方法最小化深度视觉语义量化的目标函数,从而训练得到外观专利多模态图像检索模型;其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入,对所述图像特征进行视觉语义量化编码;S3.利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索,基于距离编码排序得到检索结果。上述方案中,通过外观专利多模态图像检索模型对多种模态的特征信息训练达到高层语义方面的统一;并提出包含了残差距离编码的紧凑编码,从而提高多模态图像检索的效率。优选的,所述步骤S1采用深度卷积神经网络Res2Net外观专利多视图的图像特征,得到z1,z2,…,zn,其中n表示外观专利的视图个数;对所述图像特征进行加权融合,得到多视图融合的图像特征:i表示外观专利的第i个视图,β表示外观专利第i个视图的权重。优选的,所述步骤S1采用Word2Vec的CBOW模型或skip-gram模型提取外观专利的文本特征{v}。优选的,步骤S2所述的对所述图像特征{z}及文本特征{v}进行深度视觉语义嵌入具体包括:定义训练阶段的自适应间隔损失函数:设表示训练阶段的N1个原始图像的文本特征数据点,而每一个文本特征数据点都与标签集y(yn∈y)当中的某几个有关;表示自适应间隔,用于保证图像特征zn与正确文本标签的单词特征vi之间的内积相似性要大于其与错误文本标签的单词特征vj之间的内积相似性。优选的,步骤S2所述的对所述图像特征进行视觉语义量化编码具体包括:每个图像特征zn被M个码本C=[C1,…,CM]量化,其中每个码本Cm都包含了K个码字Cm=[Cm1,…,CmK],每个码字都是与文本特征v和图像特征z同维的D维k-means的聚类中心向量;相应于M个码本,紧凑二进制编码也被分为M个部分b1n,…,bMn,即则zn表示为定义训练阶段的量化误差为:上式服从于离散限制||bmn||0=1并且bmn∈{0,1}K,用于保证每一个码本里面有且仅有一个码字被激活用来近似图像特征zn。优选的,步骤S2所述的外观专利多模态图像检索模型具体为:其中,α是自适应间隔损失与量化误差之间的权衡权重,w,C,B是模型需要更新的参数,w是网络参数集。综合上面深度视觉语义嵌入及视觉语义量化编码两个损失函数,外观专利多模态图像检索模型总的目标是最小化上式,从而完成训练。优选的,所述步骤S3具体包括:基于步骤S2训练好的模型,对用于查询的数据库向量进行视觉语义量化编码得数据库向量中每个向量的紧凑编码表示为:其中Bn为距离编码;利用非对称距离计算方法对查询向量y与用于查询的数据库向量xn进行距离估计:其中,是属于xn的距离编码Bn所对应的距离;其中查询向量y为目标外观专利经所述步骤S1得到;对计算得到的距离估计按升序排序,抽取其本文档来自技高网
...

【技术保护点】
1.外观专利的多模态图像检索方法,其特征在于,包括以下步骤:/nS1.提取外观专利多视图的图像特征及文本特征;/nS2.对所述图像特征及文本特征进行深度视觉语义量化,利用深度学习方法最小化深度视觉语义量化的目标函数,从而训练得到外观专利多模态图像检索模型;其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入,对所述图像特征进行视觉语义量化编码;/nS3.利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索,基于距离编码排序得到检索结果。/n

【技术特征摘要】
1.外观专利的多模态图像检索方法,其特征在于,包括以下步骤:
S1.提取外观专利多视图的图像特征及文本特征;
S2.对所述图像特征及文本特征进行深度视觉语义量化,利用深度学习方法最小化深度视觉语义量化的目标函数,从而训练得到外观专利多模态图像检索模型;其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入,对所述图像特征进行视觉语义量化编码;
S3.利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索,基于距离编码排序得到检索结果。


2.根据权利要求1所述的外观专利的多模态图像检索方法,其特征在于,所述步骤S1采用深度卷积神经网络Res2Net外观专利多视图的图像特征,得到z1,z2,…,zn,其中n表示外观专利的视图个数;对所述图像特征进行加权融合,得到多视图融合的图像特征:i表示外观专利的第i个视图,β表示外观专利第i个视图的权重。


3.根据权利要求2所述的外观专利的多模态图像检索方法,其特征在于,所述步骤S1采用Word2Vec的CBOW模型或skip-gram模型提取外观专利的文本特征{v}。


4.根据权利要求3所述的外观专利的多模态图像检索方法,其特征在于,步骤S2所述的对所述图像特征及文本特征进行深度视觉语义嵌入具体包括:定义训练阶段的自适应间隔损失函数:



设表示训练阶段的N1个原始图像的文本特征数据点,而每一个文本特征数据点都与标签集y(yn∈y)当中的某几个有关;表示自适应间隔,用于保证图像特征zn与正确文本标签的单词特征vi之间的内积相正确文本标签的单词特征似性要大于其与错误文本标签的单词特征vj之间的内积相似性。


5.根据权利要求4所述的外观专利的多模态图像检索方法,其特征在于,步骤S2所述的对所述图像特征进行视觉语义量化编码具体包括:每个图像特征zn被M个码本C=[C1,…,CM]量化,其中每个码本Cm都包含了K个码字C...

【专利技术属性】
技术研发人员:叶街林杨志景谭俊鹏
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1