外观专利的多模态图像检索方法及系统技术方案

技术编号：25439382 阅读：34 留言：0更新日期：2020-08-28 22:27

本发明专利技术公开了外观专利的多模态图像检索方法及系统，首先对外观专利多个视图进行特征提取及融合，再对文本进行特征提取，综合考虑多种模态的信息，最后进行深度视觉语义嵌入，因此在大规模的外观设计专利数据库当中可以具有很好的检索效果；针对ANN中树结构没有对数据进行紧凑编码表示因此效率不高，哈希方法中汉明距离的计算并不是一种精确的距离计算的问题，本发明专利技术提出距离编码乘积量化，在编码的过程当中不仅将数据点编码为子空间聚类索引的串联，而且还将每个数据点与其重建编码表示之间的距离也编码进来，形成一个有效的对每个数据的紧凑编码表示；从而提高检索的效率及准确性。

全部详细技术资料下载

【技术实现步骤摘要】
外观专利的多模态图像检索方法及系统
本专利技术涉及图像检索
，尤其涉及外观专利的多模态图像检索方法及系统。
技术介绍
由于图像是外观设计专利的主要内容，因此，进行外观设计专利搜索的关键技术是以图搜图核心技术。然而，外观设计专利不仅仅包含了专利设计的多个视图信息，还包含了相关的简要描述等文字信息，比如针对椅子的文字描述“这是一张圆角的木制长方形餐桌椅”等等。因此，如何利用好外观设计专利的文字信息进行多模态检索以使其检索效果达到最优，是一项具有现实意义的问题。多模态学习技术由于其涉及的模态多，信息丰富等优点，近年来不少学者都投入到其中进行研究。然而，不同模态异构数据如何进行融合以及不同模态高层语义方面如何进行更好的统一却一直是多模态研究领域的热点与难点。西安电子科技大学在其专利“基于深层主题自编码模型的多模态检索方法”(申请号：201910527804.X)中提出一种基于深层主题自编码模型的多模态检索方法，以泊松伽马置信自编码网络为基础，发掘不同模态隐层之间由浅到深的联系，得到一个用于检索多模态信息的联合特征，提高检索性能。然而，其重点放在了多模态信息之间的互联，却并未考虑到多模态系统的规模通常是很大的这一问题。因此，涉及到大规模时效果可能不如人意。另外，针对外观专利进行的图像检索往往是一个大规模的图像数据集检索任务。此类检索具有三个典型的主要特征：图像数据量大、特征维度高，要求响应时间短。近似最近邻搜索(ApproximateNearestNeighborSearch)是解决大规模相似性检索的有效...

【技术保护点】
1.外观专利的多模态图像检索方法，其特征在于，包括以下步骤：/nS1.提取外观专利多视图的图像特征及文本特征；/nS2.对所述图像特征及文本特征进行深度视觉语义量化，利用深度学习方法最小化深度视觉语义量化的目标函数，从而训练得到外观专利多模态图像检索模型；其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入，对所述图像特征进行视觉语义量化编码；/nS3.利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索，基于距离编码排序得到检索结果。/n

【技术特征摘要】
1.外观专利的多模态图像检索方法，其特征在于，包括以下步骤：
S1.提取外观专利多视图的图像特征及文本特征；
S2.对所述图像特征及文本特征进行深度视觉语义量化，利用深度学习方法最小化深度视觉语义量化的目标函数，从而训练得到外观专利多模态图像检索模型；其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入，对所述图像特征进行视觉语义量化编码；
S3.利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检索，基于距离编码排序得到检索结果。

2.根据权利要求1所述的外观专利的多模态图像检索方法，其特征在于，所述步骤S1采用深度卷积神经网络Res2Net外观专利多视图的图像特征，得到z1,z2,…,zn，其中n表示外观专利的视图个数；对所述图像特征进行加权融合，得到多视图融合的图像特征：i表示外观专利的第i个视图，β表示外观专利第i个视图的权重。

3.根据权利要求2所述的外观专利的多模态图像检索方法，其特征在于，所述步骤S1采用Word2Vec的CBOW模型或skip-gram模型提取外观专利的文本特征{v}。

4.根据权利要求3所述的外观专利的多模态图像检索方法，其特征在于，步骤S2所述的对所述图像特征及文本特征进行深度视觉语义嵌入具体包括：定义训练阶段的自适应间隔损失函数：

设表示训练阶段的N1个原始图像的文本特征数据点，而每一个文本特征数据点都与标签集y(yn∈y)当中的某几个有关；表示自适应间隔，用于保证图像特征zn与正确文本标签的单词特征vi之间的内积相正确文本标签的单词特征似性要大于其与错误文本标签的单词特征vj之间的内积相似性。

5.根据权利要求4所述的外观专利的多模态图像检索方法，其特征在于，步骤S2所述的对所述图像特征进行视觉语义量化编码具体包括：每个图像特征zn被M个码本C＝[C1,…,CM]量化，其中每个码本Cm都包含了K个码字C...

【专利技术属性】
技术研发人员：叶街林，杨志景，谭俊鹏，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人