一种基于先验增强双语义的外观专利图像检索方法与系统技术方案

技术编号：41142150 阅读：8 留言：0更新日期：2024-04-30 18:11

本发明专利技术公开了一种基于先验增强双语义的外观专利图像检索方法，包括：将图文多模态数据集中图像‑文本对输入到图像编码器和文本编码器中，得到图像特征和文本特征，输入图像特征和文本特征到Transformer中，得到文本‑图像相关特征；将文本‑图像相关特征通过全连接层映射后，输入至文本解码器，利用损失函数进行训练，得到图像字幕生成网络，其输出为图像字幕；利用图像字幕，生成二进制哈希码，并加入到哈希码数据库中；用户输入查询图像或者文本到图像字幕生成网络，返回相似度较高的图像。本发明专利技术利用大模型进行先验视觉和文本双层语义的指导，结合图像字幕生成模型生成字幕，避免了大量的人工标注过程，丰富了用户的检索需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像检索领域，具体涉及一种基于先验增强双语义的外观专利图像检索方法与系统。

技术介绍

1、近年来，随着各类聊天软件的盛行，图像、视频等异构数据呈指数型爆炸增长，针对丰富的图像信息，如何帮助用户检索到相关图像成了一大难题，因此建立快速准确的图像检索系统已经成为了重要的研究方向。经过数十年的发展，图像检索技术已经广泛运用到数字图书馆、医学影像、卫星遥感图像、电子商务等社会生活的各个方面。

2、图像检索的发展可以追溯到上世纪70年代，当时的研究者们利用文本或关键字对图像进行简单描述，将关键字与图像对应起来，也就是今天所说的基于文本的图像检索。在多媒体发展的早期，这种方法简单方便且容易理解，但是，随着网络的迅速发展，文本、图像、音频、视频等数据库的不断庞大，内容不断丰富，这种方法也渐渐显露出它的弊端。一方面，图像标注的传统方法是人工标注，然而对于数量庞大的图像集，这种方法是不切实际的，费时费力，所需的工作量太大；另一方面，仅凭人类对图像的标注并不能充分表达图像丰富的视觉信息，况且不同的人由于感知的差异，对同一幅图像的语义理解也存在不同，使得标注具有很强的主观性。

3、上世纪90年代，研究者们为克服上述问题，提出了基于内容的图像检索，这种检索方法涉及多个领域，如人工智能、模式识别、计算机视觉以及贝叶斯、决策树等。这种方法使用图像的底层特征如颜色、纹理或形状等表示图像，通过计算机自动提取图像特征，并采用相似性度量方法查找到用户所需的图像，避免了人工干涉，大大减少了检索工作量。直到今天，基于内容的图像检索

4、cbir的首要问题是图像特征的提取，图像特征可以从人的角度将图像的像素级线索与语义联系起来。在众多方法中，深度神经网络已被证明能学习到较强大的特征，然而，直接从预训练网络(如resnet)中提取的高维度特征直接用于计算会带来高额的消耗，在实际运用中并不可行。

5、最近哈希方法引起了广泛关注，因为在处理大规模数据集时，哈希方法可以显著地加快检索过程，通常这些方法的目的是学习哈希函数，将高维图像特征投影到低维空间，从而为每个数据样本生成二进制代码，所生成的低维二进制码的优点是可以通过汉明距离计算实现高效的图像检索，使用更少的存储空间带来更快的检索速度。

6、受此启发，本文提出了一种基于双语义先验增强的外观专利图像检索方法。利用预训练好的图像和文本模型来进行先验语义的指导，输入图像和文本分别经过预训练编码器的编码器之后，汇聚到堆叠的多层transformer中得到视觉-文本联合表示，最后经过全连接层进行维度对齐后输入到预训练好的文本解码器得到最终的文本。我们将生成的文本进行哈希编码之后放入哈希码数据库中，能够支持用户直接输入文本直接检索图像。

7、目前的现有技术之一是li w等《text-based image retrieval usingprogressive multi-instance learning》所提出的一种基于文本的图像检索方法，该方法利用文本或关键字对图像进行标注，使得用户可以通过输入文本来查找到相关图像；该方法的缺点是：随着网络的迅速发展，数据库变得十分庞大，文本标注的方法也渐渐显露出它的弊端，一方面，图像标注的传统方法是人工标注，所需的工作量太大；另一方面，不同的人由于感知的差异，对相同图像的语义理解也存在不同，使得标注具有很强的主观性，因此该方法涉及庞大的工作量，并且存在巨大的偏差性。

8、目前的现有技术之二是顾文娇《基于内容语义的图像检索技术研究》所提出的一种基于内容的图像检索方法，该方法利用神经网络对图像进行分析，自动提取图像的视觉特征，将视觉特征作为关键字进行索引，进而比较索引特征宇查询条件之间的距离，最终反馈给用户查询结果；该方法的缺点是：现有的dnn模型很难捕获底层数据结构，除此之外，利用现有的深度哈希方法测量得到的成对图像之间的相似性(视觉上或语义上的)是模糊的，甚至是不确定的，所以现有方法的精度并不高。

技术实现思路

1、本专利技术的目的是克服现有方法的不足，提出了一种基于先验增强双语义的外观专利图像检索方法与系统。本专利技术解决的主要问题在于：1)如何在面对处理大量数据的情境下，人工标注方法难以适用于现有基于文本的图像检索方法的问题；2)如何解决现有的基于内容的图像检索方法中采用的dnn模型很难捕获底层数据，并且现有深度哈希方法测量得到的成对图像之间的相似度非常模糊且不确定的问题。

2、为了解决上述问题，本专利技术提出了一种基于先验增强双语义的外观专利图像检索方法，所述方法包括：

3、将图文多模态数据集中图像-文本对分别输入到预训练好的图像编码器和文本编码器中，得到编码后的图像特征和文本特征；

4、输入所述图像特征和文本特征到堆叠的6层transformer中，得到文本-图像相关特征；

5、将所述文本-图像相关特征通过全连接层映射后，输入到预训练好的文本解码器，并利用损失函数进行训练，得到训练好的图像字幕生成网络，其输出为图像字幕；

6、利用所述图像字幕，生成二进制哈希码，并加入到哈希码数据库中；

7、利用所述训练好的图像字幕生成网络和所述哈希码数据库，用户通过输入查询图像或者文本到所述图像字幕生成网络中，返回相似度较高的图像。

8、优选地，所述输入所述图像特征和文本特征到堆叠的6层transformer中，得到文本-图像相关特征，具体为：

9、所述6层transformer中涉及3个参数，在第1层中将图像特征作为q，文本特征作为k和v，得到第1层的输出为图像-文本联合特征，而在剩余的2到6层中将图像-文本联合特征作为q、k和v分别输入；在结构上，所述6层transformer涉及到多头自注意力层、残差与归一化层；

10、多头自注意力层采用了多头注意力机制，它将输入序列分解成8个子序列，然后分别对这些子序列进行注意力计算，最终再进行合并，多头自注意层的q、k和v是一致的，整个注意力的计算公式如下：

11、

12、其中kt表示的是k的转置；softmax是一种常见的激活函数，将输入向量的每个元素的值转换为一个介于0和1之间的概率值，同时保证所有概率值的总和为1；为防止qkt的内积过大，需要除以一个缩放系数常量dk；

13、残差与归一化层由残差层和归一化层两部分组成，前馈层由两层全连接层组成，中间夹杂着一个激活层，使用的激活函数为relu，把所述残差与归一化层和前一层作为一个整体，将出现所述残差与归一化层之前一层是所述多头注意力层或前馈层两种不同的情况，设整个过程的输入向量为x，整个计算过程如下：

14、output1＝layernorm(x+attention(q，k，v))

15、output2＝layernorm(x+feedforward(x))

16、feedforward(x本文档来自技高网...

【技术保护点】

1.一种基于先验增强双语义的外观专利图像检索方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种基于先验增强双语义的外观专利图像检索方法，其特征在于，所述输入所述图像特征和文本特征到堆叠的6层Transformer中，得到文本-图像相关特征，具体为：

3.如权利要求1所述的一种基于先验增强双语义的外观专利图像检索方法，其特征在于，所述将所述文本-图像相关特征通过全连接层映射后，输入到预训练好的文本解码器，并利用损失函数进行训练，得到训练好的图像字幕生成网络，其输出为图像字幕，具体为：

4.如权利要求1所述的一种基于先验增强双语义的外观专利图像检索方法，其特征在于，所述利用所述图像字幕，生成二进制哈希码，并加入到哈希码数据库中，具体为：

5.如权利要求1所述的一种基于先验增强双语义的外观专利图像检索方法，其特征在于，所述利用所述训练好的图像字幕生成网络和所述哈希码数据库，用户通过输入查询图像或者文本到所述图像字幕生成网络中，返回相似度较高的图像，具体为：

6.一种基于先验增强双语义的外观专利图像检索系统，其特征在于，所述系统包括：

7.如权利要求6所述的一种基于先验增强双语义的外观专利图像检索系统，其特征在于，所述输入所述图像特征和文本特征到堆叠的6层Transformer中，得到文本-图像相关特征，具体为：

8.如权利要求6所述的一种基于先验增强双语义的外观专利图像检索系统，其特征在于，所述将所述文本-图像相关特征通过全连接层映射后，输入到预训练好的文本解码器，并利用损失函数进行训练，得到训练好的图像字幕生成网络，其输出为图像字幕，具体为：

9.如权利要求6所述的一种基于先验增强双语义的外观专利图像检索系统，其特征在于，所述利用所述图像字幕，生成二进制哈希码，并加入到哈希码数据库中，具体为：

10.如权利要求6所述的一种基于先验增强双语义的外观专利图像检索系统，其特征在于，所述利用所述训练好的图像字幕生成网络和所述哈希码数据库，用户通过输入查询图像或者文本到所述图像字幕生成网络中，返回相似度较高的图像，具体为：

...

【技术特征摘要】

1.一种基于先验增强双语义的外观专利图像检索方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种基于先验增强双语义的外观专利图像检索方法，其特征在于，所述输入所述图像特征和文本特征到堆叠的6层transformer中，得到文本-图像相关特征，具体为：

...

【专利技术属性】
技术研发人员：周凡，林淑金，陈小燕，林谋广，刘宇，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人