分层多模态的知识产权搜索引擎方法与系统技术方案

技术编号:33373300 阅读:11 留言:0更新日期:2022-05-11 22:40
本发明专利技术公开了一种分层多模态的知识产权搜索引擎方法。包括:预处理输入图像;将输入图像输入到分层深度图像检索模型,得到图像检索结果;将数据集中文本字段输入道文本语义检索模型,得到文本检索结果;将所述文本检索结果输入到相似知识产权推荐模型,得到相似推荐结果;将上述所述图像检索结果,文本检索结果与相似推荐结果进行多模态结果融合,得到融合文本结果,将融合文本结果与用户输入的查询文本进行重新排序,得到最终的检索结果。本发明专利技术还公开了分层多模态的知识产权搜索引擎系统。本发明专利技术通过分层深度图像检索模型,文本语义检索模型提高检索的速度又保持检索的精度,相对于论文的搜索方法,该方案能更好表达用户检索需求。求。求。

【技术实现步骤摘要】
分层多模态的知识产权搜索引擎方法与系统


[0001]本专利技术涉及多模态搜索、深度学习,具体涉及分层多模态的知识产权搜索引擎方法与系统。

技术介绍

[0002]在大数据时代,人工智能在各个行业都有着广泛的应用。对于知识产权的检索来说,知识网络规模巨大、连接复杂,知识节点具有异质性。面对海量信息,基于分类目录和关键词的搜索方式越来越难以适应用户的搜索需求,迫切需要将检索方式从基于词层面提高到基于语义层面,研发高增量、高时效、多模态知识产权超图网络建模技术能准确地捕捉到用户所输入语句后面的真正意图,并以此进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。
[0003]知识产权检索是实现将用户的片段输入去检索,返回给用户最符合其需求的搜索结果的一种技术应用。现有的技术应用大多数是以文本搜文本的方式进行知识产权检索的。但是由于这种技术是单模态的,用户的片段输入往往很难准确表达出用户的检索需求。这时候就需要多模态的建模技术,来准确捕捉用户的真正意图。
[0004]多模态知识检索是一种应用于知识产权检索的多模态检索技术,所谓的多模态检索,就是用户可以输入不同类型的输入进行检索,比如用文本搜图,用图搜文本等。在知识产权的检索当中,用户可以输入自己的检索字段以及跟自己搜索意图相关的图片,通过搜索引擎结合对这两种类型的输入信息检索,得到最符合自己需求的搜索结果。但是受限于人工智能相关技术的发展,搜索引擎难以很好地将这两种不同类型的输入进行融合分析,返回的检索结果往往会带有一定的偏向性,会影响最终的检索结果。/>[0005]目前的现有技术之一,一种通过分析用户搜索词生成相关搜索结果的方法,该方法获取用户输入的搜索词,根据搜索词确定用户需求类型,并根据需求类型确定对应的引导策略;根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面,将搜索结果页面提供给用户。该方案的缺点是这种技术是单模态的,用户的片段输入往往难以准确表达用户的检索需要。
[0006]目前的现有技术之二,基于百科的中文知识搜索系统的设计与实现的方法。该方法通过分词、词性标注,同义词转换,问题词转换,核心实体识别、检索、结果重排等流程,实现了基于百科实体的知识搜索。该方法的缺点是在检索时还是以同义词转换等方式来计算查询文本和待检索文本的相似度,并没有在词向量嵌入特征空间中计算相似度,要通过百科内的同义词词表实现,需要百科知识库的介入。

技术实现思路

[0007]本专利技术的目的是克服现有方法的不足,提出了分层多模态的知识产权搜索引擎方法与系统。本专利技术解决的主要问题,一是现有通过获取用户输入的搜索词,根据搜索词确定用户的需求类型,并根据需求类型确定对应的引导策略,但是该技术是单模态的,用户的片
段输入难以准确表达用户的检索需求。二是现有基于百科的中文知识搜索系统的设计与实现,该技术通过在检索时还是以同义词转换等方式来计算查询文本和待检索文本的相似度,要通过百科内的同义词词表实现,需要百科知识库的介入。
[0008]为了解决上述问题,本专利技术提出了一种分层多模态的知识产权搜索引擎方法,所述方法包括:
[0009]从知识产权数据库中筛选出输入图像与文本字段,并将图像处理成统一尺寸;
[0010]将知识产权数据集中的输入图像输入到分层深度图像检索模型当中,得到图像检索结果,对于查询图片先用图像深层特征提取网络提取图像深层特征,然后通过哈希编码网络以及二值化操作得到查询图片的二进制码,利用该哈希值进行粗检索,取前K个结果再进行基于图像深层特征细检索,最终得到分层深度图像检索模型的图像检索结果R
v

[0011]将知识产权数据集中的文本字段输入到文本语义检索模型当中,得到文本检索结果,通过文本分类网络对查询文本进行提前分类,通过类别筛选有效缩小搜索范围,再在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索,得到文本检索结果;
[0012]将上述所述得到的文本检索输入到相似知识产权推荐模型中,得到相似推荐结果;
[0013]将上述所述得到的图像检索结果、上述所述得到的文本检索结果与上述所述得到的相似推荐结果进行多模态结果融合,将所得到结果融合组成R
b
,将融合文本结果R
b
与用户输入的查询文本在文本嵌入特征空间中基于欧氏距离进行重新排序,得到最终的检索结果R
f

[0014]优选地,所述从知识产权数据库中筛选出输入图像与文本字段,并将图像处理成统一尺寸,具体为:
[0015]将输入的知识产权中的流程图、网络结构图等图像运用中心等比例切割和等比例缩放的方式处理成统一尺寸,并对每一次的输入图像进行随机旋转角度等数据增强手段。
[0016]优选地,所述将知识产权数据集中的输入图像输入到分层深度图像检索模型当中,得到图像检索结果,对于查询图片先用图像深层特征提取网络提取图像深层特征,然后通过哈希编码网络和二值化操作得到查询图片的二进制码,利用该哈希值进行粗检索,取前K个结果再进行基于图像深层特征细检索,最终得到分层深度图像检索模型的检索结果R
v
,具体为:
[0017]选用ResNet

50作为模型的骨架网络,将输入图像输入到在图像分类数据集ImageNet上预训练好的ResNet模型中,提取服装图像的视觉特征;
[0018]将所述提取的视觉特征输入到哈希编码网络进行哈希编码,将特征提取网络提取出来的高纬图像特征输入全连接层,输出n维的类二进制值,最后通过二值化操作转化为哈希特征,在误差反向传播的过程中,更新包含图像深层特征提取网络在内的整个网络参数,以更好地拟合网络在哈希编码任务上的权重,损失函数如下:
[0019][0020]N为训练时一个batch选取的图像对的个数,h
i,1
,h
i,2
表示第i个图像对中两张图像的网络输出,即类二进制特征表示,s
i
表示第i个图像对中的两张图像是否相似,在数据集中就表现为两张服饰图像是否属于相同类别,相似为1,否则为0,t为边界阈值参数,α为正则化强度参数。
[0021]该损失函数的前两项能够很好地让同类别的图片生成的类二值码尽可能相近,而不同类别的图像的类二值码尽可能相互远离,优化损失的过程中会让h
i,1
,h
i,2
分别尽可能接近

1或1,这样可以生成接近二值的输出,最后把0作为分界点进行二值化,即可获得标准二值输出;
[0022]汉明空间中进行粗检索。在粗检索阶段,对于查询图片经过网络输出后得到的n维二值表示b
q
,数据库中任一项服饰的二值表示b
i
,根据如下汉明距离对数据库中的服装项进行排序:
[0023][0024]在图像特征空间中进行检索。在细检索阶段,取粗检索阶段得到的前K项结果,对于查询图片经过ResN本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分层多模态的知识产权搜索引擎方法,其特征在于,所述方法包括:从知识产权数据库中筛选出输入图像与文本字段,并将图像处理成统一尺寸;将知识产权数据集中的输入图像输入到分层深度图像检索模型当中,得到图像检索结果,对于查询图片先用图像深层特征提取网络提取图像深层特征,然后通过哈希编码网络以及二值化操作得到查询图片的二进制码,利用该哈希值进行粗检索,取前K个结果再进行基于图像深层特征细检索,最终得到分层深度图像检索模型的检索结果R
v
;将知识产权数据集中的文本字段输入到文本语义检索模型当中,得到文本检索结果,通过文本分类网络对查询文本进行提前分类,通过类别筛选有效缩小搜索范围,再在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索;将上述所述得到的文本检索输入到相似知识产权推荐模型中,推荐出相似结果;将上述所述得到的图像检索结果、上述所述得到的文本检索结果与上述所述得到的相似推荐结果进行多模态结果融合,将所得到结果融合组成R
b
,将融合文本结果R
b
与用户输入的查询文本在文本嵌入特征空间中基于欧氏距离进行重新排序,得到最终的检索结果R
f
。2.如权利要求1所述的分层多模态的知识产权搜索引擎方法,其特征在于,所述从知识产权数据库中筛选出输入图像与文本字段,并将图像处理成统一尺寸,具体为:将输入的知识产权中的流程图、网络结构图等输入图像运用中心等比例切割和等比例缩放的方式处理成统一尺寸,并对每一次的输入图像进行随机旋转角度等数据增强手段。3.如权利要求1所述的分层多模态的知识产权搜索引擎方法,其特征在于,所述将知识产权数据集中的输入图像输入到分层深度图像检索模型当中,得到图像检索结果,对于查询图片先用图像深层特征提取网络提取图像深层特征,然后通过哈希编码网络和二值化操作得到查询图片的二进制码,利用该哈希值进行粗检索,取前K个结果再进行基于图像深层特征细检索,最终得到分层深度图像检索模型的检索结果R
v
,具体为:选用ResNet

50作为模型的骨架网络,将输入图像输入到在图像分类数据集ImageNet上预训练好的ResNet模型中,提取服装图像的视觉特征;将所述提取的视觉特征输入到哈希编码网络进行哈希编码,将特征提取网络提取出来的高纬图像特征输入全连接层,输出n维的类二进制值,最后通过二值化操作转化为哈希特征,在误差反向传播的过程中,更新包含图像深层特征提取网络在内的整个网络参数,以更好地拟合网络在哈希编码任务上的权重,损失函数如下:N为训练时一个batch选取的图像对的个数,h
i,1
,h
i,2
表示第i个图像对中两张图像的网络输出,即类二进制特征表示,s
i
表示第i个图像对中的两张图像是否相似,在数据集中就表现为两张服饰图像是否属于相同类别,相似为1,否则为0,t为边界阈值参数,α为正则化强度参数;该损失函数的前两项能够很好地让同类别的图片生成的类二值码尽可能相近,而不同
类别的图像的类二值码尽可能相互远离,优化损失的过程中会让h
i,1
,h
i,2
分别尽可能接近

1或1,这样可以生成接近二值的输出,最后把0作为分界点进行二值化,即可获得标准二值输出;汉明空间中进行粗检索,在粗检索阶段,对于查询图片经过网络输出后得到的n维二值表示b
q
,数据库中任一项服饰的二值表示b
i
,根据如下汉明距离对数据库中的服装项进行排序:在图像特征空间中进行检索,在细检索阶段,取粗检索阶段得到的前K项结果,对于查询图片经过ResNet得到的输出表示为r
q
,粗检索阶段得到的前K项中任一结果经过ResNet得到的输出表示为r
i
,再对其基于图像深层特征的欧氏距离进行排序:dist
f
(r
q
,r
i
)=‖r
q
,r
i
‖2.从而得到较为准确的检索结果。4.如权利要求1所述的分层多模态的知识产权搜索引擎方法,其特征在于,所述通过文本分类网络对查询文本进行提前分类,通过类别筛选有效地缩小搜索范围,再在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索,得到文本检索结果,具体为:使用基于doc2vec的文本嵌入特征提取模型,提取输入的查询文本的特征向量;使用以LSTM为核心部件构造的文本分类网络,将查询文本输入到文本分类网络,得到分类出的文本类别;在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索。5.如权利要求1所述的分层多模态的知识产权搜索引擎方法,其特征在于,所述将上述所述得到的文本检索输入到相似知识产权推荐模型中,推荐出相似结果,具体为:在推荐模型中,定义关联性为两个单词x,y的互信息:两个单词关联性越强则互信息值越大,这通常表现为两个单词经常...

【专利技术属性】
技术研发人员:周凡苏志宏林谋广
申请(专利权)人:广东融谷创新产业园有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1