一种信息检索方法、电子设备及存储介质技术

技术编号:38773302 阅读:13 留言:0更新日期:2023-09-10 10:46
本申请公开了一种信息检索方法、电子设备及存储介质,信息检索方法包括:构建基于各异构数据库的元数据向量集和多个历史检索信息的词向量频繁集,基于词向量频繁集,在元数据向量集中确定目标候选项目,然后基于知识图谱三元组关系和TransE模型对目标候选项目进行分析,获取偏好特征向量,而后进一步获取目标检索信息和其在元数据向量集中所对应的初步检索结果,在初步检索结果中确定各待检索资源,并基于偏好特征向量对各待检索资源排序后输出。本申请提出的信息检索方法能够更准确、高效地获取所检索的信息。高效地获取所检索的信息。高效地获取所检索的信息。

【技术实现步骤摘要】
一种信息检索方法、电子设备及存储介质


[0001]本申请涉及信息检索
,特别涉及一种信息检索方法、电子设备及存储介质。

技术介绍

[0002]在创新发展的快速推动下,高速、大量的知识产权信息资源被收录,资源利用者可以通过互联网获取知识产权信息资源内容,方便了需求者对资源的充分利用,也保护了资源所属知识产权者的利益。但是随着可选用的知识产权信息资源数量的增长,给用户准确使用资源以避免侵权的问题也带来了很大的难度。
[0003]《Journal of Physics》上发表的一篇名为“Application of Natural Language Processing Technology in Educational Resources Retrieval”的文献中提出了一种信息检索方法,其利用自然语言处理技术能够很好地达到对文本类信息资源的处理效果,并通过简化检索关键词与资源的匹配关系,提升了检索性能。然而该检索方法仅在应用于小型数据库时能够获取较佳的检索效果,当应用于异构、体量较大的资源检索时效果较差。

技术实现思路

[0004]本申请实施例提供了一种信息检索方法、电子设备及存储介质,以解决现有技术中异构、体量较大的资源检索效果差问题。
[0005]第一方面,本申请实施例提供了一种信息检索方法,包括:基于各异构数据库重新构建元数据向量集,元数据向量集中的各元素均采用词向量表示;获取多个历史检索信息,构建多个历史检索信息的词向量频繁集;基于词向量频繁集,在元数据向量集中确定目标候选项目;基于知识图谱三元组关系和TransE模型对目标候选项目进行分析,获取偏好特征向量;获取目标检索信息和其在元数据向量集中所对应的初步检索结果;基于初步检索结果确定各待检索资源,并基于偏好特征向量对各待检索资源排序后输出。
[0006]在上述第一方面的一种可能的实现中,基于初步检索结果确定各待检索资源,并基于偏好特征向量对各待检索资源排序后输出,包括:针对初步检索结果中的每一个检索资源,获取检索资源与目标检索信息之间的相似度权重,并基于相似度权重确定检索资源的注意力值;获取注意力值高于设定值的所有检索资源作为待检索资源;获取各待检索资源与偏好特征向量之间的相似度;对各待检索资源按照相似度由高到低依次排序后输出。
[0007]在上述第一方面的一种可能的实现中,获取各待检索资源与偏好特征向量之间的
相似度,包括:获取各待检索资源与目标检索信息之间的匹配度;将各待检索资源按照匹配度降序排列;选取排序靠前的部分待检索资源,获取其与偏好特征向量之间的相似度;按照相似度由高到低,将排序靠前的部分待检索资源依次排序后输出。
[0008]在上述第一方面的一种可能的实现中,匹配度是基于TFIDF算法获取的。
[0009]在上述第一方面的一种可能的实现中,检索资源的注意力值是基于包括门控循环单元的双向循环神经网络模型获取的。
[0010]在上述第一方面的一种可能的实现中,基于词向量频繁集,在元数据向量集中确定目标候选项目,包括:基于词向量频繁集,获取元数据向量集中的与多个历史检索信息相关联的所有资源,作为候选项目集;获取候选项目集中的各元素与词向量频繁集之间的距离,作为元素的支持度;基于支持度最小的元素确定目标候选项目。
[0011]在上述第一方面的一种可能的实现中,目标候选项目满足设定检索关联规则。
[0012]在上述第一方面的一种可能的实现中,基于各异构数据库重新构建元数据向量集,包括:获取各异构数据库中的元数据;将元数据按照RDF格式的标准,利用转换技术进行统一规范、去重和整合处理;基于Skipgram词向量计算方法将处理后的各元数据转换为词向量形式。
[0013]第二方面,本申请实施里提供了一种电子设备,包括:存储器,用于存储由电子设备的一个或多个处理器执行的指令;以及,处理器,当处理器执行存储器中的指令时,可使得电子设备执行上述第一方面任一种可能的实现中的方法。
[0014]第三方面,本申请实施里提供了一种计算机可读存储介质,计算机可读存储介质上存储有指令,该指令在计算机上执行时使得计算机执行上述第一方面任一种可能的实现中的方法。
[0015]与现有技术相比,本申请至少具有以下技术效果:通过对各异构数据库中的各资源数据进行初步处理后,进一步利用知识图谱三元组关系和TransE模型对用户检索资源时的深层意识进行挖掘,获取用户对检索资源的偏好特征向量,然后将用户对检索资源的偏好特征向量作为资源匹配的最后一环,完成对信息资源的检索,并将检索结果按排序反馈给用户。本申请使用本申请提出的基于数据挖掘的方法能够更准确、高效地获取所检索的信息,并且该方法应用于模糊资源检索时,检索的资源更符合检索者的需求标准,其检索效果相比现行的资源检索大幅提升。
附图说明
[0016]图1根据本申请的一些实施例,示出了信息检索方法的流程示意图;图2根据本申请的一些实施例,示出了元数据向量集构建方法的流程示意图;图3根据本申请的一些实施例,示出了各待检索资源输出方法的流程示意图;图4根据本申请的一些实施例,示出了各个检索方法的检索输出与预测的检索结
果的匹配值分布图;图5根据本申请的一些实施例,示出了电子设备的结构示意图;图6根据本申请的一些实施例,示出了片上系统(System on Chip,SOC)的结构示意图。
具体实施方式
[0017]下面结合具体实施例和附图对本申请做进一步说明。可以理解的是,本公开的说明性实施例包括但不限于信息检索方法、电子设备及存储介质。此处描述的具体实施例仅仅是为了解释本申请,而非对本申请的限定。此外,为了便于描述,附图中仅示出了与本申请相关的部分而非全部的结构或过程。
[0018]以下由特定的具体实施例说明本申请的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本申请的其他优点及功效。虽然本申请的描述将结合较佳实施例一起介绍,但这并不代表此申请的特征仅限于该实施方式。恰恰相反,结合实施方式作专利技术介绍的目的是为了覆盖基于本申请的权利要求而有可能延伸出的其它选择或改造。为了提供对本申请的深度了解,以下描述中将包含许多具体的细节。本申请也可以不使用这些细节实施。此外,为了避免混乱或模糊本申请的重点,有些具体细节将在描述中被省略。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0019]随着创新发展的快速推动,人们的知识产权保护意识不断增强,高校作为科研重地之一,如何有效利用知识产权信息资源,提高知识产权信息资源利用效率是高校进行教学、科研研究无法回避的主要问题之一。
[0020]高校知识产权信息资源库中存储的信息资源类型比较丰富,无法采用一种元数据标准就可以将所有类型的知识产权信息资源统一进行描述。在对知识产权信息资源数据进行管理时,通常为方便管理主要是将不同的资源存储在各个互不相同且各自独立的异构数据库中,这也给高校信息检索带来了一定的难度。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息检索方法,用于检索异构数据库中的信息,其特征在于,包括:基于各所述异构数据库重新构建元数据向量集,所述元数据向量集中的各元素均采用词向量表示;获取多个历史检索信息,构建所述多个历史检索信息的词向量频繁集;基于所述词向量频繁集,在所述元数据向量集中确定目标候选项目;基于知识图谱三元组关系和TransE模型对所述目标候选项目进行分析,获取偏好特征向量;获取目标检索信息和其在所述元数据向量集中所对应的初步检索结果;基于所述初步检索结果确定各待检索资源,并基于所述偏好特征向量对各所述待检索资源排序后输出。2.如权利要求1所述的信息检索方法,其特征在于,所述基于所述初步检索结果确定各待检索资源,并基于所述偏好特征向量对各所述待检索资源排序后输出,包括:针对所述初步检索结果中的每一个检索资源,获取所述检索资源与所述目标检索信息之间的相似度权重,并基于所述相似度权重确定所述检索资源的注意力值;获取所述注意力值高于设定值的所有所述检索资源作为待检索资源;获取各所述待检索资源与所述偏好特征向量之间的相似度;对各所述待检索资源按照所述相似度由高到低依次排序后输出。3.如权利要求2所述的信息检索方法,其特征在于,所述获取各所述待检索资源与所述偏好特征向量之间的相似度,对各所述待检索资源按照所述相似度由高到低依次排序后输出,包括:获取各所述待检索资源与所述目标检索信息之间的匹配度;将各所述待检索资源按照所述匹配度降序排列;选取排序靠前的部分所述待检索资源,获取其与所述偏好特征向量之间的相似度;按照所述相似度由高到低,将所述排序靠前的...

【专利技术属性】
技术研发人员:李刚庄春华殷学丰汪永生王成成
申请(专利权)人:中国人民解放军海军潜艇学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1