一种文献检索方法、文献检索装置、电子设备及存储介质制造方法及图纸

技术编号:25915032 阅读:17 留言:0更新日期:2020-10-13 10:33
本申请适用于人工智能技术领域,提供了一种文献检索方法、文献检索装置、电子设备及存储介质。其中,该方法包括:基于待检索语句生成待检索句向量;通过预设的聚类模型确定待检索句向量所属的第一向量集合;根据待检索句向量与第一向量集合的中心向量的距离,确定待检索句向量所属的第二向量集合;将待检索句向量与第二向量集合的各个句向量进行相似度计算,以在第二向量集合中确定目标句向量;输出目标句向量所指向的文献。通过本申请方案,可提升基于语义进行大规模的全文检索的检索效率。此外,本申请还涉及区块链技术领域,其中的聚类模型可被存储于区块链中。

【技术实现步骤摘要】
一种文献检索方法、文献检索装置、电子设备及存储介质
本申请涉及人工智能
,尤其涉及一种文献检索方法、文献检索装置、电子设备及计算机可读存储介质。
技术介绍
目前业界往往采用Elasticsearch或slor等框架构建检索引擎,以实现大规模的全文检索。然而,基于这些框架所构建的检索引擎都需要先对被检索内容进行分词,再以分词结果为检索的基本单元进行检索,无法通过被检索内容的语义,检索出用词不同但语义相近的结果。而在基于语义对被检索内容进行检索分析时,每一次检索都需要将被检索内容与数据库中的所有内容进行语义相似度的计算,这会使检索所需的运算次数随着数据量的递增而暴增,导致检索效率低下。
技术实现思路
有鉴于此,本申请实施例提供了一种文献检索方法、文献检索装置、电子设备及计算机可读存储介质,可提升基于语义进行大规模的全文检索的检索效率。本申请实施例的第一方面提供了一种文献检索方法,包括:基于待检索语句生成待检索句向量;通过预设的聚类模型确定所述待检索句向量所属的第一向量集合,其中,所述第一向量集合包括句向量,所述句向量用于指向预设的数据库中的文献;根据所述待检索句向量与所述第一向量集合的中心向量的距离,确定所述待检索句向量所属的第二向量集合,其中,所述中心向量为所述第一向量集合的句向量的平均值,所述第二向量集合为所述第一向量集合的真子集;将所述待检索句向量与所述第二向量集合中的各个句向量进行相似度计算,以在所述第二向量集合中确定目标句向量;输出所述目标句向量所指向的文献。本申请实施例的第二方面提供了一种文献检索装置,包括:待检索句向量生成单元,用于基于待检索语句生成待检索句向量;第一向量集合确定单元,用于通过预设的聚类模型确定所述待检索句向量所属的第一向量集合,其中,所述第一向量集合包括句向量,所述句向量用于指向预设的数据库中的文献;第二向量集合确定单元,用于根据所述待检索句向量与所述第一向量集合的中心向量的距离,确定所述待检索句向量所属的第二向量集合,其中,所述中心向量为所述第一向量集合的句向量的平均值,所述第二向量集合为所述第一向量集合的真子集;目标句向量确定单元,用于将所述待检索句向量与所述第二向量集合中的各个句向量进行相似度计算,以在所述第二向量集合中确定目标句向量;检索结果输出单元,用于输出所述目标句向量所指向的文献。本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在上述存储器中并可在电子设备上运行的计算机程序,上述处理器执行上述计算机程序时实现第一方案提供的文献检索方法的各步骤。本申请实施例的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现第一方案提供的文献检索方法的各步骤。实施本申请实施例提供的一种文献检索方法、文献检索装置、电子设备及计算机可读存储介质具有以下有益效果:电子设备以待检索语句为单位进行语义检索。由于预先基于数据库划分了第一向量集合及各个第一向量集合下的第二向量集合,因而对待检索语句进行语义检索时不再需要遍历数据库中所存储的所有句向量,而是先确定与待检索语句最为匹配的第一向量集合,以此实现初步检索;再在最为匹配的第一向量集合中检索最为匹配的第二向量集合,以此实现深度检索;最后在最为匹配的第二向量集合中检索最为匹配的句向量,以此得到最终的检索结果。上述过程缩小了语义检索的范围、降低了语义检索的计算量,提升了语义检索的效率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的数据库的结构示意图;图2是本申请实施例提供的基于数据库的向量空间的构建流程示意图;图3是本申请实施例提供的基于向量空间划分第二向量集合的示意图;图4是本申请实施例提供的一种文献检索方法的实现流程示意图;图5是本申请实施例提供的一种文献检索装置的结构框图;图6是本申请实施例提供的一种电子设备的结构示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请实施例所涉及的文献检索方法,可以应用于服务器、台式电脑、手机、平板电脑、可穿戴设备、车载设备、增强现实(augmentedreality,AR)/虚拟现实(virtualreality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobilepersonalcomputer,UMPC)、上网本及个人数字助理(personaldigitalassistant,PDA)等电子设备上,本申请实施例对电子设备的具体类型不作任何限制。为便于理解本申请实施例所提供的文献检索方法,下面先对数据库及基于数据库所构建的向量空间作出介绍。请参阅图1,图1示出了本申请实施例提供的文献检索方法中所使用的数据库的结构。在该数据库中,存储有至少一个文献,且每一文献均由至少一个语句所构成。为了实现本申请实施例所提供的文献检索方法,电子设备需要预先基于数据库中所存储的内容(包括文献及各个文献中的语句),构建一向量空间。请参阅图2,基于上述数据库,向量空间的构建方法如下:步骤201,分别为各个文献分配唯一的文献索引号;在本实施例中,不同的文献对应不同的文献索引号。也即,文献与文献索引号之间呈现一一对应的关系:每一文献索引号唯一的指向了一篇文献,且一篇文献仅由一文献索引号指向。步骤202,针对每个文献,分别为组成该文献的语句分配唯一的语句索引号;在本实施例中,在给定的一篇文献内,不同的语句也可以对应不同的语句索引号。也即,在给定的一篇文献内,语句与语句索引号之间呈现一一对应的关系:每一语句索引号唯一的指向了该文献中的一个语句,且该篇文献中的一个语句仅由一语句索引号指向。示例性地,文献索引号及语句索引号均可从1开始向后编号,此处不作限定。举例来说,假定数据库中已有A篇文献(也即A个文档),则可分别为每一文献分配文献索引号,具体为从1、2、3直至A;类似地,对于文献1,假定该文献1中有B个语句,则可对该文献1中的语句分配语句索引号,具体为从1、2、3直至B;同样,对于文献2,假定该文献1中有C个语句,则可对该文献2中的语句分配语句索引号,具体为从1、2、3直至C。可见,虽然文献1及文献2中的语句均从1开始向后编号,但由于语句所属的文献的文献索引号不同,因而不会带来混淆。通过步骤201及202,可基于一给定的文献索引号及一给定的语句索引号唯一的确定数据库中的一特定文献及特定语句。本文档来自技高网...

【技术保护点】
1.一种文献检索方法,其特征在于,包括:/n基于待检索语句生成待检索句向量;/n通过预设的聚类模型确定所述待检索句向量所属的第一向量集合,其中,所述第一向量集合包括句向量,所述句向量用于指向预设的数据库中的文献;/n根据所述待检索句向量与所述第一向量集合的中心向量的距离,确定所述待检索句向量所属的第二向量集合,其中,所述中心向量为所述第一向量集合的句向量的平均值,所述第二向量集合为所述第一向量集合的真子集;/n将所述待检索句向量与所述第二向量集合中的各个句向量进行相似度计算,以在所述第二向量集合中确定目标句向量;/n输出所述目标句向量所指向的文献。/n

【技术特征摘要】
1.一种文献检索方法,其特征在于,包括:
基于待检索语句生成待检索句向量;
通过预设的聚类模型确定所述待检索句向量所属的第一向量集合,其中,所述第一向量集合包括句向量,所述句向量用于指向预设的数据库中的文献;
根据所述待检索句向量与所述第一向量集合的中心向量的距离,确定所述待检索句向量所属的第二向量集合,其中,所述中心向量为所述第一向量集合的句向量的平均值,所述第二向量集合为所述第一向量集合的真子集;
将所述待检索句向量与所述第二向量集合中的各个句向量进行相似度计算,以在所述第二向量集合中确定目标句向量;
输出所述目标句向量所指向的文献。


2.如权利要求1所述的文献检索方法,其特征在于,所述聚类模型存储于区块链中;在所述基于待检索语句生成待检索句向量之前,所述文献检索方法还包括:
对待检索文献进行分句处理,得到组成所述待检索文献的至少一个语句;
依次将所述至少一个语句中的任一语句确定为待检索语句。


3.如权利要求2所述的文献检索方法,其特征在于,在所述确定所述待检索句向量所属的第二向量集合之后,所述文献检索方法还包括:
为所述待检索文献分配空闲的文献索引号;
建立所述待检索文献所分配的文献索引号与所述待检索句向量的关联关系;
基于所述关联关系,将所述待检索句向量更新至所述第二向量集合中。


4.如权利要求1所述的文献检索方法,其特征在于,所述根据所述待检索句向量与所述第一向量集合的中心向量的距离,确定所述待检索句向量所属的第二向量集合,包括:
计算所述待检索句向量与所述第一向量集合的中心向量的距离;
在与所述第一向量集合相关联的预设的至少两个距离区间中,确定所述距离所落入的目标距离区间;
将所述目标距离区间所关联的第二向量集合确定为所述待检索句向量所属的第二向量集合。


5.如权利要求4所述的文献检索方法,其特征在于,在所述根据所述待检索句向量与所述第一向量集合的中心向量的距离,确定所述待检索句向量所属的第二向量集合之前,所述文献检索方法还包括:
分别计算所述第一向量...

【专利技术属性】
技术研发人员:党升
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1