文档查询方法、装置、存储介质及电子设备制造方法及图纸

技术编号:27935601 阅读:11 留言:0更新日期:2021-04-02 14:15
本发明专利技术实施例提供了一种文档查询方法、装置、存储介质及电子设备,可以获得用户输入的目标词组;获得所述目标词组的相似词组,将所述相似词组和所述目标词组确定为待查询词组;在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,当查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点;将获得的至少一个文件节点对应的文档确定为查询结果。本发明专利技术无需进行全文查询,查询速度较快。

【技术实现步骤摘要】
文档查询方法、装置、存储介质及电子设备
本专利技术涉及文档查询
,特别是涉及文档查询方法、装置、存储介质及电子设备。
技术介绍
随着电子化办公的普及,各种文档越来越多。用户常需要查询某些文档。当前对文档的查询一般直接根据用户输入的检索词在文档中进行全文查询,当某个文档中包括有检索词时,则将该文档作为查询结果输出。但是,全文查询的查询速度较慢。
技术实现思路
本专利技术实施例的目的在于提供一种文档查询方法、装置、存储介质及电子设备,以提高查询速度。具体技术方案如下:一种文档查询方法,包括:获得用户输入的目标词组;获得所述目标词组的相似词组,将所述相似词组和所述目标词组确定为待查询词组;在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,当查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点;将获得的至少一个文件节点对应的文档确定为查询结果。可选的,所述获得所述目标词组的相似词组,包括:获得所述目标词组的词向量;在所述目标词组对应的领域的预设词向量字典中,获得与所述目标词组的词向量的相似度满足预设相似度要求的词组,将所述预设相似度要求的词组确定为所述目标词组的相似词组。可选的,所述预先构建的知识图谱为所述目标词组对应的领域的知识图谱,和/或,所述关键词节点位于与所述关键词节点具有直接连接关系的文档节点对应的文档中。可选的,所述在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,当查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点,包括:使用所述待查询词组构建知识图谱查询语句,执行所述知识图谱查询语句,其中,所述知识图谱查询语句用于:在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,并在查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点。可选的,所述预先构建的知识图谱的构建过程包括:获得多个文档;对所述文档进行分词处理,获得多个词组;将所述多个词组中的停用词去除;通过预设关键词抽取算法,从去除所述停用词后的所述多个词组中抽取关键词;根据所述多个文档与所述关键词的包含关系,建立三元组;根据所述三元组在知识图谱中建立所述关键词节点、所述文档节点以及所述直接连接关系。一种文档查询装置,包括:目标词组获得单元、相似词组获得单元、节点查询单元和结果确定单元,所述目标词组获得单元,用于获得用户输入的目标词组;所述相似词组获得单元,用于获得所述目标词组的相似词组,将所述相似词组和所述目标词组确定为待查询词组;所述节点查询单元,用于在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,当查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点;所述结果确定单元,用于将获得的至少一个文件节点对应的文档确定为查询结果。可选的,所述相似词组获得单元获得所述目标词组的相似词组,具体配置为:获得所述目标词组的词向量;在所述目标词组对应的领域的预设词向量字典中,获得与所述目标词组的词向量的相似度满足预设相似度要求的词组,将所述预设相似度要求的词组确定为所述目标词组的相似词组。可选的,所述预先构建的知识图谱为所述目标词组对应的领域的知识图谱,和/或,所述关键词节点位于与所述关键词节点具有直接连接关系的文档节点对应的文档中。一种存储介质,其上存储有程序,所述程序被处理器执行时实现上述的任一种文档查询方法。一种电子设备,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述的任一种文档查询方法。本专利技术实施例提供的文档查询方法、装置、存储介质及电子设备,可以获得用户输入的目标词组;获得所述目标词组的相似词组,将所述相似词组和所述目标词组确定为待查询词组;在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,当查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点;将获得的至少一个文件节点对应的文档确定为查询结果。本专利技术无需进行全文查询,查询速度较快。当然,实施本专利技术的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种文档查询方法的流程图;图2为本专利技术实施例提供的一种知识图谱的示意图;图3为本专利技术实施例提供的一种知识图谱的构建过程的示意图;图4为本专利技术实施例提供的一种基于python实现本专利技术文档查询方法的示意图;图5为本专利技术实施例提供的一种文档查询装置的结构示意图;图6为本专利技术实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供的一种文档查询方法,可以包括:S100、获得用户输入的目标词组。其中,用户输入的目标词组可以为一个或多个词组,当为多个词组时,用户可以通过分隔符号(如空格,顿号,分号,逗号等)来分割各个词组。当然,在其他实施例中,本专利技术也可以自动识别用户输入的内容并进行切割以获得至少一个目标词组。可选的,本专利技术可以通过分词技术来对用户输入的内容并进行切割。S200、获得目标词组的相似词组,将相似词组和目标词组确定为待查询词组。可以理解的是,如果仅通过用户输入的目标词组进行查询,则查询的范围较窄,无法有效覆盖所需要查询的文档。而通过目标词组和相似词组,本专利技术不仅可以查询包括目标词组的文档,还可以查询到包含目标词组的相似词组的文档,有效提高了查询结果的覆盖度和准确度。可选的,获得目标词组的相似词组,可以具体包括:获得目标词组的词向量;在目标词组对应的领域的预设词向量字典中,获得与目标词组的词向量的相似度满足预设相似度要求的词组,将预设相似度要求的词组确定为目标词组的相似词组。可选的,本专利技术可以通过Word2vec模型来获得目标词组的词向量。Word2vec是用来产生词向量的模型,利用神经网络通本文档来自技高网...

【技术保护点】
1.一种文档查询方法,其特征在于,包括:/n获得用户输入的目标词组;/n获得所述目标词组的相似词组,将所述相似词组和所述目标词组确定为待查询词组;/n在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,当查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点;/n将获得的至少一个文件节点对应的文档确定为查询结果。/n

【技术特征摘要】
1.一种文档查询方法,其特征在于,包括:
获得用户输入的目标词组;
获得所述目标词组的相似词组,将所述相似词组和所述目标词组确定为待查询词组;
在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,当查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点;
将获得的至少一个文件节点对应的文档确定为查询结果。


2.根据权利要求1所述的方法,其特征在于,所述获得所述目标词组的相似词组,包括:
获得所述目标词组的词向量;
在所述目标词组对应的领域的预设词向量字典中,获得与所述目标词组的词向量的相似度满足预设相似度要求的词组,将所述预设相似度要求的词组确定为所述目标词组的相似词组。


3.根据权利要求1所述的方法,其特征在于,所述预先构建的知识图谱为所述目标词组对应的领域的知识图谱,和/或,所述关键词节点位于与所述关键词节点具有直接连接关系的文档节点对应的文档中。


4.根据权利要求1所述的方法,其特征在于,所述在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,当查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点,包括:
使用所述待查询词组构建知识图谱查询语句,执行所述知识图谱查询语句,其中,所述知识图谱查询语句用于:
在预先构建的知识图谱中查询与所述待查询词组对应的关键词节点,并在查询到与所述待查询词组对应的关键词节点时,获得与查询到的所述关键词节点具有直接连接关系的文档节点。


5.根据权利要求1所述的方法,其特征在于,所述预先构建的知识图谱的构建过程包括:
获得多个文档;
对所述文档进行分词处理,获得多个词组;
将所述多个词组中的停用词去除;
通过预设关键词抽取算法,从去除所述停用词后的所述...

【专利技术属性】
技术研发人员:俞宣伊黄荣刘俊峰谭文静孙丽黎初娜熊浩
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1