文档查询方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:22387287 阅读:31 留言:0更新日期:2019-10-29 06:29
本申请涉及数据处理领域,特别涉及数据查询,也即一种文档查询方法、装置、计算机设备和存储介质。方法包括:获取待查询文档与查询信息,根据查询信息从待查询文档中筛选得到初始文档;提取初始文档中包含的初始页面数据,计算查询信息与初始页面数据的相似度指标;获取相似度指标对应的第一指标权重,根据第一指标权重与相似度指标计算查询信息与初始页面数据的目标相似度;判断目标相似度是否超过阈值,当目标相似度超过阈值时,则选取超过阈值的目标相似度对应的初始页面数据作为目标页面数据,并将目标页面数据对应的第一文档标识以及目标页面数据输出。采用本方法能够提高对文档的查询效率。

Document query methods, devices, computer equipment and storage media

【技术实现步骤摘要】
文档查询方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种文档查询方法、装置、计算机设备和存储介质。
技术介绍
随着计算机技术的发展,用户越来越多的行为可以通过计算机实现,例如,法律工作人员可以查找存储在计算机上的证据文件。传统地,查找证据文件通常都是人工逐一对不同的证据文件进行浏览,查找所需要的证据文件,导致查询效率低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高查询效率的文档查询方法、装置、计算机设备和存储介质。一种文档查询方法,所述方法包括:获取待查询文档与查询信息,根据所述查询信息从所述待查询文档中筛选得到初始文档;提取所述初始文档中包含的初始页面数据,计算所述查询信息与所述初始页面数据的相似度指标;获取所述相似度指标对应的第一指标权重,根据所述第一指标权重与所述相似度指标计算所述查询信息与所述初始页面数据的目标相似度;判断所述目标相似度是否超过阈值,当所述目标相似度超过阈值时,则选取超过所述阈值的目标相似度对应的所述初始页面数据作为目标页面数据,并将所述目标页面数据对应的第一文档标识以及目标页面数据输出。在一个实施例中,所述根据所述查询信息从所述待查询文档中筛选得到初始文档,包括:将所述查询信息进行分词得到查询关键词;对所述查询关键词进行标准化处理得到标准化的查询关键词;获取待查询文档关联的映射关系,根据所述标准化的查询关键词与所述映射关系,从所述待查询文档中筛选得到初始文档。在一个实施例中,所述计算所述查询信息与所述初始页面数据的相似度指标,包括:提取所述相似度指标对应的指标类型,当所述指标类型为集合相似度时,则获取所述初始页面数据关联的分词逻辑;根据所述分词逻辑将所述初始页面数据进行分词得到第一关键词集合,并将所述查询关键词进行组合得到第二关键词集合;根据所述第一关键词集合与所述第二关键词集合计算所述集合相似度。在一个实施例中,所述计算所述查询信息与所述初始页面数据的相似度指标,包括:当所述指标类型为文本匹配指标时,则获取所述查询信息中包含的所述查询关键词的第一词频,并获取所述初始页面数据中包含所述查询关键词的第二词频;统计包含所述查询关键词的所述初始文档的包含数量,根据所述文档包含数量与所述查询关键词计算评价权重;获取调节因子,并获取所述初始文档的总数量,根据所述调节因子、总数量、第一词频、第二词频以及所述评价权重计算文档匹配指标。在一个实施例中,提取计算所述查询信息与所述初始页面数据的相似度指标,包括:当所述指标类型为包含度指标时,则获取所述查询关键词对应的词语得分;当所述查询关键词包含在所述初始文档中时,则根据所述词语得分计算得到包含度指标。在一个实施例中,所述查询所述目标相似度是否超过阈值之后,包括:当所述目标相似度未超过阈值时,则判断所述查询信息是否存在替换信息;当存在所述替换信息时,则根据所述替换信息计算与所述初始页面数据对应的替换指标;获取与所述相似度指标对应的第二指标权重,根据所述第二指标权重与所述替换指标计算所述初始页面数据与所述替换信息的替换相似度;查询所述替换相似度是否超过阈值,当超过阈值时,则选取超过阈值的替换相似度对应的初始页面数据作为关联页面数据,并将所述关联页面数据对应的第二文档标识、所述关联页面数据以及所述替换信息输出。一种文档查询装置,其特征在于,所述装置包括:获取模块,用于获取待查询文档与查询信息,根据所述查询信息从所述待查询文档中筛选得到初始文档;提取模块,用于提取所述初始文档中包含的初始页面数据,计算所述查询信息与所述初始页面数据的相似度指标;计算模块,用于获取所述相似度指标对应的第一指标权重,根据所述第一指标权重与所述相似度指标计算所述查询信息与所述初始页面数据的目标相似度;判断模块,用于判断所述目标相似度是否超过阈值,当所述目标相似度超过阈值时,则选取超过所述阈值的目标相似度对应的所述初始页面数据作为目标页面数据,并将所述目标页面数据对应的第一文档标识以及目标页面数据输出。在一个实施例中,所述获取模块,包括:分词单元,用于将所述查询信息进行分词得到查询关键词;处理单元,用于对所述查询关键词进行标准化处理得到标准化的查询关键词;筛选单元,用于获取待查询文档关联的映射关系,根据所述标准化的查询关键词与所述映射关系,从所述待查询文档中筛选得到初始文档。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。上述文档查询方法、装置、计算机设备和存储介质,无需人工逐一对文档进行浏览查询到所需要的文档,而是获取待查询文档与查询信息,根据查询信息从待查询文档汇总筛选得到初始文档,提取初始文档中包含的初始页面数据,计算查询信息与初始页面数据对应的相似度指标,进而获取相似度指标对应的第一指标权重,根据第一指标权重与相似度指标计算查询信息与初始页面数据的目标相似度,查询目标相似度是否超过阈值,当目标相似度超过阈值时,则将超过阈值的初始页面数据所关联的第一文档标识以及关联页面数据输出。从而可以提高对文档的查询效率。附图说明图1为一个实施例中文档查询方法的应用场景图;图2为一个实施例中文档查询方法的流程示意图;图3为一个实施例中筛选步骤的流程示意图;图4为一个实施例中文档查询装置的结构框图;图5为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的文档查询方法,可以应用于如图1所示的应用环境中。其中,终端102与服务器104通过网络进行通信。服务器104从终端102获取带查询文档与查询信息,根据查询信息从待查询文档中筛选得到初始文档,服务器104从筛选得到的初始文档中提取包含的初始页面数据,计算查询信息与初始页面数据的相似度指标,服务器104获取相似度指标对应的第一指标权重,根据第一指标权重与相似度指标计算查询信息与初始页面数据的目标相似度,服务器104判断目标相似度是否超过阈值,当目标相似度超过阈值时,则服务器104选取超过阈值的目标相似度对应的初始页面数据作为目标页面数据,并将目标页面数据对应的第一文档标识以及目标页面输出。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种文档从查询方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:S202:获取待查询文档与查询信息,根据查询信息从待查询文档中筛选得到初始文档。具体地,待查询文档是指服务器中存储的文档,待查询文档可以是指存储在服务器中的案件相关文档,例如,待查询文档是相关的证据文档,或者案情介绍文档等。查询信息是指查询出相关的待存储文档的关键信息,查询信息可以是语句信息,可以是词语信息等。初始文档是指根据查询信息从待查询文档中选取得到的相关文档。具体地,服务器扫描原文档,将原本文档来自技高网...

【技术保护点】
1.一种文档查询方法,所述方法包括:获取待查询文档与查询信息,根据所述查询信息从所述待查询文档中筛选得到初始文档;提取所述初始文档中包含的初始页面数据,计算所述查询信息与所述初始页面数据的相似度指标;获取所述相似度指标对应的第一指标权重,根据所述第一指标权重与所述相似度指标计算所述查询信息与所述初始页面数据的目标相似度;判断所述目标相似度是否超过阈值,当所述目标相似度超过阈值时,则选取超过所述阈值的目标相似度对应的所述初始页面数据作为目标页面数据,并将所述目标页面数据对应的第一文档标识以及目标页面数据输出。

【技术特征摘要】
1.一种文档查询方法,所述方法包括:获取待查询文档与查询信息,根据所述查询信息从所述待查询文档中筛选得到初始文档;提取所述初始文档中包含的初始页面数据,计算所述查询信息与所述初始页面数据的相似度指标;获取所述相似度指标对应的第一指标权重,根据所述第一指标权重与所述相似度指标计算所述查询信息与所述初始页面数据的目标相似度;判断所述目标相似度是否超过阈值,当所述目标相似度超过阈值时,则选取超过所述阈值的目标相似度对应的所述初始页面数据作为目标页面数据,并将所述目标页面数据对应的第一文档标识以及目标页面数据输出。2.根据权利要求1所述的方法,其特征在于,所述根据所述查询信息从所述待查询文档中筛选得到初始文档,包括:将所述查询信息进行分词得到查询关键词;对所述查询关键词进行标准化处理得到标准化的查询关键词;获取待查询文档关联的映射关系,根据所述标准化的查询关键词与所述映射关系,从所述待查询文档中筛选得到初始文档。3.根据权利要求1所述的方法,其特征在于,所述计算所述查询信息与所述初始页面数据的相似度指标,包括:提取相似度指标对应的指标类型,当所述指标类型为集合相似度时,则获取所述初始页面数据关联的分词逻辑;根据所述分词逻辑将所述初始页面数据进行分词得到第一关键词集合,并将所述查询关键词进行组合得到第二关键词集合;根据所述第一关键词集合与所述第二关键词集合计算所述集合相似度。4.根据权利要求1所述的方法,其特征在于,所述计算所述查询信息与所述初始页面数据的相似度指标,包括:当所述指标类型为文本匹配指标时,则获取所述查询信息中包含的所述查询关键词的第一词频,并获取所述初始页面数据中包含所述查询关键词的第二词频;统计包含所述查询关键词的所述初始文档的包含数量,根据所述文档包含数量与所述查询关键词计算评价权重;获取调节因子,并获取所述初始文档的总数量,根据所述调节因子、总数量、第一词频、第二词频以及所述评价权重计算文档匹配指标。5.根据权利要求1所述的方法,其特征在于,提取计算所述查询信息与所述初始页面数据的相似度指标,包括:当所述指标类型为包含度指标时,则获取所述查询关键词对应的词语得...

【专利技术属性】
技术研发人员:叶素兰窦文伟潘诗韵李弘何麒徐国强
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1