本发明专利技术公开了用于检索数据的方法和检索引擎系统,该方法包括:构建用于检索数据的检索引擎,所述检索引擎包括多层索引树;接收来自用户的检索条件;以及利用所述检索引擎,根据所述检索条件基于所述多层索引树检索所需的数据。根据本发明专利技术的用于检索数据的方法和检索引擎系统,通过构建多层索引树进行数据检索,使得数据检索的深度显著增加,且能够实现快速高效的检索。快速高效的检索。快速高效的检索。
【技术实现步骤摘要】
用于检索数据的方法和检索引擎系统
[0001]本专利技术涉及数据检索领域,更具体地,涉及用于检索数据的方法和检索引擎系统。
技术介绍
[0002]随着数字经济的发展,“数字化转型”成为大热门词汇,其反映出来的一个重要信息是,数据不仅仅是业务系统产生的结果,而是已经成为最重要的生产资料,反哺驱动业务发展。业务系统不仅仅需要有“广度”的大数据,更需要有“深度”的领域数据来支持业务发展。因此业务系统需要进行更大量、更灵活、更智能的基于领域知识的实时数据访问交互。
[0003]现有的搜索方案大体分为两类,一类是利用第三方搜索引擎组件提供文本搜索功能,搜索规则为文本搜索或文本相似度查找。另一类是根据检索内容预先构建结构化数据信息索引,根据预设规则进行检索。
[0004]然而,利用第三方搜索引擎组件进行检索是建立在文本搜索基础之上,方式规则较为单一,在领域内容垂直检索方向效果有限,且由于构建成本高、和业务系统解耦等问题,因此难以实现强大的业务规则检索和快速迭代。
[0005]预先构建结构化数据信息索引则是根据需要检索的字段或者关键词,构建基于关键词的快速查询方式(例如,倒排索引),但该方式缺点在于依然是基于文本匹配进行关键词或者文本相似度查找,规则单一,对自然语言处理效果很差。
[0006]因此,需要一种新型的用于检索数据的方法、检索引擎系统,以解决上述问题。
技术实现思路
[0007]在
技术实现思路
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本专利技术的
技术实现思路
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
[0008]根据本专利技术的一方面,提供了一种用于检索数据的方法,所述方法包括:构建用于检索数据的检索引擎,所述检索引擎包括多层索引树;接收来自用户的检索条件;以及利用所述检索引擎,根据所述检索条件基于所述多层索引树检索所需的数据。
[0009]在一个实施例中,其中构建所述检索引擎包括:提取语料数据中的知识;从所述知识提取词汇,基于所提取的词汇构建词汇表和同义词表;从所述知识构建所述多层索引树;以及由所述多层索引树、所述词汇表和同义词表、以及所述知识组成所述检索引擎。
[0010]在一个实施例中,其中从所述知识构建所述多层索引树,包括:从所述知识提取所述多层索引树的各个层的检索字段及相应的值域对象;以及基于所述检索字段和值域对象构建所述多层索引树,并为所述多层索引树的每一层设置相应的检索规则。
[0011]在一个实施例中,其中构建所述检索引擎还包括:对所述知识进行实体标注,以获得标注知识;以及由所述多层索引树、所述词汇表和同义词表、所述知识以及所述标注知识组成所述检索引擎。
[0012]在一个实施例中,其中所述标注知识包括第一标注知识和第二标注知识,所述第
一标注知识用于识别所述多层索引树的子节点与相应父节点之间的对应关系,所述第二标注知识用于识别值域对象与相应子节点之间的对应关系。
[0013]在一个实施例中,其中根据所述检索条件基于所述多层索引树检索所需的数据,包括:根据所述检索条件中的第一关键词从所述多层索引树中检索到与所述第一关键词相对应的所述多层索引树的第一节点;基于所述检索条件中的第二关键词向下遍历所述第一节点的下层节点,检索到所述多层索引树中与所述第二关键词相匹配的节点作为目标节点;以及获取与所述目标节点相对应的值域对象作为所需的数据。
[0014]在一个实施例中,其中基于所述检索条件中的第二关键词向下遍历所述第一节点的下层节点,包括:利用所述第一标注知识确定所述多层索引树中与所述第二关键词相对应的所述第一节点的下层节点。
[0015]在一个实施例中,其中获取与所述目标节点相对应的值域对象作为所需的数据,包括:利用所述第二标注知识确定与所述第二关键词相匹配的匹配词;以及获取与所述匹配词相对应的知识作为所需的数据。
[0016]在一个实施例中,其中获取与所述目标节点相对应的值域对象作为所需的数据,包括:利用所述同义词表确定所述第二关键词的同义词或所述第二关键词的匹配词的同义词;以及获取与所述同义词相对应的知识作为所需的数据。
[0017]在一个实施例中,其中基于所述检索条件中的第二关键词向下遍历所述第一节点的下层节点,包括:如果所述下层节点中存在符合该层的检索规则的子节点,则记录该子节点,并遍历该子节点的下层节点;以及如果所述下层节点中不存在符合该层的检索规则的子节点,则返回所述下层节点的上一层节点。
[0018]在一个实施例中,其中所述语料知识包括领域知识和业务知识。
[0019]在一个实施例中,所述方法还包括:接收来自用户的用于对所述所需的数据进行统计的统计条件;以及
[0020]基于所述统计条件对所述所需的数据进行统计,以得到经统计的数据。
[0021]根据本专利技术的另一方面,提供了一种检索引擎系统,所述检索引擎系统包括:多层索引树,所述多层索引树中的每一层都具有各自的检索规则;知识,其从语料数据中提取;和词汇表和同义词表,分别用于存储从所述知识中提取的词汇及其同义词;和检索组件,用于根据所接收的来自用户的检索条件基于所述多层索引树检索所需的数据。
[0022]在一个实施例中,所述多层索引树通过以下方式进行构建:从所述知识提取所述多层索引树的各个层的检索字段及相应的值域对象;以及基于所述检索字段和值域对象构建所述多层索引树,并为所述多层索引树的每一层设置相应的检索规则。
[0023]在一个实施例中,所述检索引擎还包括标注知识,其通过对所述知识进行实体标注而获得。
[0024]在一个实施例中,所述标注知识包括第一标注知识和第二标注知识,所述第一标注知识用于识别所述多层索引树的子节点与相应父节点之间的对应关系,所述第二标注知识用于识别值域对象与相应子节点之间的对应关系。
[0025]在一个实施例中,其中所述语料知识包括领域知识和业务知识。
[0026]在一个实施例中,所述检索引擎还包括统计组件,用于接收来自用户的用于对所述所需的数据进行统计的统计条件,并基于所述统计条件对所述所需的数据进行统计,以
得到经统计的数据。
[0027]根据本专利技术实施例的用于检索数据的方法和检索引擎系统,通过构建多层索引树进行数据检索,使得数据检索的深度显著增加,且能够实现快速高效的检索。
附图说明
[0028]本专利技术的下列附图在此作为本专利技术的一部分用于理解本专利技术。附图中示出了本专利技术的实施例及其描述,用来解释本专利技术的原理。
[0029]附图中:
[0030]图1为根据本专利技术的一个实施例的用于检索数据的方法的示例性步骤流程图。
[0031]图2示出了根据本专利技术的一个实施例的示例性多层索引树的结构示意图。
[0032]图3示出了根据本专利技术的一个实施例的检索引擎系统的示意性结构框图。
具体实施方式
[本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于检索数据的方法,其特征在于,所述方法包括:构建用于检索数据的检索引擎,所述检索引擎包括多层索引树;接收来自用户的检索条件;以及利用所述检索引擎,根据所述检索条件基于所述多层索引树检索所需的数据。2.如权利要求1所述的方法,其特征在于,其中构建所述检索引擎包括:提取语料数据中的知识;从所述知识提取词汇,基于所提取的词汇构建词汇表和同义词表;从所述知识构建所述多层索引树;以及由所述多层索引树、所述词汇表和同义词表、以及所述知识组成所述检索引擎。3.如权利要求2所述的方法,其特征在于,其中从所述知识构建所述多层索引树,包括:从所述知识提取所述多层索引树的各个层的检索字段及相应的值域对象;以及基于所述检索字段和值域对象构建所述多层索引树,并为所述多层索引树的每一层设置相应的检索规则。4.如权利要求2所述的方法,其特征在于,其中构建所述检索引擎还包括:对所述知识进行实体标注,以获得标注知识;以及由所述多层索引树、所述词汇表和同义词表、所述知识以及所述标注知识组成所述检索引擎。5.如权利要求4所述的方法,其特征在于,其中所述标注知识包括第一标注知识和第二标注知识,所述第一标注知识用于识别所述多层索引树的子节点与相应父节点之间的对应关系,所述第二标注知识用于识别值域对象与相应子节点之间的对应关系。6.如权利要求5所述的方法,其特征在于,其中根据所述检索条件基于所述多层索引树检索所需的数据,包括:根据所述检索条件中的第一关键词从所述多层索引树中检索到与所述第一关键词相对应的所述多层索引树的第一节点;基于所述检索条件中的第二关键词向下遍历所述第一节点的下层节点,检索到所述多层索引树中与所述第二关键词相匹配的节点作为目标节点;以及获取与所述目标节点相对应的值域对象作为所需的数据。7.如权利要求6所述的方法,其特征在于,其中基于所述检索条件中的第二关键词向下遍历所述第一节点的下层节点,包括:利用所述第一标注知识确定所述多层索引树中与所述第二关键词相对应的所述第一节点的下层节点。8.如权利要求6所述的方法,其特征在于,其中获取与所述目标节点相对应的值域对象作为所需的数据,包括:利用所述第二标注知识确定与所述第二关键词相匹配的匹配词;以及获取与所述匹配词相对应的知识作为所需的数据。9.如权利要求6所述的方法,其特征在于,...
【专利技术属性】
技术研发人员:肖桥,付清来,
申请(专利权)人:安徽科大讯飞医疗信息技术有限公司武汉分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。