非结构化数据的结构化检索方法及系统技术方案

技术编号:9765829 阅读:163 留言:0更新日期:2014-03-15 11:07
本发明专利技术公开了一种非结构化数据的结构化检索方法,该方法包括:根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。本发明专利技术还公开了一种非结构化数据的结构化检索系统,该系统包括配置单元、解析单元、检索管理操作执行单元,其中,检索管理操作执行单元,用于将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。采用本发明专利技术,检索效率高,检索管理复杂度低。

【技术实现步骤摘要】
非结构化数据的结构化检索方法及系统
本专利技术涉及数据检索管理技术,尤其涉及一种非结构化数据的结构化检索方法及系统。
技术介绍
目前业界对非结构化数据的检索主要使用全文索引技术,通过建立倒排索引文件的传统方法,以便可以根据关键字对非结构化数据进行全文内容检索。所谓倒排索引文件指:由倒排索引构成基于主文档的索引文件。该倒排索引文件中的每一项都包括一个属性值和具有该属性值的各记录的地址,从而由该属性值来确定记录的位置。其中,所述属性值可以是关键词,相应地,所述具有该属性值的各记录的地址就是关键词在一个主文档或者一组主文档中的存储位置,这样,在倒排索引文件中设置了关键词和其对应的地址的映射关系,就能通过关键词迅速找到主文档中的对应数据了。然而,通过上述对现有倒排索引检索技术的实现原理描述可知,这种检索技术由于是通过关键词来进行检索,因此,对结构化的数据,尤其是简单的文本信息的检索是比较有效的,针对非结构化的数据,如多媒体信息、图片信息、报表信息这些非文本信息的检索,采用现有倒排索引检索技术却非常不便利,最多只能对非结构化数据进行一些简单的文本检索操作。随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大,如果仍然采用现有的倒排索引检索技术,不仅检索效率低下,检索管理复杂度也会越来越高。目前迫切需要一种检索方案,能对非结构化数据进行处理,并能达到和处理结构化数据一样的检索效果,降低检索管理复杂度。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种非结构化数据的结构化检索方法及系统,对非结构化数据进行处理,不仅能达到和处理结构化数据一样的检索效果,而且检索效率高,降低检索管理复杂度。为达到上述目的,本专利技术的技术方案是这样实现的:一种非结构化数据的结构化检索方法,该方法包括:根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。其中,所述检索管理操作具体包括:对非结构化数据的匹配查询、格式转换、统计分析操作中的一种或至少一种的组合。其中,所述配置还包括:对不同类型的非结构化数据,对应所配置的不同的非结构化数据检索脚本,分别设置提取策略。其中,所述提取非结构化数据检索脚本所需的参数具体包括:根据所述提取策略,提取所述非结构化数据检索脚本所需的参数,所提取的参数与当前被调用的所述非结构化数据检索脚本相对应。一种非结构化数据的结构化检索系统,该系统包括:配置单元、解析单元、检索管理操作执行单元;其中,所述配置单元,用于根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;所述解析单元,用于调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;所述检索管理操作执行单元,用于将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。其中,所述检索管理操作具体包括:对非结构化数据的匹配查询、格式转换、统计分析操作中的一种或至少一种的组合。其中,所述配置单元,进一步用于对不同类型的非结构化数据,对应所配置的不同的非结构化数据检索脚本,分别设置提取策略。其中,所述解析单元,进一步用于根据所述提取策略,提取所述非结构化数据检索脚本所需的参数,所提取的参数与当前被调用的所述非结构化数据检索脚本相对应。本专利技术根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。本专利技术由于能根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本,也就是说,是多格式配置,区别于现有技术是采用单一格式配置,因此,采用本专利技术,不仅能达到和处理结构化数据一样的检索效果,而且检索效率高,降低检索管理复杂度。【附图说明】图1为本专利技术方法的实现流程图;图2为本专利技术系统的组成结构示意图。【具体实施方式】本专利技术的基本思想是:根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。以下,将本专利技术与现有技术做一对比描述,以更好地突出本专利技术的优越性。本专利技术可以对不同的检索管理操作,分别配置不同的用于非结构化数据检索的参数和非结构化数据检索脚本。也可以说,针对具体的检索管理操作应用场景,本专利技术可以预先配置选择不同的格式,而现有技术是采用统一的单一格式,必须是关键字及其记录地址映射的格式,不能随机调整。本专利技术针对不同类型的非结构化数据也会选择不同的格式,具体的,首先,将音频和视频这些多媒体格式的数据预先经过语音与图形识别引擎,将这些多媒体格式的数据进行文件化之后,才能进行类似的非结构化处理,即为针对不同类型的非结构化数据也会选择不同的格式。从而,本专利技术不仅能对纯文本信息这种结构化数据进行处理,同样的,对非结构化数据,如多媒体信息、图片信息、报表信息这些非文本信息也可以进行处理,只要预先把各种情况都考虑周全,比如,对不同类型的非结构化数据,多媒体信息、图片信息、报表信息,在参数配置时分别设置提取规则,对应配置不同的非结构化数据检索脚本,那么,当这些提取的参数被传送给非结构化数据检索脚本时,就能通过适配检测出是针对哪一类非结构化数据的处理,从而快速完成检索管理操作。本专利技术的多格式设计不存在现有技术不能随机调整的弊端,按需采用多格式以适应不用操作应用场景,这种适配调整的方案不仅能兼容各种类型的数据检索(包括结构化数据和非结构化数据),而且定位准确,能快速完成检索管理操作。本专利技术的检索管理操作包括但不限于对非结构化数据的匹配查询、格式转换和统计分析操作。其中,非结构化数据检索脚本实际上是一个命令集,对应不同的检索管理操作,分为用于匹配查询的非结构化数据检索脚本、用于格式转换的非结构化数据检索脚本、用于统计分析的非结构化数据检索脚本。通过对非结构化数据检索脚本中命令的解析,可以获知当前是哪个操作执行命令(匹配查询、格式转换或统计分析操作)。最终,将对应类型的非结构化数据配置参数提取出来,传送给对应的非结构化数据检索脚本,完成对应的检索管理操作(匹配查询、格式转换或统计分析操作)。下面结合附图对技术方案的实施作进一步的详细描述。一种非结构化数据的结构化检索方法,如图1所示,该方法包括以下步骤:步骤101、根据不同的检索管理操作的需要,分别配置用于非结构化数据检索的参数和非结构化数据检索脚本。步骤102、调用非结构化数据检索脚本并解析,从所配置的参数中提取所调用的该非结构化数据检索脚本所需的参数。这里,由于非结构化数据有多种类型,如多媒体信息、图片信息、报表信息,因此,还需要在步骤101的配置操作中,对不同类型的非结构化数据本文档来自技高网...

【技术保护点】
一种非结构化数据的结构化检索方法,其特征在于,该方法包括:根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。

【技术特征摘要】
1.一种非结构化数据的结构化检索方法,其特征在于,该方法包括: 根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本; 调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数; 将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。2.根据权利要求1所述的方法,其特征在于,所述检索管理操作具体包括:对非结构化数据的匹配查询、格式转换、统计分析操作中的一种或至少一种的组合。3.根据权利要求1所述的方法,其特征在于,所述配置还包括:对不同类型的非结构化数据,对应所配置的不同的非结构化数据检索脚本,分别设置提取策略。4.根据权利要求3所述的方法,其特征在于,所述提取非结构化数据检索脚本所需的参数具体包括:根据所述提取策略,提取所述非结构化数据检索脚本所需的参数,所提取的参数与当前被调用的所述非结构化数据检索脚本相对应。5.一种非结构化数据的结构化检索系统,其特征在于...

【专利技术属性】
技术研发人员:孟进马春光
申请(专利权)人:深圳中兴网信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1