一种支持异构地学数据资源的检索方法及检索系统技术方案

技术编号:3853216 阅读:278 留言:1更新日期:2012-04-11 18:40
本发明专利技术公开了一种支持异构地学数据资源的检索方法及系统,该方法包括建立索引的步骤和检索索引的步骤,该建立索引的步骤进一步包括:一索引配置子步骤,用于以地学数据资源元数据作为数据源进行索引参数配置;一索引建立子步骤,用于根据该索引配置子步骤中配置的更新索引文件的参数,启动索引任务的建立,以根据配置好的索引参数建立索引。该检索索引的步骤进一步包括:一检索请求子步骤,用于根据检索需求生成检索请求;一检索子步骤,用于根据该检索请求进行检索,并输出检索结果到检索响应对象。本发明专利技术面向检索的代价和复杂度都比较高的异构地学数据资源,提供了一种灵活支持多种异构地学数据资源,并人性化展示的数据检索方法及数据检索系统。

【技术实现步骤摘要】

本专利技术涉及数据资源的查询检索领域,特别涉及一种灵活支持异构地学数据资源的检索方法及检索系统
技术介绍
数据是开展科学研究和进行政府决策的基础和前提。地学数据是科学数据中非常重要的一部分,是进行地球科学分支学科研究和地球系统科学综合研究的驱动力。由于地球科学研究范围涉及大气圈、水圈、岩石圈、生物圈等各个圈层,支持地学研究的科学数据具有时空性、综合性、海量、多源等特点。地学数据同时也是行业部门进行领导决策的基础资料,但是这些资料一般分散保存在不同的部门和个人手中。因此针对地学数据资源具有来源多样、类型复杂、格式丰富、存储分散等特征,需要一种灵活支持异构地学数据资源的检索方法和检索系统。 具体来说,地学数据资源通常有属性、矢量、栅格三大类型数据。属性数据涉及仪器监测数据、调查统计数据,要素属性数据等,具有纯文本,MS Excel、MS Access等不同的存储格式。矢量数据类型主要涉及空间数据,是用点,线,面及其X,Y坐标来构建点,线,面等具体空间要素的数据模型,通常以关系型数据库为载体存储矢量数据。栅格数据是按网格单元的行与列排列、具有不同灰度或颜色的阵列数据,是为方便表达地物空间分布的数据模型,一般是一种点阵图像格式的存储方式。栅格数据涉及到地学领域中大量的遥感影像数据。不同类型和存储格式的地学数据,给数据检索带来一定的困难。像栅格、矢量这类空间数据和部分属性数据很难通过数据本身的概括描述其内容信息。数据格式多样同样决定了检索源的多样性。不可能针对每一种数据格式甚至将来新的数据格式都重新写一套检索程序。 而且,面向地学数据资源巨大的特点,检索到的数据结果按相关度排序的需求更加重要。目前在专业领域的数据检索活动中也缺乏商业专业搜索引擎所具备的按相关度排序的技术方案。 可以看出,在这种背景下,面向异构地学数据资源的检索的代价和复杂度都比较高,而且对检索结果更缺乏像按相关度排序这类专业搜索引擎的处理方法。因此,特别需要一种灵活支持多种异构地学数据资源,并人性化展示的数据检索方法及数据检索系统。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种灵活支持异构地学数据资源的检索方法及检索系统。 为达到上述目的,本专利技术提供的支持异构地学数据资源的检索方法,包括建立索引的步骤和检索索引的步骤,其特征在于, 该建立索引的步骤进一步包括 一索引配置子步骤,用于以地学数据资源元数据作为数据源进行索引参数配置; 一索引建立子步骤,用于根据该索引配置子步骤中配置的更新索引文件的参数,启动索引任务的建立,以根据配置好的索引参数建立索引。 该检索索引的步骤进一步包括 一检索请求子步骤,用于根据检索需求生成检索请求; 一检索子步骤,用于根据该检索请求进行检索,并输出检索结果到检索响应对象。 上述支持异构地学数据资源的检索方法,其特征在于,所述索引配置子步骤进一步包括 步骤S101,确定地学数据资源元数据; 步骤S102,以该地学数据资源元数据作为数据源进行索引参数配置;其中所述索引参数配置包括索引文件路径参数;自动更新索引文件的参数;索引数据源的访问链接参数;索引字段参数;索引和检索过程中日志记录的路径参数。 上述支持异构地学数据资源的检索方法,其特征在于,所述索引建立子步骤进一步包括对索引数据源进行访问,对数据源文档进行解析和语言分析处理、生成索引文件三个环节。 上述支持异构地学数据资源的检索方法,其特征在于,所述步骤S102中,在索引参数配置时,配置自动更新索引文件的参数,启动建立索引任务的定时器任务。 上述支持异构地学数据资源的检索方法,其特征在于,所述检索子步骤中进一步包括一检索结果处理步骤,用于对检索结果进行相关度排序处理及对该检索结果进行修饰处理。 上述支持异构地学数据资源的检索方法,其特征在于,对检索结果进行相关度排序处理是通过如下公式获取相关度排序涉及的参数值 与第i个索引字段相匹配的相关度Mi 第i个索引字段的权值pi 最终的相关度值M为各索引字段相关度的和,即 其中,已知参数t为索引字段的个数;N为检索词经分词后的个数;Wi为第i个索引字段权重;N为第i个索引字段相匹配的检索词经分词后的个数;fi为检索词在第i个索引字段出现的词频。 进一步的,本专利技术还提供了一种实现上述方法的系统,其特征在于,包括 一引擎初始化子系统,用于构造引擎基础对象和启动定时建立索引任务; 一索引子系统,用于根据地学数据资源元数据作为数据源进行索引参数配置,并根据配置好的索引参数建立索引; 一检索子系统,用于根据检索请求进行检索,并对检索结果进行处理后生成检索响应并返回检索结果。 上述系统,其特征在于,还包括所述引擎基础对象是进行索引任务和索引检索的参数。 上述系统,其特征在于, 所述索引子系统进一步包括 一索引配置文件解析单元,用于解析索引配置文件,获得与建立索引任务相关的参数; 一数据源统一访问单元,用于对不同数据源提供一致的访问方法; 一索引任务单元,根据索引配置参数,以参数指定的方式和位置建立索引文件; 所述检索子系统进一步包括 一检索请求生成单元,用于根据检索需求生成检索请求; 一检索单元,根据检索请求执行检索,输出检索结果到检索响应对象; 一检索响应单元,用于根据检索请求中的检索返回类型对检索结果进行处理。 上述系统,其特征在于,所述检索子系统还包括 一结果处理单元,用于进行检索结果相关度的计算以及对检索结果进行修饰处理。 附图说明 图1为本专利技术的一种地学数据资源检索方法建立索引过程的实施例流程图; 图2为本专利技术的一种地学数据资源检索方法检索索引过程的实施例流程图; 图3为本专利技术的一种地学数据资源检索系统的结构框图; 图4为本专利技术的一种地学数据资源检索系统的引擎初始化流程图。 具体实施例方式 下面结合附图和实施例对本专利技术作详细的说明,以进一步了解本专利技术之目的、方案及功效。 本专利技术提供的灵活支持异构地学数据资源的检索方法包括建立索引和检索索引两个相对独立的过程。 建立索引过程的基本思想是以元数据概括描述地学数据资源内容的关键要素,并作为检索的依据和来源。通过索引配置文件的机制,快速灵活的支持索引的构建过程。针对地学数据资源多源异构的特点,以统一数据源访问机制模糊不同数据类型、格式间的差异,达到对索引数据源的无缝读取访问。以索引文件和统一数据源访问机制为基础进行索引的建立操作。索引的建立任务可被定制为定时自动运行。 图1示出了本专利技术检索方法中建立索引过程的具体实施流程。参考图1,本专利技术支持异构地学数据资源的检索方法中,建立索引的过程进一步包括以下步骤 步骤S101,确定地学数据资源元数据。 元数据作为多种异构地学数据的对数据内容进行说明,元数据表达采用XML格式,但不限于XML格式,存储方式采用支持海量数据存储的数据库。 步骤S102,以元数据作为数据源进行索引参数配置。 所述索引参数配置包括四部分(一)索引文件路径参数;(二)自动更新索引文件的参数,涉及启动时间、更新周期;(三)索引数据源的访问链接参数,针对不同的索引数据源的存储形式,参数也不同。例如,对于数据库类型的索引数据源,这里的本文档来自技高网
...

【技术保护点】
一种支持异构地学数据资源的检索方法,包括建立索引的步骤和检索索引的步骤,其特征在于, 该建立索引的步骤进一步包括: 一索引配置子步骤,用于以地学数据资源元数据作为数据源进行索引参数配置; 一索引建立子步骤,用于根据该索引配 置子步骤中配置的更新索引文件的参数,启动索引任务的建立,以根据配置好的索引参数建立索引;该检索索引的步骤进一步包括: 一检索请求子步骤,用于根据检索需求生成检索请求; 一检索子步骤,用于根据该检索请求进行检索,并输出检索结果到检 索响应对象。

【技术特征摘要】

【专利技术属性】
技术研发人员:宋佳诸云强冯敏杜佳廖顺宝
申请(专利权)人:中国科学院地理科学与资源研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有1条评论
  • 来自[北京市联通] 2015年01月17日 00:30
    地学是对以我们所生活的地球为研究对象的学科的统称,通常有地质学、地理学、海洋学、大气物理、古生物学等学科。
    0
1