【技术实现步骤摘要】
本专利技术涉及一种面向行业元数据注册和分布式检索系统及方法,属于信息技术处理领域。
技术介绍
传统的行业元数据搜索引擎对元数据资源建立索引,以集中式搜索为主。但是随着信息化的发展,各级部门都积累了大量的元数据,由于各部门采集手段、采集时间、处理方式的不同导致行业元数据呈现跨数据中心分布的特征。为了构建针对某一行业信息搜索引擎,首先需要对异构行业元数据进行统一建模,然后对分布在各地区的元数据进行抽取汇总并存储到数据库中,最后对汇总过的元数据资源进行审核建立索引,供搜索引擎搜索。随着息化的发展,行业元数据信息量正在高速增长,各地区都积累了大量的信息资源,倘若再使用传统的元数据收集方式,对各地区的元数据资源都进行抽取汇总,由于信息量过大会使处理效率变得低下,处理程序变得繁琐,抽取时间也将会大大增加。另一方面,将大量的元数据集中起来建成一个单一的索引,会使索引存储空间过大,造成检索效率过低,因此需要一种能够跨数据中心的元数据注册共享机制并且能够高效检索信息资源的方法。分布式检索技术是一种能够实现并行处理,从而大大提高检索效率的检索技术,同时,它还能够使用一种“物理上分布存储,逻辑上集中检索”的方式构建搜索引擎。针对行业信息量快速增长的问题,可以灵活地为每个元数据数据中心部署分布式节点,由各单位自行实施对行业资源的审核工作,不需要再对大量的行业信息资源进行抽取汇总的工作;另一方面,分布式检索技术将一个索引以分片的概念划分,存储在不同的节点上,针对大量的行业信息资源引起索引过大,检索效率降低的问题,有很好的解决方案。因此,在行业信息检索领域亟需一种能够分布式检索信息 ...
【技术保护点】
一种面向行业元数据注册和分布式检索系统,其特征在于,包括:元数据注册模块,用于将分布在全国各地的行业元数据注册进分布式集群,为每一个行业元数据负责中心建立元数据注册系统,各数据中心负责对元数据自行注册,选取部分重要的用于检索的元数据注册进中央节点,地方节点存放该数据中心的所有数据;存储模块,用于将元数据注册模块注册进来的数据以倒排索引的方式分布式存储在不同的节点上;检索模块,用于将存储模块存储的索引作为检索资源,对所有节点进行分布式检索,将检索结果汇总显示给用户。
【技术特征摘要】
1.一种面向行业元数据注册和分布式检索系统,其特征在于,包括:元数据注册模块,用于将分布在全国各地的行业元数据注册进分布式集群,为每一个行业元数据负责中心建立元数据注册系统,各数据中心负责对元数据自行注册,选取部分重要的用于检索的元数据注册进中央节点,地方节点存放该数据中心的所有数据;存储模块,用于将元数据注册模块注册进来的数据以倒排索引的方式分布式存储在不同的节点上;检索模块,用于将存储模块存储的索引作为检索资源,对所有节点进行分布式检索,将检索结果汇总显示给用户。2.如权利要求1所述的面向行业元数据注册和分布式检索系统,其特征在于,所述注册模块,构建一个大范围的分布式系统,针对全国所有数据中心,在相应的数据中心构建一个注册节点,该数据中心通过该节点将该数据中心内的行业元数据进行注册,生成索引,并且由地方数据中心管理单位自行选择部分重要的用于检索的元数据注入中央节点。3.如权利要求1所述的面向行业元数据注册和分布式检索系统,其特征在于,所述存储模块包括:行业元数据资源的描述信息;行业元数据是描述行业信息资源的数据,该方法中用XML文件作为行业元数据的载体;各数据中心通过部署在该数据中心的注册节点,对该数据中心内的元数据进行注册生成索引,由该数据中心挑选重要的用于检索的元数据注入中央节点,将元数据的符合预定义规则的重要属性存入索引,每条元数据地方数据中心存储所有行业信息,同时在该数据中心部署一个备份节点,用于对这个数据中心的行业资源信息进行备份。4.如权利要求1所述的面向行业元数据注册和分布式检索系统,其特征在于,所述检索模块,包括:关键字检索子模块,用于根据用户提交的关键字,系统对分布在全国各地的所有节点进行检索,并将检索结果进行汇总,作为检索结果集;分面检索子模块,用于根据用户提交的分面检索,对结果集进行精炼;目录树检索子模块,用于根据用户提交的目录树节点请求,对检索结果集进行筛选;检索结果显示子模块,包括检索结果排序模块和详情显示子模块,检索结果排序模块,根据用户输入的关键字,将查询结果集按照与关键字的相关性从高到低进行排序;详情显示子模块,用户在浏览检索结果时,选中某条元数据查看详情信息,系统通过回调到元数据注册单位,获取这条元数据详细信息给用户显示。5.如权利要求4所述的面向行业元数据注册和分布式检索系统,其特征在于,所述检索模块,采用大数据技术处理海量的行业元数据,并且对所有行政区域的数据中心进行检索,并通过使用分布式检索策略满足用户对大量元数据信息检索的实时性需求;当查询用户为各数据中心管理单位时,将查询请求提交到该数据中心的节点上,以获得全国所有行业元数据的信息,同时指定仅查询...
【专利技术属性】
技术研发人员:冯钧,孔盛球,贡诚,陆佳民,佟瑶,李顶圣,钱燕芳,王旭,朱跃龙,万定生,
申请(专利权)人:河海大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。