当前位置: 首页 > 专利查询>河海大学专利>正文

一种面向行业元数据注册和分布式检索系统及方法技术方案

技术编号:14930609 阅读:94 留言:0更新日期:2017-03-31 12:28
本发明专利技术公开了一种面向行业元数据注册和分布式检索系统及方法。系统包含如下三个模块:注册模块,用于实现跨数据中心行业元数据注册共享,针对不同的行业中央及地方数据中心,由该数据中心的数据管理单位实现元数据自行审核注册,并且由该单位对管理的数据分类处理,将部分用于检索的元数据注入中央节点,地方节点存放所有元数据;存储模块,数据管理单位对管理的元数据注册生成倒排索引,倒排索引分布于中央与地方节点,同时实现元数据存储与管理的分离;分布式检索模块,用于实现跨数据中心行业元数据共享,对不同数据中心的大量行业元数据进行分布式检索。本发明专利技术解决了跨数据中心行业元数据共享的难题,能够分布式处理大量的行业元数据,满足用户的检索需求。

【技术实现步骤摘要】

本专利技术涉及一种面向行业元数据注册和分布式检索系统及方法,属于信息技术处理领域。
技术介绍
传统的行业元数据搜索引擎对元数据资源建立索引,以集中式搜索为主。但是随着信息化的发展,各级部门都积累了大量的元数据,由于各部门采集手段、采集时间、处理方式的不同导致行业元数据呈现跨数据中心分布的特征。为了构建针对某一行业信息搜索引擎,首先需要对异构行业元数据进行统一建模,然后对分布在各地区的元数据进行抽取汇总并存储到数据库中,最后对汇总过的元数据资源进行审核建立索引,供搜索引擎搜索。随着息化的发展,行业元数据信息量正在高速增长,各地区都积累了大量的信息资源,倘若再使用传统的元数据收集方式,对各地区的元数据资源都进行抽取汇总,由于信息量过大会使处理效率变得低下,处理程序变得繁琐,抽取时间也将会大大增加。另一方面,将大量的元数据集中起来建成一个单一的索引,会使索引存储空间过大,造成检索效率过低,因此需要一种能够跨数据中心的元数据注册共享机制并且能够高效检索信息资源的方法。分布式检索技术是一种能够实现并行处理,从而大大提高检索效率的检索技术,同时,它还能够使用一种“物理上分布存储,逻辑上集中检索”的方式构建搜索引擎。针对行业信息量快速增长的问题,可以灵活地为每个元数据数据中心部署分布式节点,由各单位自行实施对行业资源的审核工作,不需要再对大量的行业信息资源进行抽取汇总的工作;另一方面,分布式检索技术将一个索引以分片的概念划分,存储在不同的节点上,针对大量的行业信息资源引起索引过大,检索效率降低的问题,有很好的解决方案。因此,在行业信息检索领域亟需一种能够分布式检索信息资源的方法。
技术实现思路
本专利技术目的在于,针对行业元数据数量不断增长呈现出跨数据中心分布所带来的问题,提出一种面向行业元数据注册和分布式检索系统及方法,以提高检索效率,将各数据中心重要信息存放在中央节点,并且在细粒度上对每条元数据的重要信息存放在索引上,采用回调的机制查询其详细信息。本专利技术的思路是:利用分布式检索的技术,在每个行业元数据负责单位部署一个物理节点,由该单位自己负责对元数据的审核、注册工作,并将重要信息注入中央节点。各地方的节点与中央节点组成一个分布式集群,用户可以将检索请求提交到分布式集群中的任意一个节点,该节点会将请求分布到其他的物理节点上,最后将各个节点的检索结果汇总给用户显示,以此来提高行业元数据的注册效率与检索效率。技术方案:一种面向行业元数据注册和分布式检索系统及方法,包括如下模块:注册模块,用于将全国各地的行业元数据注册进分布式检索系统,生成索引,供搜索引擎搜索;存储模块,用于存储倒排索引,该索引中存放着行业元数据相关信息;检索模块,用于根据用户的检索请求,将请求分布到各个物理节点上,最后将所有节点返回的检索结果汇总给用户显示。所述注册模块,用于为各个行业元数据数据中心将元数据注册进分布式系统,由各管理单位挑选重要信息通过部署在该数据中心的节点注册进中央节点,而地方节点存储该数据中心的所有元数据;行业元数据包含的属性非常丰富,而在实际检索中我们只用到了元数据的部分属性,为了避免因索引中存放的信息量过大造成检索效率降低的现象,我们仅将部分元数据信息存入索引,我们通过配置文件设置所需存储的元数据的属性,系统通过解析配置文件判断哪些属性需要存储哪些属性不需要存储;虽然在索引中仅存放了行业元数据的部分属性,但是当用户搜索到一条元数据时,点击它的详情显示需要展示该元数据的所有内容,这时候就需要系统回调到注册该行业元数据单位获取其详细信息,因此需要为每条元数据增设两个属性,分别为:state(表示元数据注册单位)、statecontact(存放该元数据数据库的ip地址及端口号)。例:某条元数据state属性为“淮委”,statecontact中存放了存放该元数据的数据库的ip地址和端口号,当用户点击这条元数据的详情显示时,通过statecontact中的信息,系统回调到淮委取出这条元数据的详情信息。所述存储模块,把行业元数据解析后,将其相关属性存入倒排索引,倒排索引是一种根据对象的属性能够查找对象的索引,所有的倒排索引以文本的形式分片存储在各个物理节点上,其中地方节点存储该数据中心的所有资源信息,中央节点汇集了各数据中心的重要元数据。所述检索模块,包含关键字检索子模块,分面检索子模块,目录树检索子模块和检索结果显示子模块,详情显示子模块;其中关键字检索子模块,用于根据用户请求到系统索引库中全文检索,并将检索请求分布到各个物理节点上;分面检索子模块,用于根据用户的选择对检索结果精炼;目录树检索子模块,用于根据用户的选择对检索结果过滤;检索结果显示子模块,用于对检索结果集按相关性排序显示给用户;详情显示子模块,用于当用户在检索结果集中选中某条元数据时,查看这条元数据的详细信息。进一步的,所述关键字检索子模块,用户将检索请求提交到分布式集群中的任意节点,该节点把检索请求分布到各个节点并行处理,最后将各个节点的检索结果汇总给用户显示;所述分面检索子模块,根据用户的初步检索结果集聚类,产生分面与分面值;每个分面和分面值按覆盖率大小来排序,系统根据用户选择的分面对检索结果精炼。所述目录树检索子模块,根据用户所选目录树节点,对检索结果筛选过滤。所述检索结果显示子模块,在检索结果显示子模块中,不需要对元数据的所有属性都显示,使用配置文件的方式来确定元数据的哪些属性需要显示,哪些属性不需要显示;并且根据与用户检索关键字的相关性高低对检索结果排序。所述详情显示子模块,当用户在结果显示模块中选中一条元数据,想查看该条元数据的详细信息,但是分布式集群中的索引仅存放了元数据的关键属性,部分详细信息需要回调到注册单位获取,根据注册模块中存放在元数据中的两个属性state和statecontact回调到注册单位,获取详细信息给用户显示。一种面向行业元数据注册和分布式检索系统及方法,包含如下步骤:S-1:部署分布式管理集群,部署中央节点,将中央节点连接到分布式管理集群;S-2:在全国每个元数据数据中心部署一个物理节点,并将该物理节点连接到中央分布式管理集群;S-3:地方元数据数据中心通过部署在该数据中心内的节点,将该数据中心管理的行业息资源注册进分布式集群,并指定重要用于检索的元数据注册进中央节点具体包括如下步骤:步骤S-3-1:在元数据数据中心部署元数据注册系统;步骤S-3-2:用户通过元数据注册系统将待注册的元数据审核,审核成功后,行业信息资源以倒排索引的方式存放在该数据中心的节点上,同时用户选择该数据中心的用于检索的重要元数据进行审核,通过元数据注册系统把这些信息注册进中央节点;步骤S-3-3:对该数据中心的倒排索引备份,并存放到分布式集群中另一节点上;S-4:检索用户可向集群中任意节点提交检索请求,该节点将检索请求分布到各地方节点,也可以指定仅检索中央节点。并将被分布到检索请求的节点的搜索结果汇总返回给用户,具体包括如下步骤:步骤S-4-1:为检索用户部署检索系统;步骤S-4-2:用户通过检索系统提交关键字,检索系统把检索请求提交到中央节点或地方节点,该节点将检索结果返回给检索系统,检索系统通过图形化处理形式把检索结果显示给用户;步骤S-4-3:用户通本文档来自技高网
...
一种面向行业元数据注册和分布式检索系统及方法

【技术保护点】
一种面向行业元数据注册和分布式检索系统,其特征在于,包括:元数据注册模块,用于将分布在全国各地的行业元数据注册进分布式集群,为每一个行业元数据负责中心建立元数据注册系统,各数据中心负责对元数据自行注册,选取部分重要的用于检索的元数据注册进中央节点,地方节点存放该数据中心的所有数据;存储模块,用于将元数据注册模块注册进来的数据以倒排索引的方式分布式存储在不同的节点上;检索模块,用于将存储模块存储的索引作为检索资源,对所有节点进行分布式检索,将检索结果汇总显示给用户。

【技术特征摘要】
1.一种面向行业元数据注册和分布式检索系统,其特征在于,包括:元数据注册模块,用于将分布在全国各地的行业元数据注册进分布式集群,为每一个行业元数据负责中心建立元数据注册系统,各数据中心负责对元数据自行注册,选取部分重要的用于检索的元数据注册进中央节点,地方节点存放该数据中心的所有数据;存储模块,用于将元数据注册模块注册进来的数据以倒排索引的方式分布式存储在不同的节点上;检索模块,用于将存储模块存储的索引作为检索资源,对所有节点进行分布式检索,将检索结果汇总显示给用户。2.如权利要求1所述的面向行业元数据注册和分布式检索系统,其特征在于,所述注册模块,构建一个大范围的分布式系统,针对全国所有数据中心,在相应的数据中心构建一个注册节点,该数据中心通过该节点将该数据中心内的行业元数据进行注册,生成索引,并且由地方数据中心管理单位自行选择部分重要的用于检索的元数据注入中央节点。3.如权利要求1所述的面向行业元数据注册和分布式检索系统,其特征在于,所述存储模块包括:行业元数据资源的描述信息;行业元数据是描述行业信息资源的数据,该方法中用XML文件作为行业元数据的载体;各数据中心通过部署在该数据中心的注册节点,对该数据中心内的元数据进行注册生成索引,由该数据中心挑选重要的用于检索的元数据注入中央节点,将元数据的符合预定义规则的重要属性存入索引,每条元数据地方数据中心存储所有行业信息,同时在该数据中心部署一个备份节点,用于对这个数据中心的行业资源信息进行备份。4.如权利要求1所述的面向行业元数据注册和分布式检索系统,其特征在于,所述检索模块,包括:关键字检索子模块,用于根据用户提交的关键字,系统对分布在全国各地的所有节点进行检索,并将检索结果进行汇总,作为检索结果集;分面检索子模块,用于根据用户提交的分面检索,对结果集进行精炼;目录树检索子模块,用于根据用户提交的目录树节点请求,对检索结果集进行筛选;检索结果显示子模块,包括检索结果排序模块和详情显示子模块,检索结果排序模块,根据用户输入的关键字,将查询结果集按照与关键字的相关性从高到低进行排序;详情显示子模块,用户在浏览检索结果时,选中某条元数据查看详情信息,系统通过回调到元数据注册单位,获取这条元数据详细信息给用户显示。5.如权利要求4所述的面向行业元数据注册和分布式检索系统,其特征在于,所述检索模块,采用大数据技术处理海量的行业元数据,并且对所有行政区域的数据中心进行检索,并通过使用分布式检索策略满足用户对大量元数据信息检索的实时性需求;当查询用户为各数据中心管理单位时,将查询请求提交到该数据中心的节点上,以获得全国所有行业元数据的信息,同时指定仅查询...

【专利技术属性】
技术研发人员:冯钧孔盛球贡诚陆佳民佟瑶李顶圣钱燕芳王旭朱跃龙万定生
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1