一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法及系统技术方案

技术编号:24497792 阅读:14 留言:0更新日期:2020-06-13 03:44
本发明专利技术涉及一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法及系统。该方法包括:1)在中心端对公共基础数据进行注册,包括分布端的数据节点注册、元数据扩展要素注册、分类体系注册、许可协议注册;2)在分布端进行分布式异构数据的建库、管理与描述;3)在分布端进行分布式异构数据的统一封装与发布组织;4)在中心端进行数据资源集中发布审核与监控;5)在中心端进行数据资源的集成共享服务。本发明专利技术具有一体化、通用可定制特点,保证了数据组织、管理、封装、发布、审核与服务全流程的整体连通、高可定制和高可复用,大大提升了数据服务封装的通用性和灵活性。

A general distributed and heterogeneous data integrated logical aggregation organization, publishing and service method and system

【技术实现步骤摘要】
一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法及系统
本专利技术涉及数据管理与共享服务领域,尤其涉及一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法及系统。用户可以统一实现将分布式异构数据进行逻辑的汇聚组织、集中发布审核监控与集成共享服务。
技术介绍
伴随着云计算、大数据、人工智能技术给人类社会信息化发展带来极大的促进作用,人们对数据资源的重要性的认识也越来越深刻,已经上升到国家重要的战略资源的层面。同时,促进数据融合、开放共享的需求也越来越强烈,国家也出台了“以数据集中和共享为途径,建设全国一体化的国家大数据中心的发展战略”。社会各领域各层级数据中心,数据资源共享服务平台正在不断建立。目前数据共享服务平台的数据资源大多组织成数据集形式提供共享,包括元数据和实体数据。其中数据集元数据由于信息存储量较少,容易集中汇集存储,而实体数据是数据资源的核心,受集中存放意愿,集中的存储环境等多种情况制约,在某些条件下无法进行数据资源物理汇聚(即实体数据集中汇集,统一集中存储),需要实现数据资源逻辑汇聚(即实体数据仍然分散存储,通过数据访问接口进行集成共享服务)。目前数据资源逻辑汇聚中,实体数据多以文件接口或数据访问页面URL的形式提供,严重影响了数据服务的构建和服务体验,存在以下不足:(1)缺乏一个通用可定制的异构数据逻辑汇聚组织封装、发布与共享服务的一体化解决方法,现有的平台仅支持局限的某个或某些过程的服务子集;并且现有平台多为根据建设需求专门化的设计开发,缺乏定制化、通用化的解耦设计,降低了开发实现的效率,产生了大量重复工作,加大了研发成本。(2)无法实现(关系型、文件型)异构数据资源的统一共享服务,实体数据访问接口仅提供文件访问形式或页面访问形式。弱化了关系型结构化数据在线统一服务的优势,弱化了关系型数据库表之间相互关联服务的优势。(3)在共享数据组织模型方面缺乏国际认可的唯一标识的引入和规范化数据引用的引入。(4)在服务形式方面缺乏数据访问接口的监控预警,缺乏面向实体数据文件内容的全文检索、缺乏关系型实体数据的全字段定制化检索、简单的融合服务集成(如与数据子表关联,各种URL展示关联,枚举列表关联等),缺乏数据集的多种关联推荐模式,缺乏数据资源API的封装服务,缺乏面向用户的个性化服务支撑,缺乏平台的多语言国际化的支撑等等。
技术实现思路
针对以上分布式数据管理与共享服务方面存在的弊端,本专利技术提出了一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法及系统设计。本专利技术采用的技术方案如下:一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法,其特征在于,包括以下步骤:1)在中心端对公共基础数据进行注册,包括分布端的数据节点注册、元数据扩展要素注册、分类体系注册、许可协议注册;2)在分布端进行分布式异构数据的建库、管理与描述;3)在分布端进行分布式异构数据的统一封装与发布组织;4)在中心端进行数据资源集中发布审核与监控;5)在中心端进行数据资源的集成共享服务。进一步地,所述数据节点注册实现分布端数据节点信息及节点管理员认证信息的注册管理;所述元数据扩展要素注册,支持扩展元数据项的定制化配置管理,元数据配置项包括:元数据中文名、元数据英文名称、字段类型、是否必填项、是否重复、排序号、备注;所述数据分类体系注册,支持树状数据分类体系的注册、编辑、删除操作,分类体系信息包括:分类名称、分类代码、分类描述,用户能够对任意树状分类体系节点信息进行新增、编辑,插入和删除操作;所述许可协议注册,支持标准的许可协议,同时支持自定义许可内容的注册、编辑、删除操作,注册信息包括协议标识码、协议名称,协议标识图片,协议说明文本。进一步地,所述分布式异构数据的建库、管理与描述,包括:2.1)进行异构数据源注册,包括关系型数据源和文件型数据源的统一注册连接管理;2.2)进行异构数据源连接,包括关系型数据源和文件型数据源的统一选定和连接;2.3)进行关系型数据建表,包括通过Excel模板导入创建新的关系型数据库,或者通过关联已存在的且已描述的关系型数据表创建新表;2.4)进行关系库表描述与融合配置,实现分布端选定的关系数据源下关系表结构信息的描述与融合配置;2.5)进行关系库表数据管理,实现分布端选定的关系数据源下全部关系表的数据管理,支持数据查看、添加、编辑、删除操作;2.6)进行文件型数据管理,实现分布端选定的文件数据源下全部数据文件、目录的网盘式管理。进一步地,所述分布式异构数据的统一封装与发布组织,包括:3.1)进行实体数据访问接口封装,实现分布端实体数据访问接口的统一封装管理;3.2)进行公共基础数据同步,基于公共基础数据注册中中心端封装的各类基础数据的获取接口的调用,实现从中心端同步访问获取最新的数据资源节点信息、扩展元数据信息、数据分类体系信息和许可协议信息到分布端存储,并保证信息同步的准确和稳定;3.3)进行数据集元数据填报,包括基于内置元数据和扩展元数据,动态实现数据集元数据的逐条在线填报和批量填报;3.4)进行实体数据选定与接口填报,包括基于分布端关系库表和文件系统,实现在线关系型实体数据表的选定和基于文件目录体系的实体数据文件的选定,同时支持文件的在线即刻上传选定;并基于实体数据访问接口的封装,根据用户选定或上传的实体数据,根据其数据类型,自动完成分布端数据访问接口参数的填报;3.5)进行数据集编辑与提交发布,在数据集编辑时支持两个步骤3.3)、3.4)的再次重新编辑和选择,当确认无误后,提交数据集相关信息进行集中的上报到中心端进行审核;在数据集提交发布审核时,对数据集下的全部文本类实体文件实现自动的文本内容抽取,并构建相关实体文件的全文数据库,实现文件内容索引,支持文本类实体文件检索接口的调用访问;3.6)进行数据集信息提交上报,实现待发布数据集信息的统一上报传输到中心端,保证信息传输的准确完整。进一步地,所述数据资源集中发布审核与监控,包括:4.1)进行数据集发布审核,包括对待发布的数据集进行在线内容审核,以及将数据集批量导出进行线下审核;4.2)进行数据集发布授权,包括对审核通过的数据集,支持审核人员进行发布授权操作,即支持选定数据集可授权访问的用户或用户组的范围;4.3)进行数据集监控预警,包括对中心端待发布和已发布的全部数据集实体数据访问接口的定时监控扫描,对于超过预警上限阈值的数据集自动触发给系统管理员邮箱发送数据集监控预警提醒邮件;4.4)进行数据集关停管理,供系统管理员将某个已发布的数据集进行手动关停服务。进一步地,所述数据资源的集成共享服务,包括:5.1)数据集检索,支持关键词、分类导航两种数据检索模式,支持多种数据检索模式的API接口封装;5.2)数据集过滤排序,支持数据资源标签本文档来自技高网
...

【技术保护点】
1.一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法,其特征在于,包括以下步骤:/n1)在中心端对公共基础数据进行注册,包括分布端的数据节点注册、元数据扩展要素注册、分类体系注册、许可协议注册;/n2)在分布端进行分布式异构数据的建库、管理与描述;/n3)在分布端进行分布式异构数据的统一封装与发布组织;/n4)在中心端进行数据资源集中发布审核与监控;/n5)在中心端进行数据资源的集成共享服务。/n

【技术特征摘要】
1.一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法,其特征在于,包括以下步骤:
1)在中心端对公共基础数据进行注册,包括分布端的数据节点注册、元数据扩展要素注册、分类体系注册、许可协议注册;
2)在分布端进行分布式异构数据的建库、管理与描述;
3)在分布端进行分布式异构数据的统一封装与发布组织;
4)在中心端进行数据资源集中发布审核与监控;
5)在中心端进行数据资源的集成共享服务。


2.根据权利要求1所述的方法,其特征在于,所述数据节点注册实现分布端数据节点信息及节点管理员认证信息的注册管理;
所述元数据扩展要素注册,支持扩展元数据项的定制化配置管理,元数据配置项包括:元数据中文名、元数据英文名称、字段类型、是否必填项、是否重复、排序号、备注;
所述数据分类体系注册,支持树状数据分类体系的注册、编辑、删除操作,分类体系信息包括:分类名称、分类代码、分类描述,用户能够对任意树状分类体系节点信息进行新增、编辑,插入和删除操作;
所述许可协议注册,支持标准的许可协议,同时支持自定义许可内容的注册、编辑、删除操作,注册信息包括协议标识码、协议名称,协议标识图片,协议说明文本。


3.根据权利要求2所述的方法,其特征在于,所述数据节点注册,其中数据节点的属性信息包括:数据节点名称、节点代码、节点简介、节点URL地址、节点联系人、联系电话、Email、节点管理员账号、节点管理员密码、数据节点创建时间、序号;所述元数据扩展要素注册,包括以下元数据要素:数据集唯一持久标识、数据集封面、数据集名称、数据集简介、关键词、分类编码、开始时间、结束时间、创建机构、创建人员、最新创建/更新日期、发布机构、联系邮件、联系电话、最新发布日期、许可协议、引用格式、总存储量、总文件数、总记录数。


4.根据权利要求1所述的方法,其特征在于,所述分布式异构数据的建库、管理与描述,包括:
2.1)进行异构数据源注册,包括关系型数据源和文件型数据源的统一注册连接管理;
2.2)进行异构数据源连接,包括关系型数据源和文件型数据源的统一选定和连接;
2.3)进行关系型数据建表,包括通过Excel模板导入创建新的关系型数据库,或者通过关联已存在的且已描述的关系型数据表创建新表;
2.4)进行关系库表描述与融合配置,实现分布端选定的关系数据源下关系表结构信息的描述与融合配置;
2.5)进行关系库表数据管理,实现分布端选定的关系数据源下全部关系表的数据管理,支持数据查看、添加、编辑、删除操作;
2.6)进行文件型数据管理,实现分布端选定的文件数据源下全部数据文件、目录的网盘式管理。


5.根据权利要求4所述的方法,其特征在于,所述关系库表描述,包括描述关系数据表名称,描述关系型数据表字段名称;所述融合配置,是通过设置关系数据表某字段显示类型实现融合配置,包括文本类型、URL类型、字典枚举类型、关联子表类型。


6.根据权利要求1所述的方法,其特征在于,所述分布式异构数据的统一封装与发布组织,包括:
3.1)进行实体数据访问接口封装,实现分布端实体数据访问接口的统一封装管理;
3.2)进行公共基础数据同步,基于公共基础数据注册中中心端封装的各类基础数据的获取接口的调用,实现从中心端同步访问获取最新的数据资源节点信息、扩展元数据信息、数据分类体系信息和许可协议信息存储到分布端,并保证信息同步的准确和稳定;
3.3)进行数据集元数据填报,包括基于内置元数据和扩展元数据,动态实现数据集元数据的逐条在线填报和批量填报;
3.4)进行实体数据选定与接口填报,包括基于分布端关系库表和文件系统,实现在线关系型实体数据表的选定和基于文件目录体系的实体数据文件的选定,同时支持文件的在线即刻上传选定;并基于实体数据访问接口的封装,根据用户...

【专利技术属性】
技术研发人员:刘峰陈昕夏景隆韩芳周园春
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1