一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统技术方案

技术编号:24455852 阅读:29 留言:0更新日期:2020-06-10 15:31
本发明专利技术涉及一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统。该方法包括:1)在中心端对公共基础数据进行注册;2)分布端向中心端进行分布式异构数据的汇聚传输与同步;3)在中心端对汇聚的数据资源进行建库组织与编辑;4)在中心端对数据资源进行统一发布与审核;5)在中心端进行数据资源的集成共享服务。本发明专利技术实现了分布式异构实体数据的高效汇聚传输与同步,实现了数据资源的集中建库、组织管理与统一发布,在数据资源门户实现了多种形式的数据发布服务集成与共享,具有一体化,通用可定制特点,保证了数据汇聚、管理、发布与服务过程的整体连通、高可定制和高可复用,大大提升了数据服务封装的通用性和灵活性。

A general distributed heterogeneous data integration physical aggregation, organization, release and service method and system

【技术实现步骤摘要】
一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统
本专利技术涉及数据管理与共享服务领域,尤其涉及一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统。用户可以统一实现将异构数据进行物理的汇聚传输、组织发布和集成共享服务。
技术介绍
在当今社会云计算、大数据、人工智能技术的飞速发展的背景下,各个领域产生了大量种类各异的数据资源,数据资源重要性被社会各界广泛认可,提升到国家重要的战略资源的层面。同时伴随着开放获取,数据共享需求的发展,越来越多的数据资源要求被开放共享使用。在国内外各种信息化工程建设的推动下,各种领域信息(数据)资源共享服务平台不断涌现。传统数据共享服务平台的数据资源共享大多组织成数据集形式提供共享,仅包括元数据和数据文件。对于结构化数据最常见存储方式—关系数据表多以表格文件(如excel,csv)形式提供服务,或者单纯的以数据表的形式提供共享,缺乏数据集成组织和元数据描述。重点存在的不足表现为:(1)无法实现(关系型、文件型)异构数据资源的统一共享服务,实体数据仅提供单一的文件形式。弱化了关系型结构化数据在线服务的优势,弱化了关系数据与文件数据关联融合服务的优势,弱化了关系型数据库表之间相互关联服务的优势。(2)传统的分布式数据汇聚、汇交以文件形式为主,不支持关系型数据的远程传输汇聚与同步管理。(3)缺乏一个通用可定制的异构数据汇聚传输、组织、发布与共享服务的一体化解决方法,过去的平台系统仅支持局限的某个或某些过程的服务子集,且多为根据建设需求专门化的设计开发,缺乏定制化、通用化的解耦设计,降低了开发实现的效率,产生了大量重复工作,加大了研发成本。(4)在共享数据组织模型方面缺乏国际认可的唯一标识的引入和规范化数据引用的引入。(5)在服务形式方面缺乏面向实体数据文件内容的全文检索、缺乏关系型数据的全字段定制化检索,缺乏关系型数据融合服务集成(如与文件,图像,视频关联,与数据子表关联,各种URL展示关联,枚举列表关联等),缺乏数据集的多种关联推荐模式,缺乏数据资源API的封装服务,缺乏面向用户的个性化服务支撑,缺乏平台的国际化支撑等等。
技术实现思路
针对以上分布式数据管理与共享服务方面存在的弊端,本专利技术提出了一种通用的分布式异构数据一体化物理汇聚(实体数据的集中汇聚存储组织)、组织、发布与服务方法及系统设计。本专利技术采用的技术方案如下:一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法,包括以下步骤:1)在中心端对公共基础数据进行注册,包括分布端的数据节点注册、元数据扩展要素注册、分类体系注册、许可协议注册;2)分布端向中心端进行分布式异构数据的汇聚传输与同步;3)在中心端对汇聚的数据资源进行建库组织与编辑;4)在中心端对数据资源进行统一发布与审核;5)在中心端进行数据资源的集成共享服务。进一步地,所述数据节点注册实现分布端的数据节点信息及节点管理员认证信息的注册管理;所述元数据扩展要素注册,支持扩展元数据项的定制化配置管理,元数据的配置项包括:元数据中文名、元数据英文名称、字段类型、是否必填项、是否重复、排序号、备注;所述分类体系注册,支持树状数据分类体系的注册、编辑、删除操作,分类体系信息包括分类名称、分类代码、分类描述,用户能够对任意树状分类体系节点信息进行新增、编辑、插入和删除操作;所述许可协议注册,支持标准的许可协议,同时支持自定义许可内容的注册、编辑、删除操作,注册信息包括协议标识码、协议名称、协议标识图片、协议说明文本。进一步地,所述分布式异构数据的汇聚传输与同步,包括:2.1)进行异构数据源注册,包括关系型数据源和文件型数据源的统一注册连接管理;2.2)进行数据传输任务构建,包括关系型数据任务构建和文件型数据任务构建;2.3)进行传输任务运行管理,将分布端的数据任务向中心端远程高效地稳定传输;2.4)进行关系型数据同步管理,将分布端的传输任务中的关系表或逻辑表中的每条记录定时同步到中心端的关系库表中。进一步地,所述对汇聚的数据资源进行建库组织与编辑,包括:3.1)进行关系型数据建库,包括通过Excel模板导入创建新的关系型数据库,或者通过关联已存在的且已描述的关系型数据表创建新的表;3.2)进行关系库表结构信息的描述与字段融合配置;其中关系库表结构信息的描述包括描述关系数据表名称,描述关系型数据表字段名称;字段融合配置是通过设置关系数据表某字段显示类型实现融合配置,包括文本类型、URL类型、枚举类型、子表类型、文件类型;3.3)进行中心端全部关系库表的数据管理,支持数据查看、添加、编辑、删除操作;3.4)进行文件型数据管理,包括中心端全部数据文件、目录的网盘式管理。进一步地,所述对数据资源进行统一发布与审核,包括:4.1)基于内置元数据和扩展元数据,动态实现数据集元数据的逐条在线填报和批量填报;4.2)基于中心端的关系库表和文件系统,实现在线关系型实体数据表的选定和基于文件目录体系的实体数据文件的选定,同时支持文件的在线即刻上传选定;4.3)进行数据集编辑与提交发布;4.4)对待发布的数据集进行内容审核,重点包括查看并审核元数据信息填写是否规范,查看实体数据是否准确;并且选定数据集能够授权访问的用户范围。进一步地,所述数据资源的集成共享服务,包括:5.1)数据集检索,包括关键词、分类导航两种数据检索模式,支持多种数据检索模式的API接口封装;5.2)数据集过滤排序,包括数据资源标签云展示及其多条件逐级过滤服务,支持数据资源检索结果多条件再次排序显示;5.3)数据集访问与评价,包括数据资源中典型实体数据文件的在线浏览、播放展示;支持关系表实体数据的在线定制查询和结果下载和融合集成展示;支持文本类实体文件的全文检索;支持元数据在线下载和API访问服务封装;支持数据社交服务;5.4)数据集推荐,包括基于数据集元数据内容关联化计算的推荐服务,支持基于用户访问行为统计的数据推荐服务;5.5)数据集服务记录与统计,包括用户数据访问行为全日志记录管理,支持数据集访问、下载情况统计及展示;5.6)用户个性化服务,包括用户访问及下载历史的展示,支持用户收藏、评价和打标签管理。一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务系统,包括中心端和分布端,所述分布端部署数据汇聚传输软件模块,所述中心端部署数据管理与发布软件模块和数据共享与服务门户模块,所述数据管理与发布软件模块中集成有公共基础数据注册与服务子模块;所述数据汇聚传输软件模块负责进行分布端向中心端的分布式异构数据的汇聚传输与同步;所述数据管理与发布软件模块负责对公共基础数据进行注册,对汇聚的数据资源进行建库组织与编辑,以及对数据资源进行统一发布与审核;所述数据共享与服务门户模本文档来自技高网
...

【技术保护点】
1.一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法,其特征在于,包括以下步骤:/n1)在中心端对公共基础数据进行注册,包括分布端的数据节点注册、元数据扩展要素注册、分类体系注册、许可协议注册;/n2)分布端向中心端进行分布式异构数据的汇聚传输与同步;/n3)在中心端对汇聚的数据资源进行建库组织与编辑;/n4)在中心端对数据资源进行统一发布与审核;/n5)在中心端进行数据资源的集成共享服务。/n

【技术特征摘要】
20191119 CN 20191113574051.一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法,其特征在于,包括以下步骤:
1)在中心端对公共基础数据进行注册,包括分布端的数据节点注册、元数据扩展要素注册、分类体系注册、许可协议注册;
2)分布端向中心端进行分布式异构数据的汇聚传输与同步;
3)在中心端对汇聚的数据资源进行建库组织与编辑;
4)在中心端对数据资源进行统一发布与审核;
5)在中心端进行数据资源的集成共享服务。


2.根据权利要求1所述的方法,其特征在于,所述数据节点注册实现分布端的数据节点信息及节点管理员认证信息的注册管理;
所述元数据扩展要素注册,支持扩展元数据项的定制化配置管理,元数据的配置项包括:元数据中文名、元数据英文名称、字段类型、是否必填项、是否重复、排序号、备注;
所述分类体系注册,支持树状数据分类体系的注册、编辑、删除操作,分类体系信息包括分类名称、分类代码、分类描述,用户能够对任意树状分类体系节点信息进行新增、编辑、插入和删除操作;
所述许可协议注册,支持标准的许可协议,同时支持自定义许可内容的注册、编辑、删除操作,注册信息包括协议标识码、协议名称、协议标识图片、协议说明文本。


3.根据权利要求2所述的方法,其特征在于,所述数据节点注册,其中数据节点的属性信息包括:数据节点名称、节点代码、节点简介、节点联系人、联系电话、Email、节点管理员账号、节点管理员密码、数据节点创建时间、序号;其中节点管理员账号、节点管理员密码供分布端执行步骤2)时进行节点管理员的身份认证;所述元数据扩展要素注册,包括以下元数据要素:数据集唯一持久标识、数据集封面、数据集名称、数据集简介、关键词、分类编码、开始时间、结束时间、创建机构、创建人员、最新创建/更新日期、发布机构、联系邮件、联系电话、最新发布日期、许可协议、引用格式、总存储量、总文件数、总记录数。


4.根据权利要求1所述的方法,其特征在于,所述分布式异构数据的汇聚传输与同步,包括:
2.1)进行异构数据源注册,包括关系型数据源和文件型数据源的统一注册连接管理;
2.2)进行数据传输任务构建,包括关系型数据任务构建和文件型数据任务构建;
2.3)进行传输任务运行管理,将分布端的数据任务向中心端远程高效地稳定传输;
2.4)进行关系型数据同步管理,将分布端的传输任务中的关系表或逻辑表中的每条记录定时同步到中心端的关系库表中。


5.根据权利要求3所述的方法,其特征在于,步骤2.2)所述关系型数据任务构建,是通过连接前文描述关系数据源获取相关数据表,选择相关实体数据表或通过SQL形成的逻辑数据表形成数据传输任务;所述文件型数据任务构建,是通过连接前文描述文件数据源确定相关文件目录体系,选择相关实体文件或目录,并选择中心端目标传输目录位置形成文件型数据传输任务。


6.根据权利要求3所述的方法,其特征在于,步骤2.3)所述传输任务运行管理,包括:实体数据文件传输基于中心端的Vftp服务采用FTP协议,支持与第三方FTP工具的完全兼容;在关系型实体数据传输方面,基于中心端构建的某类关系数据库集群,将分布端不同类型...

【专利技术属性】
技术研发人员:刘峰周园春韩芳沈志宏夏景隆
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1