【技术实现步骤摘要】
一种多源异构数据导入数据湖的方法
本专利技术涉及多源异构数据的收集与管理和应用领域,特别涉及一种多源异构数据导入数据湖的方法。
技术介绍
数据库技术是现代计算机信息系统和计算机应用系统的基础和核心,是信息系统的重要组成部分。在进行数据库应用系统开发时,通常需要将数据库数据导出以用于本系统备份或与其它系统进行数据共享和交换。数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS(Hadoop分布式文件系统)廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。数据湖架构面向多数据源的信息存储,包括物联网在内。大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户。对于多源异构数据的收集、管理与应用,需要满足组织机构权利博弈下的数据应用于分享,需要提供一种多源异构数据导入数据湖的方,以实现方便多源异构数据的收集与管理和应用,并进一步扩展;满足组织架构的各种需求。
技术实现思路
本专利技术的目的在于提供一种多源异构数据导入数据湖的方法,通过将外部数据源与本地数据湖服务器连接,实现外部的各类数据保存在本地数据湖的数据库中,解决待保存数据的多元异构的问题。本专利技术可方便多源异 ...
【技术保护点】
1.一种多源异构数据导入数据湖的方法,其特征在于,该方法包含以下过程:/n获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,导入该外部数据源的数据,并以数据文件的形式保存到本地数据湖服务器的分布式文件系统中,其中,所述外部数据源包含外部数据库和外部流数据源;/n和/或,获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,将外部数据源的非关系型数据转换成关系型数据后保存到本地数据湖服务器的关系型数据库中或直接导入该外部数据源的关系型数据,并保存到本地数据湖服务器的关系型数据库中;/n和/或,获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,导入该外部数据源的非关系型数据,并保存到地数据湖服务器的文档型数据库中;/n和/或,获取外部的文件型数据的访问接口地址,直接导入该外部的文件型数据,并保存到本地数据湖服务器的分布式文件系统中。/n
【技术特征摘要】
1.一种多源异构数据导入数据湖的方法,其特征在于,该方法包含以下过程:
获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,导入该外部数据源的数据,并以数据文件的形式保存到本地数据湖服务器的分布式文件系统中,其中,所述外部数据源包含外部数据库和外部流数据源;
和/或,获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,将外部数据源的非关系型数据转换成关系型数据后保存到本地数据湖服务器的关系型数据库中或直接导入该外部数据源的关系型数据,并保存到本地数据湖服务器的关系型数据库中;
和/或,获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,导入该外部数据源的非关系型数据,并保存到地数据湖服务器的文档型数据库中;
和/或,获取外部的文件型数据的访问接口地址,直接导入该外部的文件型数据,并保存到本地数据湖服务器的分布式文件系统中。
2.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,
所述获取外部数据源的访问接口信息是指获得外部数据源接口的IP地址、端口号、用户名和密码中的一种或多种。
3.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,
用户可分享自己存在所述分布式文件系统中的数据文件给其他用户,进一步包含:
用户在注册到数据湖服务器时拥有分享权限,有权分享自己导入到分布式文件系统的数据文件给其他用户;
各类数据源可由不同用户导入,默认情况下每个用户仅能看到自己导入的数据文件;
当数据文件在分布式文件系统时,用户可分享该数据文件;
用户可为自己导入的数据文件设置包含私有的权限、组内可见的权限和公开的权限在内的各类权限,用户的各类权限由数据湖服务器的管理员设置。
4.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,
所述数据湖服务器是包含关系型数据库、文档型数据库、分布式文件系统和图数据库这四类数据库的数据存储和管理服务平台,该平台采用分布式运算和存储架构,集成了具有数据存储和运算功能的各类计算机单机、服务器和计算机集群/服务器集群,并提供包括数据管理、算法开发在内的各类功能组件。
5.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,
所述本地数据湖服务器将外部数据库的数据或外部流数据或外部的文件型数据导入本地数据湖服务器的操作过程以及相关的操作参数保存到本地数据湖服务器的文档型数据库中,用于追踪数据处理和日志分析;
本地数据湖服务器的数据交换管理可基于保存在文档型数据库中的日志记录数据和文件元数据,所述日志记录数据以键值对的形式存在,所述文件元数据以键值对的形式存在。
6.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,进一步包含:
选择要载入的外部数据源的数据字段,将选中的数据字段的数据以数据文件形式保存到本地数据湖服务器的分布式文件系统中;
其中,所述选择要载入的外部数据源的数据字段是指在本地数据湖服务器与外部数据源连接之后,用户在本地数据湖服务器的管理界面看到外部数据源的字段信息,并进一步选择打算导入的数据字段;其中,用户可选择全部数据字段,用户选择的字段对应的数据会在下一步复制数据到本地数据湖服务器时被导入。
7.如权利要求1或6所述的多源异构数据导入数据湖的方法,其特征在...
【专利技术属性】
技术研发人员:陈刚,
申请(专利权)人:中云开源数据技术上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。