一种多源异构数据导入数据湖的方法技术

技术编号:24353082 阅读:57 留言:0更新日期:2020-06-03 01:59
本发明专利技术公开一种多源异构数据导入数据湖的方法,包含:获取外部的文件型数据的访问接口地址,导入该文件型数据并保存到本地数据湖服务器的分布式文件系统;或获取外部数据源的访问接口信息,将其与本地数据湖服务器连接,导入外部数据源的数据并以数据文件形式保存到分布式文件系统,或将外部数据源的非关系型数据转换成关系型数据后保存到关系型数据库或直接导入外部数据源的关系型数据并保存到关系型数据库,或导入外部数据源的非关系型数据并保存到文档型数据库。本发明专利技术可解决待保存数据的多元异构的问题,方便多源异构数据的收集与管理和应用并扩展,满足组织架构的各种需求,确保数据访问安全性及导入数据时的灵活性。

A method of importing multi-source heterogeneous data into data Lake

【技术实现步骤摘要】
一种多源异构数据导入数据湖的方法
本专利技术涉及多源异构数据的收集与管理和应用领域,特别涉及一种多源异构数据导入数据湖的方法。
技术介绍
数据库技术是现代计算机信息系统和计算机应用系统的基础和核心,是信息系统的重要组成部分。在进行数据库应用系统开发时,通常需要将数据库数据导出以用于本系统备份或与其它系统进行数据共享和交换。数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS(Hadoop分布式文件系统)廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。数据湖架构面向多数据源的信息存储,包括物联网在内。大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户。对于多源异构数据的收集、管理与应用,需要满足组织机构权利博弈下的数据应用于分享,需要提供一种多源异构数据导入数据湖的方,以实现方便多源异构数据的收集与管理和应用,并进一步扩展;满足组织架构的各种需求。
技术实现思路
本专利技术的目的在于提供一种多源异构数据导入数据湖的方法,通过将外部数据源与本地数据湖服务器连接,实现外部的各类数据保存在本地数据湖的数据库中,解决待保存数据的多元异构的问题。本专利技术可方便多源异构数据的收集与管理和应用并进一步扩展,满足组织架构的各种需求;可确保数据访问安全性以及确保导入数据时的灵活性,数据可追踪,方便未来查询、追踪、操作重现;数据访问和读写权限以及可分享,方便数据访问和分享;本专利技术还可确保数据的导入速度,方便数据的预处理。为了达到上述目的,本专利技术公开了一种多源异构数据导入数据湖的方法,该方法包含以下过程:获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,导入该外部数据源的数据,并以数据文件的形式保存到本地数据湖服务器的分布式文件系统中;其中,所述外部数据源包含外部数据库和外部流数据源;和/或,获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,将外部数据源的非关系型数据转换成关系型数据后保存到本地数据湖服务器的关系型数据库中或直接导入该外部数据源的关系型数据,并保存到本地数据湖服务器的关系型数据库中;和/或,获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,导入该外部数据源的非关系型数据,并保存到地数据湖服务器的文档型数据库中;和/或,获取外部的文件型数据的访问接口地址,直接导入该外部的文件型数据,并保存到本地数据湖服务器的分布式文件系统中。优选地,所述获取外部数据源的访问接口信息是指获得外部数据源接口的IP地址、端口号、用户名和密码中的一种或多种。优选地,用户可分享自己存在所述分布式文件系统中的数据文件给其他用户,进一步包含:用户在注册到数据湖服务器时拥有分享权限,有权分享自己导入到分布式文件系统的数据文件给其他用户;各类数据源可由不同用户导入,默认情况下每个用户仅能看到自己导入的数据文件;当数据文件在分布式文件系统时,用户可分享该数据文件;用户可为自己导入的数据文件设置包含私有的权限、组内可见的权限和公开的权限在内的各类权限,用户的各类权限由数据湖服务器的管理员设置。优选地,所述数据湖服务器是包含关系型数据库、文档型数据库、分布式文件系统和图数据库这四类数据库的数据存储和管理服务平台,该平台采用分布式运算和存储架构,集成了具有数据存储和运算功能的各类计算机单机、服务器和计算机集群/服务器集群,并提供包括数据管理、算法开发在内的各类功能组件。优选地,所述本地数据湖服务器将外部数据库的数据或外部流数据或外部的文件型数据导入本地数据湖服务器的操作过程以及相关的操作参数保存到本地数据湖服务器的文档型数据库中,用于追踪数据处理和日志分析;所述本地数据湖服务器的数据交换管理可基于保存在文档型数据库中的日志记录数据和文件元数据,所述日志记录数据以键值对的形式存在,所述文件元数据以键值对的形式存在。优选地,所述多源异构数据导入数据湖的方法进一步包含:选择要载入的外部数据源的数据字段,将选中的数据字段的数据以数据文件形式保存到本地数据湖服务器的分布式文件系统中;其中,所述选择要载入的外部数据源的数据字段是指在本地数据湖服务器与外部数据源连接之后,用户在本地数据湖服务器的管理界面看到外部数据源的字段信息,并进一步选择打算导入的数据字段;其中,用户可选择全部数据字段,用户选择的字段对应的数据会在下一步复制数据到本地数据湖服务器时被导入。优选地,所述多源异构数据导入数据湖的方法进一步包含:外部数据源的数据复制为本地数据湖服务器的分布式文件系统中的文件之后或者复制到本地数据湖服务器的关系型数据库/文档型数据库之后,用户可进一步查看数据文件的各个字段的数据,执行数据清洗操作;用户根据实际需要,将清洗后的数据导入到本地数据湖服务器的关系型数据库中或将清洗后的数据保存到本地数据湖服务器的文档型数据库中。优选地,所述用户可以跨表选择字段进行联合查询,所述跨表选择字段进行联合查询是基于图数据库的跨表查询方法,具体包含以下过程:在数据湖管理平台,用户输入要查询的已经导入到数据湖的数据库名,执行之后,平台从图数据库的指定位置搜索出图的相关信息;用户填写包含“数据表名”和“数据列名”的起始信息,并填写包含需要目标的“数据表名”和“数据列名”的结束信息;根据用户的输入信息,在图数据库中查询从起点到终点的最短路径;将最短路径中包含的表载入Spark,并按照图数据库中的信息将这些表连接起来;对连接后的表进行相关操作;返回用户查询的结果。优选地,所述多源异构数据导入数据湖的方法进一步包含:根据外部应用程序对数据的要求,将本地数据湖服务器的非关系型数据导出为关系型数据供外部应用程序使用。优选地,将所述外部数据源的非关系型数据转换成关系型数据的方法为:对于外部数据源的非关系型数据库的数据,通过遍历所有的Key值,并分析每个Value值,并根据Value值的不同类型解析数据,完成从非关系型数据到关系型数据的转换。优选地,所述多源异构数据导入数据湖的方法进一步包含:当导入文件型数据时,本地数据湖服务器通过提取数据文件中的信息,保存到文档型数据库和图数据库中;和/或,当导入关系型数据时,本地数据湖服务器通过提取数据文件中的信息,保存到文档型数据库和图数据库中;和/或,当导入非关系型数据时,本地数据湖服务器通过提取数据文件中的信息,保存到图数据库中;其中,本地数据湖服务器提取数据文件中信息的方法包括图像识别方法、语音识别方法、文本过滤方法、视频文件处理本文档来自技高网...

【技术保护点】
1.一种多源异构数据导入数据湖的方法,其特征在于,该方法包含以下过程:/n获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,导入该外部数据源的数据,并以数据文件的形式保存到本地数据湖服务器的分布式文件系统中,其中,所述外部数据源包含外部数据库和外部流数据源;/n和/或,获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,将外部数据源的非关系型数据转换成关系型数据后保存到本地数据湖服务器的关系型数据库中或直接导入该外部数据源的关系型数据,并保存到本地数据湖服务器的关系型数据库中;/n和/或,获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,导入该外部数据源的非关系型数据,并保存到地数据湖服务器的文档型数据库中;/n和/或,获取外部的文件型数据的访问接口地址,直接导入该外部的文件型数据,并保存到本地数据湖服务器的分布式文件系统中。/n

【技术特征摘要】
1.一种多源异构数据导入数据湖的方法,其特征在于,该方法包含以下过程:
获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,导入该外部数据源的数据,并以数据文件的形式保存到本地数据湖服务器的分布式文件系统中,其中,所述外部数据源包含外部数据库和外部流数据源;
和/或,获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,将外部数据源的非关系型数据转换成关系型数据后保存到本地数据湖服务器的关系型数据库中或直接导入该外部数据源的关系型数据,并保存到本地数据湖服务器的关系型数据库中;
和/或,获取外部数据源的访问接口信息,连接本地数据湖服务器与所述外部数据源,导入该外部数据源的非关系型数据,并保存到地数据湖服务器的文档型数据库中;
和/或,获取外部的文件型数据的访问接口地址,直接导入该外部的文件型数据,并保存到本地数据湖服务器的分布式文件系统中。


2.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,
所述获取外部数据源的访问接口信息是指获得外部数据源接口的IP地址、端口号、用户名和密码中的一种或多种。


3.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,
用户可分享自己存在所述分布式文件系统中的数据文件给其他用户,进一步包含:
用户在注册到数据湖服务器时拥有分享权限,有权分享自己导入到分布式文件系统的数据文件给其他用户;
各类数据源可由不同用户导入,默认情况下每个用户仅能看到自己导入的数据文件;
当数据文件在分布式文件系统时,用户可分享该数据文件;
用户可为自己导入的数据文件设置包含私有的权限、组内可见的权限和公开的权限在内的各类权限,用户的各类权限由数据湖服务器的管理员设置。


4.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,
所述数据湖服务器是包含关系型数据库、文档型数据库、分布式文件系统和图数据库这四类数据库的数据存储和管理服务平台,该平台采用分布式运算和存储架构,集成了具有数据存储和运算功能的各类计算机单机、服务器和计算机集群/服务器集群,并提供包括数据管理、算法开发在内的各类功能组件。


5.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,
所述本地数据湖服务器将外部数据库的数据或外部流数据或外部的文件型数据导入本地数据湖服务器的操作过程以及相关的操作参数保存到本地数据湖服务器的文档型数据库中,用于追踪数据处理和日志分析;
本地数据湖服务器的数据交换管理可基于保存在文档型数据库中的日志记录数据和文件元数据,所述日志记录数据以键值对的形式存在,所述文件元数据以键值对的形式存在。


6.如权利要求1所述的多源异构数据导入数据湖的方法,其特征在于,进一步包含:
选择要载入的外部数据源的数据字段,将选中的数据字段的数据以数据文件形式保存到本地数据湖服务器的分布式文件系统中;
其中,所述选择要载入的外部数据源的数据字段是指在本地数据湖服务器与外部数据源连接之后,用户在本地数据湖服务器的管理界面看到外部数据源的字段信息,并进一步选择打算导入的数据字段;其中,用户可选择全部数据字段,用户选择的字段对应的数据会在下一步复制数据到本地数据湖服务器时被导入。


7.如权利要求1或6所述的多源异构数据导入数据湖的方法,其特征在...

【专利技术属性】
技术研发人员:陈刚
申请(专利权)人:中云开源数据技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1