【技术实现步骤摘要】
数据集成系统和方法
[0001]本公开涉及大数据
,尤其涉及一种数据集成系统和方法。
技术介绍
[0002]企业需要存储的数据量越来越大,存储数据的存储介质具有多种,例如,可以存储在文件中、存在各种不同数据结构的数据库中等。常常需要将多种存储介质的数据集成到一种存储介质中,也可以称为异构数据源的数据集成,从而建立数据仓库或者数据湖。
[0003]现有的异构数据源的数据集成过程采用单机方式实现,对于大规模数据的集成,效率不高。
技术实现思路
[0004]为了解决上述数据集成效率不高的技术问题,本公开提供了一种数据集成系统和方法。
[0005]第一方面,本公开提供了一种数据集成系统,包括:主节点和从节点;
[0006]所述主节点,用于将数据集成任务划分为多个子数据集成任务,确定每个子数据集成任务对应的目标从节点,其中,所述数据集成任务用于指示将以第一数据结构存储的第一数据源中的数据存储至以第二数据结构存储的第二数据源;所述多个子数据集成任务中的每个子集成任务用于指示将第一数据源中的目标数据存储至第二数据源,所述第一数据源中的目标数据为所述第一数据源中的部分或者全部数据;分别向每个目标从节点发送所述目标从节点对应的子数据集成任务;
[0007]所述从节点,用于根据所述子数据集成任务,将所述第一数据源中的目标数据存储至第二数据源。
[0008]可选的,所述从节点具体用于:
[0009]获取所述第一数据结构对应的读取插件,通过所述第一数据结构对应的读取插件获 ...
【技术保护点】
【技术特征摘要】
1.一种数据集成系统,其特征在于,包括:主节点和从节点;所述主节点,用于将数据集成任务划分为多个子数据集成任务,确定每个子数据集成任务对应的目标从节点,其中,所述数据集成任务用于指示将以第一数据结构存储的第一数据源中的数据存储至以第二数据结构存储的第二数据源;所述多个子数据集成任务中的每个子数据集成任务用于指示将第一数据源中的目标数据存储至第二数据源,所述第一数据源中的目标数据为所述第一数据源中的部分或者全部数据;分别向每个目标从节点发送所述目标从节点对应的子数据集成任务;所述从节点,用于根据所述子数据集成任务,将所述第一数据源中的目标数据存储至第二数据源。2.根据权利要求1所述的系统,其特征在于,所述从节点具体用于:获取所述第一数据结构对应的读取插件,通过所述第一数据结构对应的读取插件获取所述第一数据源中的目标数据,将所述第一数据源中的目标数据转换为以第三数据结构存储的目标数据,向核心模块发送所述以第三数据结构存储的目标数据;获取所述第二数据结构对应的写入插件,通过所述第二数据结构对应的写入插件从所述核心模块获取所述以第三数据结构存储的目标数据,将所述以第三数据结构存储的目标数据以所述第二数据结构写入所述第二数据源。3.根据权利要求2所述的系统,其特征在于,所述数据集成任务中包含:所述第一数据源的信息和所述第二数据源的信息,所述第一数据源的信息包括:所述第一数据源的地址信息和所述第一数据结构,所述第二数据源的信息包括:所述第二数据源的地址信息和所述第二数据结构;所述子数据集成任务中包含:所述第一数据源中的目标数据的信息和所述第二数据源的信息;所述第一数据源中的目标数据的信息包括:所述第一数据源中的目标数据的地址信息和所述第一数据结构;所述从节点具体用于:通过所述第一数据结构对应的读取插件根据所述第一数据源中的目标数据的地址信息,获取所述第一数据源中的目标数据;通过所述第二数据结构对应的写入插件根据所述第二数据源的地址,将所述以第三数据结构存储的目标数据以所述第二数据结构写入所述第二数据源。4.根据权利要求2所述的系统,其特征在于,所述从节点具体用于:通过所述核心模块对所述以第三数据结构存储的目标数据进行筛选,得到筛选后的以第三数据结构存储的目标数据;通过所述第二数据结构对应的写入插件从所述核心模块获取所述筛选后的以第三数据结构存储的目标数据,将所述筛选后的以第三数据结构存储的目标数据以所述第二数据结构写入所述第二数据源。5.根据权利要求2
‑
4任一项所述的系统,其特征在于,所述从节点具体用于:向读取插件服务器发送读取插件获取请求,所述读取插件获取请求中包含:所述第一数据结构;接收所述读取插件服务器发送的读取插件;向写入插件服务器发送写入插件获取请求,所述写入插件获取请求中包含:所述第二数据结构;接收所述写入插件服务器发送的写入插件。6.根据权利要求2
‑
4任一项所述的系统,其特征在于,...
【专利技术属性】
技术研发人员:赵宇,侯雪峰,
申请(专利权)人:北京金山云网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。