数据集成方法技术

技术编号:39673808 阅读:7 留言:0更新日期:2023-12-11 18:39
本公开的实施方式提供了一种数据集成方法

【技术实现步骤摘要】
数据集成方法、介质、装置和计算设备


[0001]本公开的实施方式涉及大数据
,更具体地,本公开的实施方式涉及一种数据集成方法

介质

装置和计算设备


技术介绍

[0002]本部分旨在为本公开的实施方式提供背景或上下文

此处的描述不因为包括在本部分中就承认是现有技术

[0003]在数据处理领域中,通过对数据进行分析,可以获取数据的规律,根据数据的规律制定决策,从而提升执行业务的效率

[0004]实际应用中,数据存储在多个数据源中,多个数据源中的数据不能进行整体分析,将来自多个数据源的数据进行合并得到数据集,这个过程为数据集成

对数据集进行分析可以得到数据整体的数据规律

[0005]具体的,数据为动态变化的,数据包括已有的静态数据以及变化的实时数据,数据集成需要对两部分数据分别进行集成

执行数据集成需要通过处理逻辑对数据进行转换

清洗或者整合等处理,得到格式或者结构统一的处理后的数据,再将处理后的数据合并得到数据集

[0006]在相关技术中,通过多套不同的处理逻辑分别进行数据处理,维护多套处理逻辑存在开发成本高的问题


技术实现思路

[0007]本公开提供一种数据集成方法

介质

装置和计算设备,用于降低数据集成的开发成本

[0008]在本公开实施方式的第一方面中,提供了一种数据集成方法,包括:确定算子配置;从数据库中获取静态数据,并通过所述算子配置对所述静态数据进行处理得到处理静态数据,并将所述处理静态数据存入离线数据表;从所述数据库以及日志中获取实时数据,并通过所述算子配置对所述实时数据进行处理得到处理实时数据,并将所述处理实时数据存入实时数据表;通过所述实时数据表中的所述处理实时数据,对所述离线数据表进行更新处理,得到更新离线数据表

[0009]在本公开的一个实施例中,确定算子配置包括:从消息队列中获取用户端发送的多个算子逻辑;将所述多个算子逻辑按照有向无环图的结构,生成所述算子配置

[0010]在本公开的另一个实施例中,将所述多个算子逻辑按照有向无环图的结构,生成所述算子配置,包括:确定所述多个算子逻辑之间的关联关系,所述关系包括依赖关系或者并列关系;通过所述关联关系,将所述算子逻辑按照有向无环图的结构,生成所述算子配置,所述算子配置中,存在所述依赖关系的算子逻辑按照所述依赖顺序排列在多个算子节点中,存在所述并列关系的算子存放在同一个算子节点中

[0011]在本公开的又一个实施例中,所述实时数据包括变更数据以及新增数据;从所述
数据库以及日志中获取实时数据,并通过所述算子配置对所述实时数据进行处理得到处理实时数据,包括:从所述数据库中获取所述变更数据,并通过所述算子配置对所述变更数据进行处理得到处理变更数据;从所述日志中获取所述新增数据,并通过所述算子配置对所述新增数据进行处理得到处理新增数据;将所述处理变更数据以及所述处理新增数据,确定为所述处理实时数据

[0012]在本公开的再一个实施例中,通过所述实时数据表中的所述处理实时数据,对所述离线数据表进行更新处理,包括:通过所述处理变更数据对所述离线数据表中的所述处理静态数据进行变更处理,所述变更处理包括以下至少一种:增加

删除或修改;将所述处理新增数据,添加在所述离线数据表中

[0013]在本公开的再一个实施例中,所述方法还包括:根据所述更新处理,生成多个更新记录,其中每个所述更新记录包括更新时刻;针对任意一个所述更新记录,若所述更新时刻与当前时刻之间的时长超过预设时长,则删除所述更新记录

[0014]在本公开的再一个实施例中,所述方法还包括:获取所述更新离线数据表中的多个文件,所述多个文件用于存储离线数据;确定每个所述文件的文件容量;将所述多个文件中,文件容量小于或者等于第一预设容量的文件,确定为待合并文件;将所述待合并文件进行合并处理,得到多个合并文件,每个所述合并文件的文件容量大于所述第一预设容量并且小于或者等于第二预设容量,其中所述第一预设容量小于所述第二预设容量

[0015]在本公开的再一个实施例中,所述方法还包括:获取用户端对所述更新离线数据表发起的多个查询操作;确定每个所述查询操作的查询字段,得到多个查询字段;从所述多个查询字段中确定每个所述查询字段的占比,并将所述占比最大的查询字段确定为目标查询字段;将所述更新离线数据表中的离线数据按照所述目标查询字段进行排序处理

[0016]在本公开的再一个实施例中,所述方法还包括:从所述数据库中获取多个唯一标识;针对任意一个所述唯一标识,对所述更新离线数据表进行查询处理,得到查询结果;若所述查询结果中不存在所述唯一标识,则发出告警

[0017]在本公开的再一个实施例中,所述方法还包括:按照预设周期,获取更新离线数据表中的离线数据的数据量,得到多个数据量;根据所述预设周期以及所述多个数据量,计算数据量同比变化率以及数据量环比变化率;若所述数据量同比变化率大于同比变化率阈值,或者所述数据量环比变化率大于环比变化率阈值,则发出告警

[0018]在本公开实施方式的第二方面中,提供了一种计算机可读存储介质,包括:所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面中任一项所述的数据集成方法

[0019]在本公开实施方式的第三方面中,提供了一种数据集成装置,所述装置包括:确定模块,用于确定算子配置;同步模块,用于从数据库中获取静态数据,并通过所述算子配置对所述静态数据进行处理得到处理静态数据,并将所述处理静态数据存入离线数据表;获取模块,用于从所述数据库以及日志中获取实时数据,并通过所述算子配置对所述实时数据进行处理得到处理实时数据,并将所述处理实时数据存入实时数据表;更新模块,用于通过所述实时数据表中的所述处理实时数据,对所述离线数据表进行更新处理,得到更新离线数据表

[0020]在本公开的一个实施例中所述确定模块,具体用于从消息队列中获取用户端发送
的多个算子逻辑;所述确定模块,具体还用于将所述多个算子逻辑按照有向无环图的结构,生成所述算子配置

[0021]在本公开的另一个实施例中,所述确定模块,具体用于确定所述多个算子逻辑之间的关联关系,所述关系包括依赖关系或者并列关系;所述确定模块,具体还用于通过所述关联关系,将所述算子逻辑按照有向无环图的结构,生成所述算子配置,所述算子配置中,存在所述依赖关系的算子逻辑按照所述依赖顺序排列在多个算子节点中,存在所述并列关系的算子存放在同一个算子节点中

[0022本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据集成方法,包括:确定算子配置;从数据库中获取静态数据,并通过所述算子配置对所述静态数据进行处理得到处理静态数据,并将所述处理静态数据存入离线数据表;从所述数据库以及日志中获取实时数据,并通过所述算子配置对所述实时数据进行处理得到处理实时数据,并将所述处理实时数据存入实时数据表;通过所述实时数据表中的所述处理实时数据,对所述离线数据表进行更新处理,得到更新离线数据表
。2.
根据权利要求1所述的方法,确定算子配置包括:从消息队列中获取用户端发送的多个算子逻辑;将所述多个算子逻辑按照有向无环图的结构,生成所述算子配置
。3.
根据权利要求2所述的方法,将所述多个算子逻辑按照有向无环图的结构,生成所述算子配置,包括:确定所述多个算子逻辑之间的关联关系,所述关系包括依赖关系或者并列关系;通过所述关联关系,将所述算子逻辑按照有向无环图的结构,生成所述算子配置,所述算子配置中,存在所述依赖关系的算子逻辑按照所述依赖顺序排列在多个算子节点中,存在所述并列关系的算子存放在同一个算子节点中
。4.
根据权利要求1‑3中任一项所述的方法,所述实时数据包括变更数据以及新增数据;从所述数据库以及日志中获取实时数据,并通过所述算子配置对所述实时数据进行处理得到处理实时数据,包括:从所述数据库中获取所述变更数据,并通过所述算子配置对所述变更数据进行处理得到处理变更数据;从所述日志中获取所述新增数据,并通过所述算子配置对所述新增数据进行处理得到处理新增数据;将所述处理变更数据以及所述处理新增数据,确定为所述处理实时数据
。5.
根据权利要求4所述的方法,通过所述实时数据表中的所述处理实时数据,对所述离线数据表进行更新处理,包括:通过所述处理变更数据对所述离线数据表中的所述处理静态数据进行变更处理,所述变更处理包括以下至少一种:增加

删除...

【专利技术属性】
技术研发人员:祝佳俊
申请(专利权)人:杭州网易再顾科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1