数据处理设备和方法、计算机可读存储介质技术

技术编号:29503123 阅读:32 留言:0更新日期:2021-07-30 19:18
本公开提供一种数据处理设备和方法、计算机可读存储介质。数据处理设备包括存储器和处理器,处理器基于存储器存储的指令执行以下操作:以第一抽取周期抽取工厂数据库中的第一数据表中的第一数据,第一数据包括工厂在第一抽取周期内更新的数据,工厂数据库为关系型数据库,第一抽取周期大于1分钟;将第一数据存入分布式存储系统的第二数据表中形成第二数据;将第二数据进行数据整合后存入分布式存储系统的第三数据表中形成第三数据;以第一分析周期调用第三数据表中的数据进行数据分析处理,第一分析周期不小于第一抽取周期。本公开能够将数据从关系型数据库提取到分布式存储系统中,并满足用户对数据的分钟级别同步的需求。

【技术实现步骤摘要】
【国外来华专利技术】数据处理设备和方法、计算机可读存储介质
本公开涉及数据处理
,特别涉及一种数据处理设备和方法、计算机可读存储介质。
技术介绍
在大数据处理领域,需要将所需数据从关系型数据库抽取到大数据平台中。大数据平台根据业务逻辑对所抽取的数据进行处理,以满足上层应用对数据的需求。在相关技术中,通过利用ETL(Extract-Transform-Load,抽取-转换-加载)工具,将所需数据从关系型数据库抽取到大数据平台中。
技术实现思路
根据本公开实施例的第一方面,提供一种数据处理设备,包括:至少一个存储器,被配置为存储指令;至少一个处理器,耦合到所述至少一个存储器,所述至少一个处理器被配置为基于所述存储器存储的指令执行以下操作:以第一抽取周期抽取工厂数据库中的第一数据表中的第一数据,所述第一数据包括所述工厂在所述第一抽取周期内更新的数据,所述工厂数据库为关系型数据库,所述第一抽取周期大于1分钟;将所述第一数据存入分布式存储系统的第二数据表中形成第二数据;将所述第二数据进行数据整合后插入所述分布式存储系统的第三数据表中形成第三数据;以第一分析周期调用所述第三数据表中的数据进行数据分析处理,所述第一分析周期不小于所述第一抽取周期。在一些实施例中,将所述第二数据进行数据整合并插入所述分布式存储系统的第三数据表中形成第三数据之后,还包括:在预设时间段,利用所述第二数据表中的在第一处理周期内存入的数据对所述第三数据表中的在所述第一处理周期内插入的数据进行检查,以便使所述第三数据表中的在所述第一处理周期内插入的数据与所述第一数据表中的在所述第一处理周期内更新的数据一致;在所述预设时间段,所述第一分析周期大于预设门限。在一些实施例中,所述第一抽取周期的范围为10分钟-1天。在一些实施例中,利用所述第二数据表中的在第一处理周期内存入的数据对所述第三数据表中的在所述第一处理周期内插入的数据进行检查包括:利用所述第二数据表中的在第一处理周期内存入的数据对所述第三数据表中的在第一处理周期插入的数据进行去重或补漏中至少一项。在一些实施例中,所述第一数据表包括第一数据子表和第二数据子表,所述第二数据表包括第三数据子表和第四数据子表,所述第一数据子表包括所述工厂数据库中修改后的第一子数据,所述第二数据子表包括在修改过程中被去除的第二子数据;以所述第一抽取周期抽取所述第一数据表中的第一数据包括:以所述第一抽取周期,从所述第一数据子表中抽取出第一子数据,从所述第二数据子表中抽取出第二子数据;将所述第一数据存入所述第二数据表中包括:将所述第一子数据存入所述第三数据子表中形成第三子数据,将所述第二子数据存入所述第四数据子表中形成第四子数据;将所述第二数据进行数据整合后插入所述第三数据表中包括:将所述第三子数据进行数据整合后插入所述第三数据表中。在一些实施例中,利用所述第二数据表中的数据对所述第三数据表中的数据进行检查包括:利用所述第四数据子表中的在第二处理周期内存入的数据对所述第三数据表中的在所述第二处理周期内插入的数据进行过滤处理,以便将所述第三数据表中的在所述第二处理周期内插入的所述第四子数据去除;所述第二处理周期大于所述第一处理周期。在一些实施例中,所述第二数据包括第五子数据和第六子数据,所述第六子数据为压缩格式;将所述第二数据进行数据整合后插入所述第三数据表中包括:将所述第六子数据进行格式变换,以得到具有预设数据格式的第七子数据;将所述第五子数据和所述第七子数据根据数据标识进行关联,以得到第四数据;将所述第四数据进行数据整合后插入所述第三数据表中。在一些实施例中,将所述第六子数据进行格式变换包括:从所述第二数据中抽取出所述第六子数据;将所述第六子数据发送给Linux服务器,以便所述Linux服务器对所述第六子数据进行格式变换,以得到具有所述预设数据格式的第七子数据。在一些实施例中,所述第六子数据的压缩格式为BLOB格式。根据本公开实施例的第二方面,提供一种数据处理方法,包括:以第一抽取周期抽取工厂数据库中的第一数据表中的第一数据,所述第一数据包括所述工厂在所述第一抽取周期内更新的数据,所述工厂数据库为关系型数据库,所述第一抽取周期大于1分钟;将所述第一数据存入分布式存储系统的第二数据表中形成第二数据;将所述第二数据进行数据整合后插入所述分布式存储系统的第三数据表中形成第三数据;以第一分析周期调用所述第三数据表中的数据进行数据分析处理,所述第一分析周期不小于所述第一抽取周期。在一些实施例中,将所述第二数据进行数据整合并插入所述分布式存储系统的第三数据表中形成第三数据之后,还包括:在预设时间段,利用所述第二数据表中的在第一处理周期内存入的数据对所述第三数据表中的在所述第一处理周期内插入的数据进行检查,以便使所述第三数据表中的在所述第一处理周期内插入的数据与所述第一数据表中的在所述第一处理周期内更新的数据一致;在所述预设时间段,所述第一分析周期大于预设门限。在一些实施例中,所述第一抽取周期的范围为10分钟-1天。在一些实施例中,所述第一数据表包括第一数据子表和第二数据子表,所述第二数据表包括第三数据子表和第四数据子表,所述第一数据子表包括所述工厂数据库中修改后的第一子数据,所述第二数据子表包括在修改过程中被去除的第二子数据;以所述第一抽取周期抽取所述第一数据表中的第一数据包括:以所述第一抽取周期,从所述第一数据子表中抽取出第一子数据,从所述第二数据子表中抽取出第二子数据;将所述第一数据存入所述第二数据表中包括:将所述第一子数据存入所述第三数据子表中形成第三子数据,将所述第二子数据存入所述第四数据子表中形成第四子数据;将所述第二数据进行数据整合后插入所述第三数据表中包括:将所述第三子数据进行数据整合后插入所述第三数据表中;利用所述第二数据表中的数据对所述第三数据表中的数据进行检查包括:利用所述第四数据子表中的在第二处理周期内存入的数据对所述第三数据表中的在所述第二处理周期内插入的数据进行过滤处理,以便将所述第三数据表中的在所述第二处理周期内插入的所述第四子数据去除;所述第二处理周期大于所述第一处理周期。在一些实施例中,所述第二数据包括第五子数据和第六子数据,所述第六子数据为压缩格式;将所述第二数据进行数据整合后插入所述第三数据表中包括:从所述第二数据中抽取出所述第六子数据;将所述第六子数据发送给Linux服务器,以便所述Linux服务器对所述第六子数据进行格式变换,以得到具有所述预设数据格式的第七子数据;将所述第五子数据和所述第七子数据根据数据标识进行关联,以得到第四数据;将所述第四数据进行数据整合后插入所述第三数据表中。根据本公开实施例的第三方面,提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,所述指令被处理器执行上述任一实施例所述的数据处理方法。通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。附图说明构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。...

【技术保护点】
一种数据处理设备,包括:/n至少一个存储器,被配置为存储指令;/n至少一个处理器,耦合到所述至少一个存储器,所述至少一个处理器被配置为基于所述存储器存储的指令执行以下操作:/n以第一抽取周期抽取工厂数据库中的第一数据表中的第一数据,所述第一数据包括所述工厂在所述第一抽取周期内更新的数据,所述工厂数据库为关系型数据库,所述第一抽取周期大于1分钟;/n将所述第一数据存入分布式存储系统的第二数据表中形成第二数据;/n将所述第二数据进行数据整合后插入所述分布式存储系统的第三数据表中形成第三数据;/n以第一分析周期调用所述第三数据表中的数据进行数据分析处理,所述第一分析周期不小于所述第一抽取周期。/n

【技术特征摘要】
【国外来华专利技术】一种数据处理设备,包括:
至少一个存储器,被配置为存储指令;
至少一个处理器,耦合到所述至少一个存储器,所述至少一个处理器被配置为基于所述存储器存储的指令执行以下操作:
以第一抽取周期抽取工厂数据库中的第一数据表中的第一数据,所述第一数据包括所述工厂在所述第一抽取周期内更新的数据,所述工厂数据库为关系型数据库,所述第一抽取周期大于1分钟;
将所述第一数据存入分布式存储系统的第二数据表中形成第二数据;
将所述第二数据进行数据整合后插入所述分布式存储系统的第三数据表中形成第三数据;
以第一分析周期调用所述第三数据表中的数据进行数据分析处理,所述第一分析周期不小于所述第一抽取周期。


根据权利要求1所述的处理设备,其中,将所述第二数据进行数据整合并插入所述分布式存储系统的第三数据表中形成第三数据之后,还包括:
在预设时间段,利用所述第二数据表中的在第一处理周期内存入的数据对所述第三数据表中的在所述第一处理周期内插入的数据进行检查,以便使所述第三数据表中的在所述第一处理周期内插入的数据与所述第一数据表中的在所述第一处理周期内更新的数据一致;
在所述预设时间段,所述第一分析周期大于预设门限。


根据权利要求2所述的处理设备,其中,
所述第一抽取周期的范围为10分钟-1天。


根据权利要求2所述的处理设备,其中,利用所述第二数据表中的在第一处理周期内存入的数据对所述第三数据表中的在所述第一处理周期内插入的数据进行检查包括:
利用所述第二数据表中的在第一处理周期内存入的数据对所述第三数据表中的在第一处理周期插入的数据进行去重或补漏中至少一项。


根据权利要求2所述的处理设备,其中,所述第一数据表包括第一数据子表和第二数据子表,所述第二数据表包括第三数据子表和第四数据子表,所述第一数据子表包括所述工厂数据库中修改后的第一子数据,所述第二数据子表包括在修改过程中被去除的第二子数据;
以所述第一抽取周期抽取所述第一数据表中的第一数据包括:
以所述第一抽取周期,从所述第一数据子表中抽取出第一子数据,从所述第二数据子表中抽取出第二子数据;
将所述第一数据存入所述第二数据表中包括:
将所述第一子数据存入所述第三数据子表中形成第三子数据,将所述第二子数据存入所述第四数据子表中形成第四子数据;
将所述第二数据进行数据整合后插入所述第三数据表中包括:
将所述第三子数据进行数据整合后插入所述第三数据表中。


根据权利要求5所述的处理设备,其中,利用所述第二数据表中的数据对所述第三数据表中的数据进行检查包括:
利用所述第四数据子表中的在第二处理周期内存入的数据对所述第三数据表中的在所述第二处理周期内插入的数据进行过滤处理,以便将所述第三数据表中的在所述第二处理周期内插入的所述第四子数据去除;所述第二处理周期大于所述第一处理周期。


根据权利要求2所述的处理设备,其中,所述第二数据包括第五子数据和第六子数据,所述第六子数据为压缩格式;
将所述第二数据进行数据整合后插入所述第三数据表中包括:
将所述第六子数据进行格式变换,以得到具有预设数据格式的第七子数据;
将所述第五子数据和所述第七子数据根据数据标识进行关联,以得到第四数据;
将所述第四数据进行数据整合后插入所述第三数据表中。


根据权利要求7所述的处理设备,其中,将所述第六子数据进行格式变换包括...

【专利技术属性】
技术研发人员:陈志浩柴栋吴昊晗王洪
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1