一种数据装载方法及装置制造方法及图纸

技术编号:31506587 阅读:32 留言:0更新日期:2021-12-22 23:38
本发明专利技术提供了一种数据装载方法及装置。建立第一数据库到开放数据处理服务ODPS的数据连接;基于数据分片,从第一数据库抽取业务数据到所述ODPS,获取第一表数据集合;创建多个spark任务;通过所述多个spark任务读取所述第一表数据集合,以及对所述第一表数据集合进行数据分区,得到第二表数据集合;将所述第二表数据集合装载到第一内存数据库。本发明专利技术在分配资源,即增加和分配更多的资源对性能速度的提升具有重要作用,在产生大量的数据造成处理性能迟缓的情况下,利用数据装载的方法提高数据处理的能力。处理的能力。处理的能力。

【技术实现步骤摘要】
一种数据装载方法及装置


[0001]本专利技术涉及一种数据装载方法及装置,属于电力系统信息


技术介绍

[0002]随着大数据时代的到来,电力计费业务中每天都会产生大量的数据,这些数据规模大、种类繁多,如何保证数据处理的速度和及时性成为亟待解决的问题。

技术实现思路

[0003]本专利技术的目的在于提供一种数据装载方法及装置,以保证电力计费业务中数据处理的速度和及时性。
[0004]为实现上述目的,本专利技术采用如下技术方案:一方面,本专利技术提供了一种数据装载方法,包括:建立第一数据库到开放数据处理服务ODPS的数据连接;基于数据分片,从第一数据库抽取业务数据到所述ODPS,获取第一表数据集合;创建多个spark任务;通过所述多个spark任务读取所述第一表数据集合,以及对所述第一表数据集合进行数据分区,得到第二表数据集合;将所述第二表数据集合装载到第一内存数据库。
[0005]进一步地,所述的一种数据装载方法,还包括,从第一数据库抽取业务数据到所述ODPS之前,利用阿里云工具Di统计第一数据库中待抽取本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据装载方法,其特征在于,包括:建立第一数据库到开放数据处理服务ODPS的数据连接;基于数据分片,从第一数据库抽取业务数据到所述ODPS,获取第一表数据集合;创建多个spark任务;通过所述多个spark任务读取所述第一表数据集合,以及对所述第一表数据集合进行数据分区,得到第二表数据集合;将所述第二表数据集合装载到第一内存数据库。2.根据权利要求1所述的一种数据装载方法,其特征在于,还包括,从第一数据库抽取业务数据到所述ODPS之前,利用阿里云工具Di统计第一数据库中待抽取的业务数据总量;根据所述业务数据总量,确定数据分片的实施方式。3.根据权利要求1所述的一种数据装载方法,其特征在于,所述建立第一数据库到开放数据处理服务ODPS的数据连接,具体包括:建立第一数据库到ODPS的数据连接;确定所述数据连接成功。4.根据权利要求1所述的一种数据装载方法,其特征在于,所述创建多个spark任务,具体包括:当spark任务的数量超过第一阈值,将spark任务的并发度设置为最大分配cpu核数的1/2至1/3;当spark任务的数量小于第二阈值,将spark任务的并发度设置为低于第三阈值。5.根据权利要求1所述的一种数据装载方法,其特征在于,所述数据分区依据第一表数据集合中的关系外键。6...

【专利技术属性】
技术研发人员:许杰雄郑海雁尹飞李叶飞王松季聪陈佐郑飞郑斌陆嘉玮马吉科李平曾望志葛崇慧武梦阳帅率孙权王江辉厉文婕陆燕宁仲智颖包琰琪刘志杰
申请(专利权)人:江苏方天电力技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1