【技术实现步骤摘要】
一种数据装载方法及装置
[0001]本专利技术涉及一种数据装载方法及装置,属于电力系统信息
技术介绍
[0002]随着大数据时代的到来,电力计费业务中每天都会产生大量的数据,这些数据规模大、种类繁多,如何保证数据处理的速度和及时性成为亟待解决的问题。
技术实现思路
[0003]本专利技术的目的在于提供一种数据装载方法及装置,以保证电力计费业务中数据处理的速度和及时性。
[0004]为实现上述目的,本专利技术采用如下技术方案:一方面,本专利技术提供了一种数据装载方法,包括:建立第一数据库到开放数据处理服务ODPS的数据连接;基于数据分片,从第一数据库抽取业务数据到所述ODPS,获取第一表数据集合;创建多个spark任务;通过所述多个spark任务读取所述第一表数据集合,以及对所述第一表数据集合进行数据分区,得到第二表数据集合;将所述第二表数据集合装载到第一内存数据库。
[0005]进一步地,所述的一种数据装载方法,还包括,从第一数据库抽取业务数据到所述ODPS之前,利用阿里云工具Di统 ...
【技术保护点】
【技术特征摘要】
1.一种数据装载方法,其特征在于,包括:建立第一数据库到开放数据处理服务ODPS的数据连接;基于数据分片,从第一数据库抽取业务数据到所述ODPS,获取第一表数据集合;创建多个spark任务;通过所述多个spark任务读取所述第一表数据集合,以及对所述第一表数据集合进行数据分区,得到第二表数据集合;将所述第二表数据集合装载到第一内存数据库。2.根据权利要求1所述的一种数据装载方法,其特征在于,还包括,从第一数据库抽取业务数据到所述ODPS之前,利用阿里云工具Di统计第一数据库中待抽取的业务数据总量;根据所述业务数据总量,确定数据分片的实施方式。3.根据权利要求1所述的一种数据装载方法,其特征在于,所述建立第一数据库到开放数据处理服务ODPS的数据连接,具体包括:建立第一数据库到ODPS的数据连接;确定所述数据连接成功。4.根据权利要求1所述的一种数据装载方法,其特征在于,所述创建多个spark任务,具体包括:当spark任务的数量超过第一阈值,将spark任务的并发度设置为最大分配cpu核数的1/2至1/3;当spark任务的数量小于第二阈值,将spark任务的并发度设置为低于第三阈值。5.根据权利要求1所述的一种数据装载方法,其特征在于,所述数据分区依据第一表数据集合中的关系外键。6...
【专利技术属性】
技术研发人员:许杰雄,郑海雁,尹飞,李叶飞,王松,季聪,陈佐,郑飞,郑斌,陆嘉玮,马吉科,李平,曾望志,葛崇慧,武梦阳,帅率,孙权,王江辉,厉文婕,陆燕宁,仲智颖,包琰琪,刘志杰,
申请(专利权)人:江苏方天电力技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。