【技术实现步骤摘要】
一种数据动态拆分方法和装置
[0001]本专利技术涉及计算机
,尤其涉及一种数据动态拆分方法和装置。
技术介绍
[0002]在集成中间件系统中,需要将业务系统产生的数据按照一定的规则,按时、准确、完整地导出至中间表,由于中间表数量大并且每个表存储不同业务类型的数据,如果一次处理数据量过大不仅造成数据库压力大,而且不利于数据分析。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]在现有技术中,每次集成中间件系统从业务系统抽取的业务数据量少则百万,多则千万级别,而在将业务数据导出至中间表时由于一次统计数据量过大造成数据库卡死。
技术实现思路
[0005]有鉴于此,本专利技术实施例提供一种数据动态拆分方法和装置,能够解决将业务数据导出至中间表时由于数据量过大造成数据库卡死的问题。
[0006]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种数据动态拆分方法,包括获取业务系统数据源,基于预设的任务条件对数据源进行清洗,每得到一个清洗后 ...
【技术保护点】
【技术特征摘要】
1.一种数据动态拆分方法,其特征在于,包括:获取业务系统数据源,基于预设的任务条件对数据源进行清洗,每得到一个清洗后的数据则将任务计数器递增;监控任务计算器,确定任务计算器大于批次数,则生成对应的批次号,直至完成对清洗后数据的批次划分;基于批次号,将清洗后的数据根据预设的映射关系分批次导出至中间表。2.根据权利要求1所述的方法,其特征在于,基于预设的任务条件对数据源进行清洗之前,包括:在配置文件中设置任务条件、批次数和映射关系,并将配置文件初始化至内存中。3.根据权利要求1所述的方法,其特征在于,生成对应的批次号,包括:获取当前时间戳,基于所述任务识别码的哈希值,拼接生成对应的批次号。4.根据权利要求1-3任一所述的方法,其特征在于,将清洗后的数据根据预设的映射关系分批次导出至中间表,包括:利用数据集的并行运算编程模型,通过用于将数据库转换为分布式文件系统的解析器,将清洗后的数据根据预设的映射关系分批次导出至中间表。5.一种数据动态拆分装置,其特征在于,包括:获取模块,用于获取业务系统数据源,基于预设的任务条件对数据源进行清洗,每得到一个清洗后的数据则将任务计数器递增;划分模块,用于监控任务计算器,确定任务计算器大于...
【专利技术属性】
技术研发人员:张丽,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。