一种数据批处理的方法及设备技术

技术编号:15639445 阅读:82 留言:0更新日期:2017-06-15 23:35
本申请的目的是提供一种数据批处理的方法及设备,本申请通过判断待批处理数据的处理延时要求是否小于等于预设阈值,若小于等于,获取所述待批处理数据中的事务的依赖关系和对应的依赖顺序,将所述待批处理数据中的事务按所述依赖关系和依赖顺序合并成组合事务,对每个组合事务进行批处理,其中,每个组合事务包含一个或多个没有依赖关系的事务;若大于,则将所述待批处理数据的更新操作进行拆分,得到删除操作和插入操作,将属于所述待批处理数据的同一键值下的删除操作和插入操作进行合并,将合并后的所有键值下的删除操作和插入操作分别进行批处理,从而根据不同的场景需求采用不同的数据批处理方案。

【技术实现步骤摘要】
一种数据批处理的方法及设备
本申请涉及计算机领域,尤其涉及一种数据批处理的方法及设备。
技术介绍
随着信息技术的发展,云时代的来临,大数据也吸引了越来越多的关注,大数据指的是大小超出常规的数据工具获取、存储、管理和分析能力的数据集,并不是说一定要超过TB值得数据集才能算是大数据。大数据几乎渗透到国民经济的所有部门,应用领域涉及信息服务、智慧城市、金融、制造业、国家安全和科学研究等。从数据计算响应性能角度看,大数据处理可分为实时/准实时与非实时计算,或者是联机计算与离线计算,在一些大型的业务处理系统中,为了提高业务处理速度,一般需要在多地部署机房,不同机房的数据库之间需要保持数据的同步,大数据系统中对数据进行实时/准实时同步是一个困难的课题,目前的大数据同步的方法延时较高、吞吐量较低,且不能接受各种数据源。申请内容本申请的一个目的是提供一种数据批处理的方法及设备,解决现有技术中进行大数据处理时的延时高、低吞吐量,不接受各种数据源的问题。根据本申请的一个方面,提供了一种数据批处理的方法,该方法包括:判断待批处理数据的处理延时要求是否小于等于预设阈值,若小于等于,获取所述待批处理数据中的事务的依赖关系和对应的依赖顺序,将所述待批处理数据中的事务按所述依赖关系和依赖顺序合并成组合事务,对每个组合事务进行批处理,其中,每个组合事务包含一个或多个没有依赖关系的事务;若大于,将所述待批处理数据的更新操作进行拆分,得到删除操作和插入操作,将属于所述待批处理数据的同一键值下的删除操作和插入操作进行合并,将合并后的所有键值下的删除操作和插入操作分别进行批处理。进一步地,上述方法中,获取所述待批处理数据中的事务的依赖关系和对应的依赖顺序,将所述待批处理数据中的事务按所述依赖关系和依赖顺序合并成组合事务,对每个组合事务进行批处理,包括:将所述待批处理数据转换成统一内部格式;获取所述转换后的待批处理数据中的事务的依赖关系和对应的依赖顺序;按照依赖关系和对应的依赖顺序将所述转换后的待批处理数据的多个事务进行合并,得到一个或多个组合事务,对每个组合事务进行批处理。进一步地,所述统一内部格式包括:数据操作类型、操作地址标识、数据所属的表名、多个数据列,其中,所述数据列包括一个或多个键值。进一步地,上述方法中,获取所述转换后的待批处理数据中的事务的依赖关系和对应的依赖顺序,包括:获取所述统一内部格式中的键值,根据所述键值获取所述转换后的待批处理数据中的事务的依赖关系和对应的依赖顺序。更进一步地,根据所述键值获取所述转换后的待批处理数据中的事务的依赖关系,包括以下至少任一项:根据所述键值中的主键获取在同一数据表内的多个事务之间的依赖关系;根据所述键值中的外键获取不同数据表之间的多个事务之间的依赖关系;根据用户自定义及所述键值获取多个事务之间的依赖关系。进一步地,上述方法中,对每个组合事务进行批处理,包括:将每个组合事务的更新操作进行拆分,汇总得到每个组合事务内的删除操作和插入操作;将汇总的每个组合事务内的删除操作和插入操作分别进行批量处理。进一步地,将汇总每个组合事务内的删除操作和插入操作分别进行批量处理,包括:将每个组合事务内的删除操作和插入操作分别进行汇总,得到每个组合事务内的删除操作和插入操作;对每个组合事务内的删除操作进行批处理;对每个组合事务内的插入操作进行批处理。进一步地,将汇总每个组合事务内的删除操作和插入操作分别进行批量处理,包括:将每个组合事务内的删除操作和插入操作进行汇总,得到每个组合事务内的删除操作和插入操作;根据所述组合事务内的删除操作和插入操作分别建立对应待删除数据库外表和插入数据库外表;根据所述删除数据库外表,对每个组合事务内的删除操作进行批处理;根据所述插入数据库外表,对每个组合事务内的插入操作进行批处理。进一步地,将汇总的每个组合事务内的删除操作和插入操作分别进行批量处理之前或之后,还包括:通过编程接口及用户自定义转换方式对待批处理数据进行数据转换。进一步地,将所述待批处理数据的更新操作进行拆分,得到删除操作和插入操作,将属于同一键值下的删除操作和插入操作进行合并,将合并后的所有键值下的删除操作和插入操作分别进行批处理,包括:将所述待批处理数据转换成统一内部格式;将所述转换后的待批处理数据的更新操作进行拆分,得到删除操作和插入操作;获取所述统一内部格式中的键值,将属于同一键值下的删除操作和插入操作进行合并;将合并后的属于同一键值下的删除操作和插入操作分别进行批处理。进一步地,上述方法中,将合并后的属于同一键值下的删除操作和插入操作分别进行批处理,包括:对所述合并后的属于同一键值下的删除操作和插入操作中的第一个操作和最后一个操作,进行合并的批处理。进一步地,对所述合并后的属于同一键值下的删除操作和插入操作中的第一个操作和最后一个操作,进行合并的批处理,包括如下至少一项:若第一个操作为插入操作,且最后一个操作为删除操作,则进行忽略操作的合并处理;若第一个操作为插入操作,且最后一个操作为插入操作时,将仅执行最后的操作的合并处理;若第一个操作为删除操作,且最后一个操作为删除操作时,则仅执行一次删除操作的合并处理;若第一个操作为删除操作,且最后一个操作为插入操作时,则执行删除所述删除操作之后,执行所述最后一个操作的合并处理。进一步地,将合并后的属于同一键值下的删除操作和插入操作分别进行批处理,包括:根据合并后的属于同一键值下的删除操作和插入操作分别建立对应待删除数据库外表和插入数据库外表;根据所述删除数据库外表和插入数据库外表,将合并后的属于同一键值下的删除操作和插入操作分别进行批处理。进一步地,将合并后的属于同一键值下的删除操作和插入操作分别进行批处理之前或之后,还包括:通过编程接口及用户自定义转换方式对所述待批处理数据进行数据转换。根据本申请的另一方面,还提供了一种数据批处理的设备,该设备包括:判断装置,用于判断待批处理数据的处理延时要求是否小于等于预设阈值,第一批处理装置,用于若小于等于,获取所述待批处理数据中的事务的依赖关系和对应的依赖顺序,将所述待批处理数据中的事务按所述依赖关系和依赖顺序合并成组合事务,对每个组合事务进行批处理,其中,每个组合事务包含一个或多个没有依赖关系的事务;第二批处理装置,用于若大于,将所述待批处理数据的更新操作进行拆分,得到删除操作和插入操作,将属于所述待批处理数据的同一键值下的删除操作和插入操作进行合并,将合并后的所有键值下的删除操作和插入操作分别进行批处理。进一步地,上述设备中,所述第一批处理装置包括:第一转换单元,用于将所述待批处理数据转换成统一内部格式;获取单元,用于获取所述转换后的待批处理数据中的事务的依赖关系和对应的依赖顺序;批量处理单元,用于按照依赖关系和对应的依赖顺序将所述转换后的待批处理数据的多个事务进行合并,得到一个或多个组合事务,对每个组合事务进行批处理。进一步地,所述统一内部格式包括:数据操作类型、操作地址标识、数据所属的表名、多个数据列,其中,所述数据列包括一个或多个键值。进一步地,所述获取单元用于:获取所述统一内部格式中的键值,根据所述键值获取所述转换后的待批处理数据中的事务的依赖关系和对应的依赖顺序。更进一步地,所述获取单元用于以下本文档来自技高网...
一种数据批处理的方法及设备

【技术保护点】
一种数据批处理的方法,其中,所述方法包括:判断待批处理数据的处理延时要求是否小于等于预设阈值,若小于等于,获取所述待批处理数据中的事务的依赖关系和对应的依赖顺序,将所述待批处理数据中的事务按所述依赖关系和依赖顺序合并成组合事务,对每个组合事务进行批处理,其中,每个组合事务包含一个或多个没有依赖关系的事务;若大于,将所述待批处理数据的更新操作进行拆分,得到删除操作和插入操作,将属于所述待批处理数据的同一键值下的删除操作和插入操作进行合并,将合并后的所有键值下的删除操作和插入操作分别进行批处理。

【技术特征摘要】
1.一种数据批处理的方法,其中,所述方法包括:判断待批处理数据的处理延时要求是否小于等于预设阈值,若小于等于,获取所述待批处理数据中的事务的依赖关系和对应的依赖顺序,将所述待批处理数据中的事务按所述依赖关系和依赖顺序合并成组合事务,对每个组合事务进行批处理,其中,每个组合事务包含一个或多个没有依赖关系的事务;若大于,将所述待批处理数据的更新操作进行拆分,得到删除操作和插入操作,将属于所述待批处理数据的同一键值下的删除操作和插入操作进行合并,将合并后的所有键值下的删除操作和插入操作分别进行批处理。2.根据权利要求1所述的方法,其中,获取所述待批处理数据中的事务的依赖关系和对应的依赖顺序,将所述待批处理数据中的事务按所述依赖关系和依赖顺序合并成组合事务,对每个组合事务进行批处理,包括:将所述待批处理数据转换成统一内部格式;获取所述转换后的待批处理数据中的事务的依赖关系和对应的依赖顺序;按照依赖关系和对应的依赖顺序将所述转换后的待批处理数据的多个事务进行合并,得到一个或多个组合事务,对每个组合事务进行批处理。3.根据权利要求2所述的方法,其中,所述统一内部格式包括:数据操作类型、操作地址标识、数据所属的表名、多个数据列,其中,所述数据列包括一个或多个键值。4.根据权利要求2所述的方法,其中,获取所述转换后的待批处理数据中的事务的依赖关系和对应的依赖顺序,包括:获取所述统一内部格式中的键值,根据所述键值获取所述转换后的待批处理数据中的事务的依赖关系和对应的依赖顺序。5.根据权利要求4所述的方法,其中,根据所述键值获取所述转换后的待批处理数据中的事务的依赖关系,包括以下至少任一项:根据所述键值中的主键获取在同一数据表内的多个事务之间的依赖关系;根据所述键值中的外键获取不同数据表之间的多个事务之间的依赖关系;根据用户自定义及所述键值获取多个事务之间的依赖关系。6.根据权利要求2所述的方法,其中,对每个组合事务进行批处理,包括:将每个组合事务的更新操作进行拆分,汇总得到每个组合事务内的删除操作和插入操作;将汇总的每个组合事务内的删除操作和插入操作分别进行批量处理。7.根据权利要求6所述的方法,其中,将汇总的每个组合事务内的删除操作和插入操作分别进行批量处理,包括:将每个组合事务内的删除操作和插入操作分别进行汇总,得到每个组合事务内的删除操作和插入操作;对每个组合事务内的删除操作进行批处理;对每个组合事务内的插入操作进行批处理。8.根据权利要求6所述的方法,其中,将汇总每个组合事务内的删除操作和插入操作分别进行批量处理,包括:将每个组合事务内的删除操作和插入操作进行汇总,得到每个组合事务内的删除操作和插入操作;根据所述组合事务内的删除操作和插入操作分别建立对应待删除数据库外表和插入数据库外表;根据所述删除数据库外表,对每个组合事务内的删除操作进行批处理;根据所述插入数据库外表,对每个组合事务内的插入操作进行批处理。9.根据权利要求6所述的方法,其中,将汇总的每个组合事务内的删除操作和插入操作分别进行批量处理之前或之后,还包括:通过编程接口及用户自定义转换方式对待批处理数据进行数据转换。10.根据权利要求1所述的方法,其中,将所述待批处理数据的更新操作进行拆分,得到删除操作和插入操作,将属于同一键值下的删除操作和插入操作进行合并,将合并后的所有键值下的删除操作和插入操作分别进行批处理,包括:将所述待批处理数据转换成统一内部格式;将所述转换后的待批处理数据的更新操作进行拆分,得到删除操作和插入操作;获取所述统一内部格式中的键值,将属于同一键值下的删除操作和插入操作进行合并;将合并后的属于同一键值下的删除操作和插入操作分别进行批处理。11.根据权利要求10所述的方法,其中,将合并后的属于同一键值下的删除操作和插入操作分别进行批处理,包括:对所述合并后的属于同一键值下的删除操作和插入操作中的第一个操作和最后一个操作,进行合并的批处理。12.根据权利要求11所述的方法,其中,对所述合并后的属于同一键值下的删除操作和插入操作中的第一个操作和最后一个操作,进行合并的批处理,包括如下至少一项:若第一个操作为插入操作,且最后一个操作为删除操作,则进行忽略操作的合并处理;若第一个操作为插入操作,且最后一个操作为插入操作时,将仅执行最后的操作的合并处理;若第一个操作为删除操作,且最后一个操作为删除操作时,则仅执行一次删除操作的合并处理;若第一个操作为删除操作,且最后一个操作为插入操作时,则执行删除所述删除操作之后,执行所述最后一个操作的合并处理。13.根据权利要求10至12中任一项所述的方法,其中,将合并后的所有键值下的删除操作和插入操作分别进行批处理,包括:根据合并后的属于同一键值下的删除操作和插入操作分别建立对应待删除数据库外表和插入数据库外表;根据所述删除数据库外表和插入数据库外表,将合并...

【专利技术属性】
技术研发人员:罗德祥谢皓
申请(专利权)人:星环信息科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1