一种数据抽取方法与装置制造方法及图纸

技术编号:30972277 阅读:11 留言:0更新日期:2021-11-25 20:54
本申请涉及一种数据抽取方法与装置,其中,一种数据抽取方法包括:设置数据抽取任务,其中,数据抽取任务用于抽取源数据系统的目的数据,数据抽取任务包括:源数据系统产生目的数据的开始时间和结束时间、数据抽取任务的启动条件、数据扫描操作和数据抽取操作;根据数据分布信息对数据抽取时间段进行动态分片操作,得到多个子时间段,其中,数据分布信息包括目的数据的数据量在数据抽取时间段上的分布情况,数据抽取时间段是开始时间和结束时间之间的时间段;对目的数据进行数据扫描操作,以判断数据抽取任务是否满足启动条件;当数据抽取任务满足启动条件时,根据多个子时间段执行数据抽取操作。数据抽取操作。数据抽取操作。

【技术实现步骤摘要】
一种数据抽取方法与装置


[0001]本申请涉及计算机
,尤其涉及一种数据抽取方法与装置。

技术介绍

[0002]随着计算机技术的发展,各行各业的发展更加迅速,且更具智能化,尤其涉及到数据抽取

[0003]传统的数据抽取操作通常都是人工来完成的,过程繁琐且容易出错。目前,现有技术中普遍的抽取方式是离线抽取,离线抽取是在次日凌晨之后开始抽取数据的,且抽取的是前一天凌晨到今日凌晨的数据。但是离线数据抽取存在着抽数速度慢和抽数数据不准确的问题;比如:若是在前一天数据量特别大的情况下,凌晨开始抽数就耗费的时间特别长;若在凌晨开始抽取数据操作,会存在着数据更新,会导致抽取前一天的数据丢失,造成抽取数据不准确的问题;ABS(即资产证券化)现有业务对数据的实时性和准确性要求比较高,现有的离线抽数方案严重时会影响现有业务。
[0004]因此本申请提供了一种数据抽取方法与装置,能够满足数据抽取的实时性和准确性。

技术实现思路

[0005]本申请提供了一种数据抽取方法与装置,以解决现有技术中抽取速度慢,抽取数据不准确的问题,提高数据抽取的实时性和准确性。
[0006]第一方面,本申请提供了一种数据抽取方法,包括以下步骤:
[0007]设置数据抽取任务,其中,所述数据抽取任务用于抽取源数据系统的目的数据,所述数据抽取任务包括:所述源数据系统产生所述目的数据的开始时间和结束时间、所述数据抽取任务的启动条件、数据扫描操作和数据抽取操作;
[0008]根据数据分布信息对数据抽取时间段进行动态分片操作,得到多个子时间段,其中,所述数据分布信息包括所述目的数据的数据量在所述数据抽取时间段上的分布情况,所述数据抽取时间段是所述开始时间和所述结束时间之间的时间段;
[0009]对所述目的数据进行所述数据扫描操作,以判断所述数据抽取任务是否满足所述启动条件;
[0010]当所述数据抽取任务满足所述启动条件时,根据所述多个子时间段执行所述数据抽取操作。在一种可能的实施方式中,所述根据数据分布信息对数据抽取时间段进行动态分片操作,得到多个子时间段,包括:
[0011]根据数据分布信息确定子时间段数据量,其中,所述子时间段数据量用于指示所述目的数据在每个子时间段内的数据量的多少;
[0012]根据所述子时间段数据量和预设数量对数据抽取时间段进行动态分片操作,得到多个子时间段。
[0013]在一种可能的实施方式中,还包括,当所述数据抽取任务不满足所述启动条件且
到达所述数据抽取任务的结束时间时,在所述数据抽取任务的下一次的开始时间开始执行所述数据抽取任务的数据抽取操作。
[0014]在一种可能的实施方式中,所述启动条件包括:所述数据抽取任务的数据量不小于预设值。
[0015]在一种可能的实施方式中,所述执行所述数据抽取任务的数据抽取操作,包括:
[0016]获取所述数据抽取任务的第i轮数据抽取操作在一个查询时间点的数据,i为自然数;将其与第i轮数据抽取操作在上一个查询时间点的数据进行比较,以判断数据是否发生变动:
[0017]若是,则继续所述数据抽取任务的第i轮数据抽取操作;
[0018]若否,则结束所述数据抽取任务的第i轮数据抽取操作,并开始执行所述数据抽取任务的第i+1轮数据抽取操作。
[0019]在一种可能的实施方式中,所述执行所述数据抽取任务的数据抽取操作,还包括:
[0020]判断所述数据抽取任务的数据是否抽取完成,若否,则返回继续执行所述数据抽取任务的数据抽取操作,若是,则结束所述数据抽取任务。
[0021]在一种可能的实施方式中,还包括:根据数据更新时间获取对应时间段内数据抽取任务抽取的最新数据。
[0022]第二方面,本申请提供了一种数据抽取装置,包括:
[0023]任务建立模块,用于设置数据抽取任务,其中,所述数据抽取任务用于抽取源数据系统的目的数据,所述数据抽取任务包括:所述源数据系统产生所述目的数据的开始时间和结束时间、所述数据抽取任务的启动条件、数据扫描操作和数据抽取操作;
[0024]分片模块,用于根据数据分布信息对数据抽取时间段进行动态分片操作,得到多个子时间段,其中,所述数据分布信息包括所述目的数据的数据量在所述数据抽取时间段上的分布情况,所述数据抽取时间段是所述开始时间和所述结束时间之间的时间段;
[0025]判断模块,用于对所述目的数据进行所述数据扫描操作,以判断所述数据抽取任务是否满足所述启动条件;
[0026]数据抽取模块,用于当所述数据抽取任务满足所述启动条件时,根据所述多个子时间段执行所述数据抽取操作。
[0027]第三方面,本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的数据抽取的方法。
[0028]第四方面,本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的数据抽取方法。
[0029]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
[0030]本申请实施例提供的该方法,使用了分治以及递归的思想,因为采用将离线数据动态的分为若干轮抽取,依次递归数据抽取,且当日即可开始数据抽取的技术手段,所以克服了在前一天数据量特别大的情况下,凌晨开始抽数耗费的时间长的问题,进而达到了提高数据抽取效率的技术效果。
附图说明
[0031]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0032]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0033]图1示意性示出了根据本公开实施例的数据抽取方法及装置的系统架构;
[0034]图2示意性示出了根据本公开实施例的数据抽取方法的流程示意图;
[0035]图3示意性示出了根据本公开实施例的数据抽取装置的结构框图;以及
[0036]图4示意性示出了本公开实施例提供的一种电子设备的结构框图。
具体实施方式
[0037]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0038]图1示意性示出了适用于本公开实施例的数据抽取方法及装置的系统架构。...

【技术保护点】

【技术特征摘要】
1.一种数据抽取方法,其特征在于,包括以下步骤:设置数据抽取任务,其中,所述数据抽取任务用于抽取源数据系统的目的数据,所述数据抽取任务包括:所述源数据系统产生所述目的数据的开始时间和结束时间、所述数据抽取任务的启动条件、数据扫描操作和数据抽取操作;根据数据分布信息对数据抽取时间段进行动态分片操作,得到多个子时间段,其中,所述数据分布信息包括所述目的数据的数据量在所述数据抽取时间段上的分布情况,所述数据抽取时间段是所述开始时间和所述结束时间之间的时间段;对所述目的数据进行所述数据扫描操作,以判断所述数据抽取任务是否满足所述启动条件;当所述数据抽取任务满足所述启动条件时,根据所述多个子时间段执行所述数据抽取操作。2.根据权利要求1所述的数据抽取方法,其特征在于,所述根据数据分布信息对数据抽取时间段进行动态分片操作,得到多个子时间段,包括:根据数据分布信息确定子时间段数据量,其中,所述子时间段数据量用于指示所述目的数据在每个子时间段内的数据量的多少;根据所述子时间段数据量和预设数量对数据抽取时间段进行动态分片操作,得到多个子时间段。3.根据权利要求1所述的数据抽取方法,其特征在于,还包括:当所述数据抽取任务不满足所述启动条件且到达所述数据抽取任务的结束时间时,在所述数据抽取任务的下一次的开始时间开始执行所述数据抽取任务的数据抽取操作。4.根据权利要求1所述的数据抽取方法,其特征在于,所述启动条件包括:所述数据抽取任务的数据量不小于预设值。5.根据权利要求1所述的数据抽取方法,其特征在于,所述执行所述数据抽取任务的数据抽取操作,包括:获取所述数据抽取任务的第i轮数据抽取操作在一个查询时间点的数据,i为自然数;将其与第i轮数据抽取操作在上一个查询时间点的数据进行比较,以判断数据是否发生变动:若是,则继续所述数据抽取任务的第i轮数据抽取操作;若否,则结...

【专利技术属性】
技术研发人员:钞娜娜李启坤
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1