一种数据提取增量区间的获取方法、数据提取方法技术

技术编号:24289769 阅读:31 留言:0更新日期:2020-05-26 20:05
本发明专利技术公开了一种数据提取增量区间的获取方法、数据提取方法,所述方法包括:向数据提取程序输入初始增量区间;检测数据提取程序是否正常运行;当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间,并按照小于或等于增量区间的时间区间提取数据,保证了程序正常定时运行时,按照程序能正常运行的增量区间提取增量数据,可以在多种情况下对增量数据进行有效提取。

A method of obtaining incremental interval and data extraction

【技术实现步骤摘要】
一种数据提取增量区间的获取方法、数据提取方法
本专利技术涉及计算机
,具体的涉及一种数据提取增量区间的获取方法、数据提取方法。
技术介绍
商业智能领域应用的核心就是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,达到资源的合理配置,节约成本提高效益。而数据抽取是实施商业智能系统中非常重要的环节。在用spark进行批量数据处理时,除了第一次处理全量数据外,常常需要处理每天新增的数据,如果因为停电等外部原因导致程序无法每天定时运行,那么累积的增量数据在外部故障恢复后程序重启进行提取时,经常会因为累计的数据量过于庞大而导致重启后的程序无法正常运行,造成死循环,数据提取不够灵活。
技术实现思路
本专利技术的目的在于克服现有技术中由于数据量过大导致程序无法正常运行的技术问题,提供一种数据提取增量区间的获取方法、数据提取方法。为实现上述目的,本专利技术采用的技术方案如下:一种数据提取增量区间的获取方法,所述方法包括:向数据提取程序输入初始增量区间;检测数据提取程序是否正常运行;当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间。一种数据提取方法,使用上述的数据提取增量区间的获取方法获取增量区间,所述方法包括:确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;按照小于或等于增量区间的时间区间提取数据。进一步的,当提取数据的时间区间小于或等于增量区间时,按照确定的提取数据的时间区间进行提取。进一步的,当提取数据的时间区间大于增量区间时,按照增量区间多次提取。进一步的,还包括:将每次数据提取的结束时间节点保存至增量表中。进一步的,所述提取数据时,访问所述增量表,按照所述增量表中最新的结束时间节点作为本次提取数据的开始时间节点。进一步的,所述数据提取程序不能正常运行时,重新调整结束时间节点后继续提取。进一步的,所述结束时间节点自定义设置。进一步的,所述结束时间节点的调整包括:向数据提取程序输入初始结束时间节点,调低结束时间节点直至数据提取程序正常运行以确定结束时间节点。由上述对本专利技术的描述可知,与现有技术相比,本专利技术提供的一种数据提取增量区间的获取方法、数据提取方法,向数据提取程序输入初始增量区间;检测数据提取程序是否正常运行;当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间,并按照小于或等于增量区间的时间区间提取数据,保证了程序正常定时运行时,按照程序能正常运行的增量区间提取增量数据,可以在多种情况下对增量数据进行有效提取。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术数据提取增量区间的获取流程图;图2为本专利技术数据提取流程图。具体实施方式以下将结合本专利技术实施例中的附图对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。第一次运行数据提取程序时,为程序初始化一个开始时间节点,程序将提取该时间节点以后的数据,例如,以增量的方式提取机器产生的故障数据,正常情况下,程序按天运行,第二天提取前一天的数据进行故障诊断,如果程序在某天没有正常运行,如断电和其他外界因素,则会在下一次运行时提取未提取到的所有数据;在本实施例中,在数据提取之前制定数据提取增量区间策略,以保证程序正常运行,如图1所示,包括以下步骤:S101:向数据提取程序输入初始增量区间;S102:检测数据提取程序是否正常运行;S103:当数据提取程序正常运行时,调高增量区间直至数据提取程序不正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间。一般情况下,先输入一个开始时间节点,作为本次数据提取的时间节点,程序提取数据时,需要确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间,本次提取数据的结束时间节点等于开始时间节点加上一个时间区间长度,这个时间区间长度即是本实施中要制定的增量区间,这个增量区间即该程序在所给固定资源的情况下能处理的最长时间区间长度,例如,一开始将该时间区间长度设为1小时,发现在固定资源(如:5台服务器)上可以正常拉取该时间区间长度下的所有数据,并进行相关逻辑处理,然后将该时间区间调整为20小时,发现在固定资源(如:5台服务器)上不能正常拉取该时间区间长度下的所有数据,并进行相关逻辑处理,然后将时间区间调整为10小时,发现在固定资源(如:5台服务器)上可以正常拉取该时间区间长度下的所有数据,并进行相关逻辑处理,然后将时间区间长度调整为15小时,去测试是否能正常拉取该时间区间长度下的所有数据,并进行相关逻辑处理,以此类推,直到确定最佳的时间区间长度为止,假设最后确定的最佳的时间区间长度是16小时,采用这种策略的好处是程序在绝大多数情况下都能自动增量运行下去,即使挂掉,下次定时启动的时候只要增量时间区间长度不超过确定的这个时间区间长度,仍可以照常运行,在调整过程中,累计增量数据过多,数据提取程序不能正常运行时,需要手动重启程序,重新调整结束时间节点后继续提取,该结束时间节点可以自定义设置,例如过滤掉不需要的时间段数据,或者通过调整确定,具体的,可向数据提取程序输入初始结束时间节点,调低结束时间节点直至数据提取程序正常运行以确定结束时间节点。增量区间确定完之后,进行数据提取,如图2所示,包括以下步骤:S201:确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;S202:按照小于或等于增量区间的时间区间提取数据。进行数据提取时,确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;当提取数据的时间区间小于或等于增量区间时,按照确定的提取数据的时间区间进行提取,将每次数据提取的结束时间节点保存至增量表中,在下一次提取数据时,访问所述增量表,按照所述增量表中最新的结束时间节点作为本次提取数据的开始时间节点,当提取数据的时间区间小于或等于增量区间时,按照确定的提取数据的时间区间进行提取,此时由于需要提取数据的时间区间小于或等于增量区间,例如,上述得出增量区间为16个小时,而本次需要提取的时间区间等于或小于16个小时,程序能正常运行,当提取数据的本文档来自技高网...

【技术保护点】
1.一种数据提取增量区间的获取方法,其特征在于,所述方法包括:/n向数据提取程序输入初始增量区间;/n检测数据提取程序是否正常运行;/n当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间。/n

【技术特征摘要】
1.一种数据提取增量区间的获取方法,其特征在于,所述方法包括:
向数据提取程序输入初始增量区间;
检测数据提取程序是否正常运行;
当数据提取程序正常运行时,调高增量区间直至数据提取程序不能正常运行后,调低增量区间直至数据提取程序恢复正常运行以确定增量区间。


2.一种数据提取方法,其特征在于,使用权利要求1所述的数据提取增量区间的获取方法获取增量区间,所述方法包括:
确定提取数据的开始时间节点和结束时间节点以确定提取数据的时间区间;
按照小于或等于增量区间的时间区间提取数据。


3.根据权利要求2所述的数据提取方法,其特征在于,还包括:当提取数据的时间区间小于或等于增量区间时,按照确定的提取数据的时间区间进行提取。


4.根据权利要求2所述的数据提取方法,其特征在于:当提取数据的时间...

【专利技术属性】
技术研发人员:余伟彭睿
申请(专利权)人:珠海格力电器股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1