一种互联网采集数据自定备份的方法及装置制造方法及图纸

技术编号:38235012 阅读:15 留言:0更新日期:2023-07-25 18:01
本发明专利技术涉及数据管理技术领域,具体提供了一种互联网采集数据自定备份的方法及装置,首先进行初始化,在数据库中创建备份配置表T_BACKUP_CONFIG,存放待备份表的配置信息,在数据库中创建表结构信息表T_BACKUP_STRUCTURE存放待备份的结构,初始化备份表;具体的操作步骤如下:S1、遍历配置表,逐行读取配置信息,结合表的备份周期,向下取整生成备份期列表DATE_LIST;S2、按照TERM_END_DATE日期顺序从小到大遍历DATE_LIST表;S3、遍历步骤S2中的TABLE_LIST;S4、根据配置表执行剩余的表前缀,直至配置表遍历完成。与现有技术相比,本发明专利技术能够适应互联网数据表结构的不定期变化,自动进行调整,无需人工干预。无需人工干预。无需人工干预。

【技术实现步骤摘要】
一种互联网采集数据自定备份的方法及装置


[0001]本专利技术涉及数据管理
,具体提供一种互联网采集数据自定备份的方法及装置。

技术介绍

[0002]互联网的信息非常丰富,大数据及其应用正是基于互联网海量信息的价值提取,对于一些较为重要的信息,往往需要全日高频监测和采集,因此在采集过程中,相应也会生成大量的采集结果表,而在一定周期内的结果表,会存在冗余信息,同时由于网页特性,时常也会产生一些结构调整,导致采集数据发生变更。
[0003]而后续在实际数据的使用中,由于数据产品规划,并不一定能够一次性完整利用采集完成的数据,随着研发进展时而会用到先前还未使用过的内容。因此,如何高效和有效保留采集完成的数据,成为亟待解决的问题。

技术实现思路

[0004]本专利技术是针对上述现有技术的不足,提供一种实用性强的互联网采集数据自定备份的方法。
[0005]本专利技术进一步的技术任务是提供一种设计合理,安全适用的互联网采集数据自定备份的装置。
[0006]本专利技术解决其技术问题所采用的技术方案是:
[0007]一种互联网采集数据自定备份的方法,首先进行初始化,在数据库中创建备份配置表T_BACKUP_CONFIG,存放待备份表的配置信息,在数据库中创建表结构信息表T_BACKUP_STRUCTURE,用于后续存放待备份的结构,初始化备份表;
[0008]具体的操作步骤如下:
[0009]S1、遍历配置表,逐行读取配置信息,结合表的备份周期,向下取整生成备份期列表DATE_LIST;
[0010]S2、按照TERM_END_DATE日期顺序从小到大遍历DATE_LIST表;
[0011]S3、遍历步骤S2中的TABLE_LIST;
[0012]S4、根据配置表执行剩余的表前缀,直至配置表遍历完成。
[0013]进一步的,在数据库中创建备份配置表T_BACKUP_CONFIG,存放待备份表的配置信息,并根据实际业务需求,配置对应的待备份表前缀TABLE_PREFIX、去重依据字段UNIQUE_KEY和表备份周期BACKUP_INTELVAL,结合数据库对应的元数据信息,获取对应前缀历史表中最早日期T的T

1日作为初始化日期。
[0014]进一步的,在数据库中创建表结构信息表T_BACKUP_STRUCTURE,用于后续存放待备份的结构,结构表的初始化,遍历配置表,从数据库对应的元数据信息中,查询各个表前缀对应的后缀日期最早的表,获取表结构,存入结构表中。
[0015]进一步的,在初始化备份表中,基于以获取的表结构,按照TABLE_PREFIX分组,结
合数据库中的文本聚合函数生成对应的建表语句列表,之后遍历列表,逐行执行建表语句生成一系列备份表;
[0016]所述备份表包括原始表数据和备份日期字段。
[0017]进一步的,在步骤S1中,遍历配置表,逐行读取配置信息,对于每一行配置信息,根据配置表中的上次备份时间LAST_BACKUP_DATE以及当前执行的时间,结合表的备份周期,向下取整生成备份期列表DATE_LIST,DATE_LIST中包含每个备份周期的最后一个日期TERM_END_DATE。
[0018]进一步的,在步骤S2中,按照TERM_END_DATE日期顺序从小到大遍历DATE_LIST表,结合表前缀及TERM_END_DATE,查询数据库元数据中表日期后缀对应日期小于TERM_END_DATE的最大日期后缀,作为此周期内的表结构参照表STD_TABLE。
[0019]进一步的,从数据库元数据信息中,获取STD_TABLE的表结构,将表结构与结构表中先前存放的做比对,如果存在字段变更,则将差异字段新增至这类表中,同时生成并执行对应的表字段修改语句;
[0020]之后根据结构表,结合文本聚合函数生成表对应的字段列表字符串SQL_STR,用于拼接后续的SQL操作语句,根据配置表中的LAST_BACKUP_DATE和TERM_END_DATE,查找数据库元数据信息,生成本周期的表列表TABLE_LIST,同时生成结构与备份表相同的临时表TMP,用于后续数据处理。
[0021]进一步的,在步骤S3中,遍历步骤S2中的TABLE_LIST,根据步骤S2中生成的字段列表字符串SQL_STR,生成数据导入SQL,执行数据导入SQL,将每个表的数据插入到步骤S2创建的临时表TMP中。
[0022]进一步的,在步骤S4中,在完成步骤S3之后,跳回步骤S2,根据配置表中的去重依据字段UNIQUE_KEY,结合字段列表字符串SQL_STR,去重并插入到备份表中,并将配置表中的LAST_BACKUP_DATE;
[0023]更新至当次备份周期的TERM_END_DATE,之后继续按照DATE_LIST执行该表前缀后续的备份周期,在执行完该表前缀之后,跳回步骤S1,根据配置表执行剩余的表前缀,直至配置表遍历完成。
[0024]一种互联网采集数据自定备份的装置,包括:至少一个存储器和至少一个处理器;
[0025]所述至少一个存储器,用于存储机器可读程序;
[0026]所述至少一个处理器,用于调用所述机器可读程序,执行一种互联网采集数据自定备份的方法。
[0027]本专利技术的一种互联网采集数据自定备份的方法及装置和现有技术相比,具有以下突出的有益效果:
[0028]本专利技术通过一次性配置即可实现对特定表的自动化备份,并通过去重字段减少备份数据量,有效利用存储空间。能够适应互联网数据表结构的不定期变化,自动进行调整,无需人工干预。
附图说明
[0029]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术
的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]附图1是一种互联网采集数据自定备份的方法的流程示意图。
具体实施方式
[0031]为了使本
的人员更好的理解本专利技术的方案,下面结合具体的实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本专利技术保护的范围。
[0032]下面给出一个最佳实施例:
[0033]如图1所示,本实施例中的一种互联网采集数据自定备份的方法,首先进行初始化;
[0034](1)在数据库中创建备份配置表(后文简称配置表)T_BACKUP_CONFIG,用于存放待备份表的配置信息,并根据实际业务需求,配置对应的待备份表前缀(TABLE_PREFIX)、去重依据字段(UNIQUE_KEY)和表备份周期(BACKUP_INTELVAL),结合数据库对应的元数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种互联网采集数据自定备份的方法,其特征在于,首先进行初始化,在数据库中创建备份配置表T_BACKUP_CONFIG,存放待备份表的配置信息,在数据库中创建表结构信息表T_BACKUP_STRUCTURE,用于后续存放待备份的结构,初始化备份表;具体的操作步骤如下:S1、遍历配置表,逐行读取配置信息,结合表的备份周期,向下取整生成备份期列表DATE_LIST;S2、按照TERM_END_DATE日期顺序从小到大遍历DATE_LIST表;S3、遍历步骤S2中的TABLE_LIST;S4、根据配置表执行剩余的表前缀,直至配置表遍历完成。2.根据权利要求1所述的一种互联网采集数据自定备份的方法,其特征在于,在数据库中创建备份配置表T_BACKUP_CONFIG,存放待备份表的配置信息,并根据实际业务需求,配置对应的待备份表前缀TABLE_PREFIX、去重依据字段UNIQUE_KEY和表备份周期BACKUP_INTELVAL,结合数据库对应的元数据信息,获取对应前缀历史表中最早日期T的T

1日作为初始化日期。3.根据权利要求2所述的一种互联网采集数据自定备份的方法,其特征在于,在数据库中创建表结构信息表T_BACKUP_STRUCTURE,用于后续存放待备份的结构,结构表的初始化,遍历配置表,从数据库对应的元数据信息中,查询各个表前缀对应的后缀日期最早的表,获取表结构,存入结构表中。4.根据权利要求3所述的一种互联网采集数据自定备份的方法,其特征在于,在初始化备份表中,基于以获取的表结构,按照TABLE_PREFIX分组,结合数据库中的文本聚合函数生成对应的建表语句列表,之后遍历列表,逐行执行建表语句生成一系列备份表;所述备份表包括原始表数据和备份日期字段。5.根据权利要求4所述的一种互联网采集数据自定备份的方法,其特征在于,在步骤S1中,遍历配置表,逐行读取配置信息,对于每一行配置信息,根据配置表中的上次备份时间LAST_BACKUP_DATE以及当前执行的时间,结合表的备份周期,向下取整生成备份期列表DATE_LIST,DATE_LIST中包含每个备份周期的最后一个日期TERM_EN...

【专利技术属性】
技术研发人员:郑敏单震谢传家
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1