一种数据提取方法、装置、设备和存储介质制造方法及图纸

技术编号:32738809 阅读:14 留言:0更新日期:2022-03-20 08:45
本发明专利技术公开了一种数据提取方法、装置、设备和存储介质。该方法包括:定时获取预先创建的数据汇总表中目标数据状态的目标数据;根据目标数据的操作类型进行分组组装,得到对应的待提取数据;将待提取数据提取至对应的目标搜索引擎中。本实施例通过定时获取数据汇总表中目标数据状态的目标数据,并按照目标数据的操作类型进行分组组装,即分批地将目标数据提取出来,并导入至对应的目标搜索引擎中,避免一次性提取的数据过多,导致服务器压力过大的现象,从而保证了服务器提取数据的稳定性。从而保证了服务器提取数据的稳定性。从而保证了服务器提取数据的稳定性。

【技术实现步骤摘要】
一种数据提取方法、装置、设备和存储介质


[0001]本专利技术实施例涉及数据处理领域,尤其涉及一种数据提取方法、装置、设备和存储介质。

技术介绍

[0002]随着社会信息化的高速发展,传统行业信息化建设迫在眉睫,以及各个行业电商的建设。而在这些系统建设中有一个至关重要的模块那就是搜索模块,传统的搜索是使用传统的关系型数据库提供常规的服务,然而随着数据量的增加,及用户搜索行为的多样化及系统对搜索的统计监控管理等,传统数据库对于这些功能已经应接不暇了。随之产生了Elasticsearch对搜索服务的非关系型数据库,然而Elasticsearch不能提供持久化数据库的所有功能,所以里面的数据也需要从持久化数据库导入,在此过程中,数据的处理,自动化,安全性以及对系统造成的压力也越来越受到重视。
[0003]常规的搜索引擎Elasticsearch数据导入实现:一般的数据同步需要人工触发,具体为先从其它系统请求数据,在得到要更新的数据之后导入得到的数据,具体为删除之前搜索引擎库里面的所有数据,再一次性导入其它系统里面传入搜索引擎的全部数据,在处理过程中没有杜绝数据丢失,也没有按需要处理需要改动的数据,而是全部处理,导致数据处理重复,同一时间数据量巨大可能导致服务器宕机,系统没有做相应的日志记录,不能实现自动化的数据提取。

技术实现思路

[0004]有鉴于此,本专利技术提供一种数据提取方法、装置、设备和存储介质,实现了分批提取数据的效果,避免一次性提取数据过多,导致服务器压力过大。
[0005]第一方面,本专利技术实施例提供了一种数据提取方法,包括:
[0006]定时获取预先创建的数据汇总表中目标数据状态的目标数据;
[0007]根据所述目标数据的操作类型进行分组组装,得到对应的待提取数据;
[0008]将所述待提取数据提取至对应的目标搜索引擎中。
[0009]第二方面,本专利技术实施例还提供了一种数据提取装置,包括:
[0010]获取模块,用于定时获取预先创建的数据汇总表中目标数据状态的目标数据;
[0011]组装模块,用于根据所述目标数据的操作类型进行分组组装,得到对应的待提取数据;
[0012]提取模块,用于将所述待提取数据提取至对应的目标搜索引擎中。
[0013]第三方面,本专利技术实施例还提供了一种电子设备,该设备包括:存储器,以及一个或多个处理器;
[0014]存储器,用于存储一个或多个程序;
[0015]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例所述的数据提取方法。
[0016]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一实施例所述的数据提取方法。
[0017]本专利技术实施例,通过定时获取预先创建的数据汇总表中目标数据状态的目标数据;根据目标数据的操作类型进行分组组装,得到对应的待提取数据;将待提取数据存储至对应的目标搜索引擎中。本实施例通过定时获取数据汇总表中目标数据状态的目标数据,并按照目标数据的操作类型进行分组组装,即分批地将目标数据提取出来,并导入至对应的目标搜索引擎中,避免一次性提取的数据过多,导致服务器压力过大的现象,从而保证了服务器提取数据的稳定性。
附图说明
[0018]图1是本专利技术实施例提供的一种数据提取方法的流程图;
[0019]图2是本专利技术实施例提供的另一种数据提取方法的流程图;
[0020]图3是本专利技术实施例提供的又一种数据提取方法的流程图;
[0021]图4是本专利技术实施例提供的一种业务系统的架构示意图;
[0022]图5是本专利技术实施例提供的一种数据提取的分布结构图;
[0023]图6是本专利技术实施例提供的一种数据提取装置的结构框图;
[0024]图7是本专利技术实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
[0025]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0026]本专利技术的技术方案,为解决数据在多个系统之间传输的时候,某一业务系统在需要一个分布式、高扩展、高实时的搜索与数据分析引擎的时候进行海量数据的自动化提取问题。目标搜索引擎(Elasticsearch)在提供数据搜索服务的前提是有具体的数据源经过一系列的分词处理之后向其导入数据。但传统的项目在进行数据导入的时候,存在触发麻烦,数据传输处理过程中丢失,重复更新数据,数据采集分析不到位,数据有效率低等问题,也有因为数据量巨大导致耗费巨大系统资源甚至使系统宕机等问题。本专利技术主要通过Web Service传输,RabbitMQ中间件进行数据限流,并配合事务管理操作,数据库的数据处理触发器处理数据,数据库建立总表及总的联合表关联各个部分业务表,数据库表记录各个环节的步骤日志,定时任务自动触发数据导入Elasticsearch,分批次导入数据等。使系统数据更加安全,数据传输过程中不丢失数据,做到各个环节的步骤有迹可查,减少服务器同一时间的执行压力。
[0027]在一实施例中,图1是本专利技术实施例提供的一种数据提取方法的流程图,本实施例可适用于对数据进行分批次提取的情况。本实施例可以由电子设备执行。其中,电子设备可以为计算机、笔记本电脑、iPad等具备数据提取功能的终端设备。示例性地,电子设备可以为用于消费数据的客户端。如图1所示,本实施例包括如下步骤:
[0028]S110、定时获取预先创建的数据汇总表中目标数据状态的目标数据。
[0029]其中,数据汇总表指的是用于对目标数据、目标数据对应的原始数据,以及原始数
据所在的数据表中之间的关联关系进行汇总的数据表。其中,目标数据状态指的是需要进行操作的状态。示例性地,目标数据状态可以为待操作状态,比如,待操作状态包括:更新状态、增加状态和删除状态等。相应的,目标数据指的是数据汇总表中数据状态为目标数据状态的相关数据。
[0030]在实施例中,定时检测数据汇总表中是否存在目标数据状态的数据,若存在,获取目标数据状态的目标数据。在实际操作过程中,可以通过设置定时任务定时获取数据汇总表中处于目标数据状态的目标数据。示例性地,目标数据的获取周期可以为一小时,也可以为几个小时,对此并不进行限定,可根据实际情况进行配置。
[0031]S120、根据目标数据的操作类型进行分组组装,得到对应的待提取数据。
[0032]在一实施例中,操作类型包括下述之一:增加操作、更新操作和删除操作。在实施例中,增加操作指的是对目标数据执行增加数据的操作;更新操作指的是对目标数据执行数据修改的操作;删除操作指的是对目标数据执行删除数据的操作。在实施例中,按照目标数据的不同操作类型对目标数据进行分组,然后将分组之后的目标数据进行重新组装本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据提取方法,其特征在于,包括:定时获取预先创建的数据汇总表中目标数据状态的目标数据;根据所述目标数据的操作类型进行分组组装,得到对应的待提取数据;将所述待提取数据提取至对应的目标搜索引擎中。2.根据权利要求1所述的方法,其特征在于,在所述定时获取预先创建的数据汇总表中目标数据状态的目标数据之前,还包括:通过本系统接口接收MQ中间件发送的原始数据;对所述原始数据进行数据处理和汇总,得到对应的数据汇总表。3.根据权利要求2所述的方法,其特征在于,所述对所述原始数据进行数据处理和汇总,得到对应的数据汇总表,包括:按照所述原始数据的业务类型将所述原始数据存储至对应的数据临时表中;根据每个所述数据临时表对应的数据处理触发器,将所述数据临时表中的原始数据存储至对应的数据正式表中;将所述数据临时表、所述数据临时表对应的数据正式表和所述原始数据的操作类型进行关联,生成对应的数据汇总表。4.根据权利要求1所述的方法,其特征在于,所述方法,还包括:确定预先创建的数据汇总表中与原始数据同一业务编号的目标数据的消费失败重试次数;在所述消费失败重试次数达到预设重试次数阈值时,将所述目标数据存储至预先配置的消费失败数据表中;在所述消费失败重试次数未达到预设重试次数阈值时,将所述目标数据存储至预先配置的消息发送表中,作为原始数据再次发送至MQ中间件以进行消费。5.根据权利要求1所述的方法,其特征在于,在将消息发送表...

【专利技术属性】
技术研发人员:刘华荣孙龙龙正鹏王骏游锦颖刘思思黄政延叶广
申请(专利权)人:软通动力信息技术集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1