一种大数据实时更新方法、系统、设备和存储介质技术方案

技术编号:25223798 阅读:18 留言:0更新日期:2020-08-11 23:13
本发明专利技术实施例公开了一种大数据实时更新方法、系统、设备和存储介质。该大数据实时更新方法包括:获取预设集群中新增的第一增量数据和源数据库中的源数据;根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据;将所述更新数据写入更新数据库中。本发明专利技术实施例实现了准确的实时更新大量数据。

【技术实现步骤摘要】
一种大数据实时更新方法、系统、设备和存储介质
本专利技术实施例涉及计算机技术,尤其涉及一种大数据实时更新方法、系统、设备和存储介质。
技术介绍
常见的营销系统通常由于性能、成本等多方面的限制,对营销系统的查询大部分是基于离线数据进行查询,现有离线查询方案的缺点是:数据由离线任务生成,数据实时性较差,对于实时性要求高的业务无法满足。故障恢复慢,离线ETL(Extract-Transform-Load,数据仓库技术)任务失败恢复流程较长,且速度依赖集群当前资源,对线上业务影响较大。示例性的,对客户群体的查询中,用户的标签数据使用离线ETL任务从HBase(一个分布式的、面向列的开源数据库)等存储系统中进行同步和处理,最终落地到Hive(数据仓库工具)中提供给营销系统进行查询和使用,整个任务的执行间隔通常以天为单位,但是间隔时间太长,不能实时更新数据,无法满足用户的查询需求。但支持实时更新和查询的营销系统又很难支持大量数据的并发写入和存储,大批量实时写入性能不足,对于大量数据的写入处理不及时很容易造成数据堆积,影响数据实时性,并且某些数据对于SQL(StructuredQueryLanguage,结构化查询语言)的兼容性不佳,不利于业务层的查询和使用。此外,大多数现有方案的数据存储基于HDFS(HadoopDistributedFileSystem,分布式文件系统)实现,但HDFS并不支持数据的修改,且性能会受到GC(GridCommunication,网格通信)的影响。
技术实现思路
本专利技术实施例提供一种大数据实时更新方法、系统、设备和存储介质,以实现准确的实时更新大量数据。为达此目的,本专利技术实施例提供了一种大数据实时更新方法,该方法包括:获取预设集群中新增的第一增量数据和源数据库中的源数据;根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据;将所述更新数据写入更新数据库中。进一步的,所述获取预设集群中新增的第一增量数据包括:获取预设主集群中新增的第一增量数据;启动所述预设主集群的区域服务器,并将所述区域服务器设定为伪装集群;将所述伪装集群注册至所述预设主集群中以使所述伪装集群作为所述预设主集群的从集群,所述伪装集群用于接收所述预设主集群写入的数据;将所述预设主集群中的第一增量数据写入至所述伪装集群中。进一步的,所述将所述预设主集群中的第一增量数据写入至所述伪装集群中之后包括:将所述伪装集群中的第一增量数据写入至开源流处理平台中,所述开源流处理平台用于为所述第一增量数据提供数据缓冲和数据容错。进一步的,所述根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据包括:将所述开源流处理平台中的第一增量数据和源数据库中的源数据写入至预设处理框架中,所述预设处理框架用于根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据。进一步的,所述将所述更新数据写入更新数据库中之后包括:将第一查询引擎部署在所述更新数据库中;接收用户的第一指令,所述第一指令用于通过所述第一查询引擎查询所述更新数据库中的更新数据。进一步的,所述接收用户的第一指令,所述第一指令用于通过所述第一查询引擎查询所述更新数据库中的更新数据包括:对所述更新数据库中的更新数据进行分区优化以得到分区更新数据;接收用户的第一指令,所述第一指令用于通过所述第一查询引擎查询所述更新数据库中的分区更新数据。进一步的,所述接收用户的第一指令,所述第一指令用于通过所述第一查询引擎查询所述更新数据库中的更新数据包括:获取用户的查询权限;根据所述查询权限接收用户的第一指令,所述第一指令用于通过所述第一查询引擎查询所述更新数据库中的分区更新数据。一方面,本专利技术实施例还提供了一种大数据实时更新系统,该系统包括:数据获取模块,用于获取预设集群中新增的第一增量数据和源数据库中的源数据;数据更新模块,用于根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据;数据写入模块,用于将所述更新数据写入更新数据库中。另一方面,本专利技术实施例还提供了一种大数据实时更新设备,该设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任一实施例提供的方法。又一方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任一实施例提供的方法。本专利技术实施例通过获取预设集群中新增的第一增量数据和源数据库中的源数据;根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据;将所述更新数据写入更新数据库中,解决了现有技术难以准确的支持大量数据的并发写入和存储的问题,实现了准确的实时更新大量数据的效果。附图说明图1是本专利技术实施例一提供的一种大数据实时更新方法的流程示意图;图2是本专利技术实施例二提供的一种大数据实时更新方法的流程示意图;图3是本专利技术实施例三提供的一种大数据实时更新方法的流程示意图;图4是本专利技术实施例四提供的一种大数据实时更新系统的结构示意图;图5为本专利技术实施例五提供的一种大数据实时更新设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一模块称为第二模块,且类似地,可将第二模块称为第一模块。第一模块和第二模块两者都是模块,但其不是同一模块。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本专利技术实施例的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。实施例一如图1所示,本专利技术实施例一提供了一种大数据实时更新方法,该方法包括:S110、获取预设集本文档来自技高网...

【技术保护点】
1.一种大数据实时更新方法,其特征在于,包括:/n获取预设集群中新增的第一增量数据和源数据库中的源数据;/n根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据;/n将所述更新数据写入更新数据库中。/n

【技术特征摘要】
1.一种大数据实时更新方法,其特征在于,包括:
获取预设集群中新增的第一增量数据和源数据库中的源数据;
根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据;
将所述更新数据写入更新数据库中。


2.根据权利要求1所述的方法,其特征在于,所述获取预设集群中新增的第一增量数据包括:
获取预设主集群中新增的第一增量数据;
启动所述预设主集群的区域服务器,并将所述区域服务器设定为伪装集群;
将所述伪装集群注册至所述预设主集群中以使所述伪装集群作为所述预设主集群的从集群,所述伪装集群用于接收所述预设主集群写入的数据;
将所述预设主集群中的第一增量数据写入至所述伪装集群中。


3.根据权利要求2所述的方法,其特征在于,所述将所述预设主集群中的第一增量数据写入至所述伪装集群中之后包括:
将所述伪装集群中的第一增量数据写入至开源流处理平台中,所述开源流处理平台用于为所述第一增量数据提供数据缓冲和数据容错。


4.根据权利要求3所述的方法,其特征在于,所述根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据包括:
将所述开源流处理平台中的第一增量数据和所述源数据库中的源数据写入至预设处理框架中,所述预设处理框架用于根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据。


5.根据权利要求1所述的方法,其特征在于,所述将所述更新数据写入更新数据库中之后包括:
将第一查询引擎部署在所述更新数据库中;
接收用户的第...

【专利技术属性】
技术研发人员:严涵
申请(专利权)人:深圳市铭墨科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1