一种大数据实时更新方法、系统、设备和存储介质技术方案

技术编号：25223798 阅读：18 留言：0更新日期：2020-08-11 23:13

本发明专利技术实施例公开了一种大数据实时更新方法、系统、设备和存储介质。该大数据实时更新方法包括：获取预设集群中新增的第一增量数据和源数据库中的源数据；根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据；将所述更新数据写入更新数据库中。本发明专利技术实施例实现了准确的实时更新大量数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据实时更新方法、系统、设备和存储介质
本专利技术实施例涉及计算机技术，尤其涉及一种大数据实时更新方法、系统、设备和存储介质。
技术介绍
常见的营销系统通常由于性能、成本等多方面的限制，对营销系统的查询大部分是基于离线数据进行查询，现有离线查询方案的缺点是：数据由离线任务生成，数据实时性较差，对于实时性要求高的业务无法满足。故障恢复慢，离线ETL(Extract-Transform-Load，数据仓库技术)任务失败恢复流程较长，且速度依赖集群当前资源，对线上业务影响较大。示例性的，对客户群体的查询中，用户的标签数据使用离线ETL任务从HBase(一个分布式的、面向列的开源数据库)等存储系统中进行同步和处理，最终落地到Hive(数据仓库工具)中提供给营销系统进行查询和使用，整个任务的执行间隔通常以天为单位，但是间隔时间太长，不能实时更新数据，无法满足用户的查询需求。但支持实时更新和查询的营销系统又很难支持大量数据的并发写入和存储，大批量实时写入性能不足，对于大量数据的写入处理不及时很容易造成数据堆积，影响数据实时性，并且某些数据对于SQL(StructuredQueryLanguage，结构化查询语言)的兼容性不佳，不利于业务层的查询和使用。此外，大多数现有方案的数据存储基于HDFS(HadoopDistributedFileSystem，分布式文件系统)实现，但HDFS并不支持数据的修改，且性能会受到GC(GridCommunication，网格通信)的影响。
技术实现思路
...

【技术保护点】
1.一种大数据实时更新方法，其特征在于，包括：/n获取预设集群中新增的第一增量数据和源数据库中的源数据；/n根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据；/n将所述更新数据写入更新数据库中。/n

【技术特征摘要】
1.一种大数据实时更新方法，其特征在于，包括：
获取预设集群中新增的第一增量数据和源数据库中的源数据；
根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据；
将所述更新数据写入更新数据库中。

2.根据权利要求1所述的方法，其特征在于，所述获取预设集群中新增的第一增量数据包括：
获取预设主集群中新增的第一增量数据；
启动所述预设主集群的区域服务器，并将所述区域服务器设定为伪装集群；
将所述伪装集群注册至所述预设主集群中以使所述伪装集群作为所述预设主集群的从集群，所述伪装集群用于接收所述预设主集群写入的数据；
将所述预设主集群中的第一增量数据写入至所述伪装集群中。

3.根据权利要求2所述的方法，其特征在于，所述将所述预设主集群中的第一增量数据写入至所述伪装集群中之后包括：
将所述伪装集群中的第一增量数据写入至开源流处理平台中，所述开源流处理平台用于为所述第一增量数据提供数据缓冲和数据容错。

4.根据权利要求3所述的方法，其特征在于，所述根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据包括：
将所述开源流处理平台中的第一增量数据和所述源数据库中的源数据写入至预设处理框架中，所述预设处理框架用于根据所述源数据对所述第一增量数据进行校验、去重和/或补全以得到更新数据。

5.根据权利要求1所述的方法，其特征在于，所述将所述更新数据写入更新数据库中之后包括：
将第一查询引擎部署在所述更新数据库中；
接收用户的第...

【专利技术属性】
技术研发人员：严涵，
申请(专利权)人：深圳市铭墨科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人