The invention provides a data processing platform and system, wherein, the data processing platform, including: interactive Spark cluster, ElasticSearch cluster and HBase cluster; Spark cluster for incremental data monitoring database generated by the database to generate incremental data processing, and send the processed data into ElasticSearch increments cluster and HBase cluster; HBase cluster, Spark cluster storage for incremental data processing; ElasticSearch cluster for incremental data processing and query data after the merger. The data processing platform and the system provided by the embodiment of the invention can reduce the storage pressure of the Spark cluster.
【技术实现步骤摘要】
一种数据处理平台和系统
本专利技术涉及数据处理
,具体而言,涉及一种数据处理平台和系统。
技术介绍
目前,随着大数据时代的到来,大数据的存储与查询成为大数据领域的热点之一。大数据就是巨量数据集合,通过分布式的方式存储到大数据存储系统中。大数据存储系统会在已存储存量数据的基础上,对后来得到的增量数据继续进行存储。而对增量数据的处理可以实时动态的根据数据源的改变,对数据及时处理并将处理结果增量导入数据库以备后续利用。相关技术中,对增量数据进行处理时,Spark集群会抽取增量数据并做同步分析和存储,完成后Spark集群将同步分析处理后的增量数据导入HBase;HBase对同步分析处理后的增量数据进行抽取,并将抽取的数据导入ElasticSearch,ElasticSearch建立导入的增量数据的索引,从而完成对增量数据的处理。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:随着时间的推移,Spark集群中存储的数据越来越多,存储压力越来越大。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种数据处理平台和系统,以减轻Spark集群的存储压力 ...
【技术保护点】
一种数据处理平台,其特征在于,包括:相互交互的Spark集群、ElasticSearch集群和HBase集群;所述Spark集群,用于监测数据库产生的增量数据,对所述数据库产生的增量数据进行处理,并把处理后的增量数据导入ElasticSearch集群和HBase集群,其中,所述增量数据包括:数据类型标识;所述HBase集群,用于存储所述Spark集群处理后的所述增量数据;所述ElasticSearch集群,用于将处理后的所述增量数据与快速查询数据合并。
【技术特征摘要】
1.一种数据处理平台,其特征在于,包括:相互交互的Spark集群、ElasticSearch集群和HBase集群;所述Spark集群,用于监测数据库产生的增量数据,对所述数据库产生的增量数据进行处理,并把处理后的增量数据导入ElasticSearch集群和HBase集群,其中,所述增量数据包括:数据类型标识;所述HBase集群,用于存储所述Spark集群处理后的所述增量数据;所述ElasticSearch集群,用于将处理后的所述增量数据与快速查询数据合并。2.根据权利要求1所述的数据处理平台,其特征在于,所述ElasticSearch集群,包括:多个ElasticSearch节点;所述多个ElasticSearch节点分别与所述Spark集群和所述HBase集群交互;所述多个ElasticSearch节点均用于将处理后的所述增量数据与快速查询数据合并;当所述多个ElasticSearch节点中有ElasticSearch节点出现故障时,故障ElasticSearch节点获取所述HBase集群中存储的所述增量数据进行增量数据恢复。3.根据权利要求2所述的数据处理平台,其特征在于,所述故障ElasticSearch节点获取所述HBase集群中存储的所述增量数据进行增量数据恢复,包括:所述故障ElasticSearch节点向所述ElasticSearch集群中其他ElasticSearch节点发送第一增量数据恢复指令,所述第一增量数据恢复指令中携带有数据恢复时间段;当在预设的恢复数据获取时长内收到其他ElasticSearch节点返回的所述数据恢复时间段内增量数据的恢复数据时,所述故障ElasticSearch节点通过增量数据的恢复数据进行增量数据恢复;当在预设的恢复数据获取时长内未收到其他ElasticSearch节点返回的所述数据恢复时间段内的增量数据恢复数据时,向所述HBase集群发送第二增量数据恢复指令,所述第二增量数据恢复指令中携带有数据恢复时间段和所述故障ElasticSearch节点的标识;所述故障ElasticSearch节点获取所述HBase集群返回的增量恢复数据,并通过所述增量恢复数据进行增量数据恢复。4.根据权利要求3所述的数据处理平台,其特征在于,所述故障ElasticSearch节点获取所述HBase集群返回的增量恢复数据,并通过所述增量恢复数据进行增量数据恢复,包括:所述故障ElasticSearch节点获取所述HBase集群返回的增量恢复数据,所述增量恢复数据携带有数据类型标识;所述故障ElasticSearch节点将所述数据恢复时间段内的增量数据删除;所述故障ElasticSearch节点获取预存的不同类型数据的索引文件,所述索引文件包括:索引标识;当具有未查询的索引标识时,所述故障ElasticSearch节点根据索引文件中的索引标识,查询出具有与所述索引标识相同的数据类型标识的增量恢复数据;所述故障ElasticSearch节点根据所述索引标识对应的索引文件,确定...
【专利技术属性】
技术研发人员:蔡云鹏,李奇,李晓燕,杨玉洁,程敬,吴红艳,李烨,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。