【技术实现步骤摘要】
本申请涉及软件
,特别涉及一种海量数据处理方法、装置及系统。
技术介绍
海量数据一般是指数据量为PB级以上的数据。海量数据的处理,一般采用分布式处理方案,即将海量数据进行分片,分发至不同的节点进行处理,为保证数据的安全,通常采用数据冗余方案,即一份数据存在于多个节点上,此时,冗余的数据称为数据副本。目前,在对海量数据进行一次写入处理时,需要系统对存储有海量数据的每个数据副本执行写入操作,即将待更新数据发送至每个数据副本,每个数据副本将待更新数据写入到本数据副本中,从而保证海量数据的一致性。例如,当前数据有N个数据副本,在对当前数据进行写入操作时,需要系统对该数据的N个数据副本均执行写入操作,即执行N次 写入操作,使得系统对海量数据的处理效率较低。同时,若数据副本中有一个数据副本写入失败,那么其他数据副本即使写入成功,也均会回滚至被写入之前的状态,此时,需要系统重新对所有的数据副本再次执行写入操作,从而明显使得系统对海量数据的处理性能降低,严重影响海量数据的处理效率。
技术实现思路
有鉴于此,本申请通过提供一种海量数据处理方法、装置及系统,用以解决现有技术中对多个同时存储有海量数据的数据副本进行一次写入处理时,需系统执行多次写入操作,从而使得海量数据的处理效率降低的技术问题,以及用以解决现有海量数据处理方案中,一次写入失败,所有数据副本回滚,从而明显使得系统对海量数据的处理性能降低,严重影响海量数据的处理效率的技术问题。本申请提供了一种海量数据处理方法,应用于预设的分布式数据副本集群中存储有海量数据的数据节点;其中,所述数据副本集群包括至少一个所述数据节点,所述 ...
【技术保护点】
一种海量数据处理方法,其特征在于,应用于预设的分布式数据副本集群中存储有海量数据的数据节点;其中,所述数据副本集群包括至少一个所述数据节点,所述每一数据节点至少与一个不同于本数据节点的另一数据节点相连,且所述数据节点在其预设时间间隔点获取本数据节点中不同于所述另一数据节点的数据,并将所述获取的数据写入至所述另一数据节点中,触发所述另一数据节点更新其数据版本;所述方法包括:依据预设规则在所述数据副本集群中被选取的当前数据节点接收待更新数据,并将所述待更新数据写入至本数据节点;其中,所述待更新数据在所述数据副本集群接收到的更新请求信息中提取;并更新所述当前数据节点的数据版本;若当前系统时间到达所述预设时间间隔点,所述当前数据节点获取本数据节点中不同于所述另一数据节点的数据,并将所述获取的数据写入至所述另一数据节点中,触发所述另一数据节点更新其数据版本。
【技术特征摘要】
1.一种海量数据处理方法,其特征在于,应用于预设的分布式数据副本集群中存储有海量数据的数据节点; 其中,所述数据副本集群包括至少一个所述数据节点,所述每一数据节点至少与一个不同于本数据节点的另一数据节点相连,且所述数据节点在其预设时间间隔点获取本数据节点中不同于所述另一数据节点的数据,并将所述获取的数据写入至所述另一数据节点中,触发所述另一数据节点更新其数据版本; 所述方法包括 依据预设规则在所述数据副本集群中被选取的当前数据节点接收待更新数据,并将所述待更新数据写入至本数据节点; 其中,所述待更新数据在所述数据副本集群接收到的更新请求信息中提取; 并更新所述当前数据节点的数据版本; 若当前系统时间到达所述预设时间间隔点,所述当前数据节点获取本数据节点中不同于所述另一数据节点的数据,并将所述获取的数据写入至所述另一数据节点中,触发所述另一数据节点更新其数据版本。2.根据权利要求I所述的方法,其特征在于,所述数据节点的数据版本包括被写入数据的标识信息; 所述更新所述当前数据节点的数据版本包括 将所述待更新数据的标识信息添加至所述当前数据节点的数据版本中。3.根据权利要求I所述的方法,其特征在于,所述依据预设规则在所述数据副本集群中选取当前数据节点包括 任意选取所述数据副本集群中的一个数据节点作为当前数据节点; 或选取所述数据副本集群中数据版本最大的数据节点作为当前数据节点。4.根据权利要求2所述的方法,其特征在于,所述当前数据节点获取本数据节点中不同于所述另一数据节点的数据,并将所述获取的数据写入至所述另一数据节点中,触发所述另一数据节点更新其数据版本包括 所述当前数据节点依据其数据版本生成同步请求信息,并将所述同步请求信息发送至所述另一数据节点; 其中,所述同步请求信息包括所述当前数据节点的数据版本; 所述另一数据节点依据其数据版本及所述当前数据节点的数据版本生成同步回复信息,并将所述同步回复信息发送至所述当前数据节点; 其中,所述同步回复信息包括所述当前数据节点中不同于所述另一数据节点的数据的标识信息; 所述当前数据节点提取与所述同步回复信息中的标识信息相对应的数据,并将所述提取的数据写入至所述另一数据节点,触发所述另一数据节点更新其数据版本。5.一种海量数据处理装置,其特征在于,应用于预设的分布式数据副本集群中存储有海量数据的数据节点; 其中,所述数据副本集群至少包括一个所述数据节点,所述每一数据节点至少与一个不同于本数据节点的另一数据节点相连; 所述装置包括计时单元、第一写入单元、第二写入单元和版本更新单元,...
【专利技术属性】
技术研发人员:李晨,马向晖,
申请(专利权)人:杭州勒卡斯广告策划有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。