一种海量数据处理方法、装置及系统制造方法及图纸

技术编号:8271471 阅读:217 留言:0更新日期:2013-01-31 03:42
本申请公开了一种海量数据处理方法、装置及系统,应用于数据副本集群中存储有海量数据的数据节点,所述数据节点在预设时间间隔点获取本数据节点中不同于与其相连的另一数据节点的数据,并将获取的数据写入至另一数据节点中,触发另一数据节点更新其数据版本;所述方法包括:当前数据节点接收待更新数据,并将待更新数据写入至本数据节点,待更新数据在数据副本集群接收到的更新请求信息中提取;并更新当前数据节点的数据版本;若当前系统时间到达预设时间间隔点,当前数据节点获取本数据节点中不同于另一数据节点的数据,并将获取的数据写入至另一数据节点中,触发另一数据节点更新其数据版本。通过本申请实施例,提高对海量数据的处理效率。

【技术实现步骤摘要】
本申请涉及软件
,特别涉及一种海量数据处理方法、装置及系统
技术介绍
海量数据一般是指数据量为PB级以上的数据。海量数据的处理,一般采用分布式处理方案,即将海量数据进行分片,分发至不同的节点进行处理,为保证数据的安全,通常采用数据冗余方案,即一份数据存在于多个节点上,此时,冗余的数据称为数据副本。目前,在对海量数据进行一次写入处理时,需要系统对存储有海量数据的每个数据副本执行写入操作,即将待更新数据发送至每个数据副本,每个数据副本将待更新数据写入到本数据副本中,从而保证海量数据的一致性。例如,当前数据有N个数据副本,在对当前数据进行写入操作时,需要系统对该数据的N个数据副本均执行写入操作,即执行N次 写入操作,使得系统对海量数据的处理效率较低。同时,若数据副本中有一个数据副本写入失败,那么其他数据副本即使写入成功,也均会回滚至被写入之前的状态,此时,需要系统重新对所有的数据副本再次执行写入操作,从而明显使得系统对海量数据的处理性能降低,严重影响海量数据的处理效率。
技术实现思路
有鉴于此,本申请通过提供一种海量数据处理方法、装置及系统,用以解决现有技术中对多个同时存储有海量数据的数据副本进行一次写入处理时,需系统执行多次写入操作,从而使得海量数据的处理效率降低的技术问题,以及用以解决现有海量数据处理方案中,一次写入失败,所有数据副本回滚,从而明显使得系统对海量数据的处理性能降低,严重影响海量数据的处理效率的技术问题。本申请提供了一种海量数据处理方法,应用于预设的分布式数据副本集群中存储有海量数据的数据节点;其中,所述数据副本集群包括至少一个所述数据节点,所述每一数据节点至少与一个不同于本数据节点的另一数据节点相连,且所述数据节点在其预设时间间隔点获取本数据节点中不同于所述另一数据节点的数据,并将所述获取的数据写入至所述另一数据节点中,触发所述另一数据节点更新其数据版本;所述方法包括依据预设规则在所述数据副本集群中被选取的当前数据节点接收待更新数据,并将所述待更新数据写入至本数据节点;其中,所述待更新数据在所述数据副本集群接收到的更新请求信息中提取;并更新所述当前数据节点的数据版本;若当前系统时间到达所述预设时间间隔点,所述当前数据节点获取本数据节点中不同于所述另一数据节点的数据,并将所述获取的数据写入至所述另一数据节点中,触发所述另一数据节点更新其数据版本。上述方法,优选地,所述数据节点的数据版本包括被写入数据的标识信息;所述更新所述当前数据节点的数据版本包括将所述待更新数据的标识信息添加至所述当前数据节点的数据版本中。上述方法,优选地,所述依据预设规则在所述数据副本集群中选取当前数据节点包括任意选取所述数据副本集群中的一个数据节点作为当前数据节点;或选取所述数据副本集群中数据版本最大的数据节点作为当前数据节点。上述方法,优选地,所述当前数据节点获取本数据节点中不同于所述另一数据节点的数据,并将所述获取的数据写入至所述另一数据节点中,触发所述另一数据节点更新 其数据版本包括所述当前数据节点依据其数据版本生成同步请求信息,并将所述同步请求信息发送至所述另一数据节点;其中,所述同步请求信息包括所述当前数据节点的数据版本;所述另一数据节点依据其数据版本及所述当前数据节点的数据版本生成同步回复信息,并将所述同步回复信息发送至所述当前数据节点;其中,所述同步回复信息包括所述当前数据节点中不同于所述另一数据节点的数据的标识信息;所述当前数据节点提取与所述同步回复信息中的标识信息相对应的数据,并将所述提取的数据写入至所述另一数据节点,触发所述另一数据节点更新其数据版本。本申请还提供了一种海量数据处理装置,应用于预设的分布式数据副本集群中存储有海量数据的数据节点;其中,所述数据副本集群至少包括一个所述数据节点,所述每一数据节点至少与一个不同于本数据节点的另一数据节点相连;所述装置包括计时单元、第一写入单元、第二写入单元和版本更新单元,其中所述计时单元,用于实时判断当前系统时间是否到达本数据节点的预设时间间隔点,如果是,触发本数据节点的所述第一写入单元;所述第一写入单元,用于在所述当前系统时间到达所述时间间隔点时获取本数据节点中不同于与其相连的另一数据节点的数据,将所述获取的数据写入至所述另一数据节点,并触发所述另一数据节点的版本更新单元;所述第二写入单元,在所述数据副本集群接收到更新请求信息,本数据节点被选取为当前数据节点时被触发,用于接收待更新数据,并将所述待更新数据写入至本数据节点,触发所述版本更新单元;其中,所述待更新数据在所述数据副本集群接收到的更新请求信息中提取;所述版本更新单元,用于更新本数据节点的数据版本。上述装置,优选地,所述数据节点的数据版本包括被写入数据的标识信息;所述版本更新单元,具体用于将所述本数据节点中被写入数据的标识信息添加至本数据节点的数据版本中。上述装置,优选地,所述第一写入单元包括请求信息生成子单元、回复信息接收子单元和数据写入子单元所述请求信息生成子单元,用于依据本数据节点的数据版本生成同步请求信息,并将所述同步请求信息发送至与其相连接的另一数据节点;其中,所述同步请求信息包括所述本数据节点的数据版本;所述回复信息接收子单元,用于接收所述另一数据节点发送的同步回复信息;其中,所述同步回复信息由所述另一数据节点依据其数据版本及所述同步请求信息中的数据版本生成,包括本数据节点中不同于所述另一数据节点的数据的标识信息;所述数据写入子单元,用于提取与所述同步回复信息中的标识信息相对应的数据,并将所述提取的数据写入至所述另一数据节点,触发所述另一数据节点的版本更新单J Li ο 上述装置,优选地,所述第一写入单元还包括回复信息生成子单元;所述回复信息生成子单元,用于依据其数据版本及本数据节点接收到的同步请求信息中的数据版本生成同步回复信息,并将所述同步回复信息发送至所述同步请求信息所属的数据节点。本申请还提供了一种海量数据处理系统,包括至少一个如上述任意一项所述的海量数据处理装置。上述系统,优选地,所述系统还包括集群控制器;所述集群控制器,用于接收更新请求信息,任意选取所述数据副本集群中的一个数据节点作为当前数据节点,或选取所述数据副本集群中数据版本最大的数据节点作为当前数据节点,并将所述更新请求信息中的待更新数据进行提取发送至所述当前数据节点,同时触发所述当前数据节点中海量数据处理装置的第二写入单元。由上述方案可知,本申请提供的一种海量数据处理方法、装置及系统,应用于数据副本集群中每个存储有海量数据的数据节点中,通过将待更新数据写入到被选取的当前数据节点中,再由当前数据节点在每个预设时间间隔点将其不同于与其相连的另一数据节点的数据写入到该另一数据节点中,由此,由数据副本集群中数据节点定时与其相连的数据节点之间交互及更新数据,无须对每个数据节点执行数据写入的操作,由每个数据节点自行与其相连的数据节点进行数据交换及更新,从而实现整个数据副本集群中的所有数据节点的数据同步,即在所述数据副本集群中,每个数据节点在每个预设时间间隔点时将其不同于与其相连的数据节点的数据写入至该数据节点,在需要进行数据更新时,只需执行一次对数据副本集群中的数据节点写入待更新数据的操作,相连的数据节点之间进行本文档来自技高网...

【技术保护点】
一种海量数据处理方法,其特征在于,应用于预设的分布式数据副本集群中存储有海量数据的数据节点;其中,所述数据副本集群包括至少一个所述数据节点,所述每一数据节点至少与一个不同于本数据节点的另一数据节点相连,且所述数据节点在其预设时间间隔点获取本数据节点中不同于所述另一数据节点的数据,并将所述获取的数据写入至所述另一数据节点中,触发所述另一数据节点更新其数据版本;所述方法包括:依据预设规则在所述数据副本集群中被选取的当前数据节点接收待更新数据,并将所述待更新数据写入至本数据节点;其中,所述待更新数据在所述数据副本集群接收到的更新请求信息中提取;并更新所述当前数据节点的数据版本;若当前系统时间到达所述预设时间间隔点,所述当前数据节点获取本数据节点中不同于所述另一数据节点的数据,并将所述获取的数据写入至所述另一数据节点中,触发所述另一数据节点更新其数据版本。

【技术特征摘要】
1.一种海量数据处理方法,其特征在于,应用于预设的分布式数据副本集群中存储有海量数据的数据节点; 其中,所述数据副本集群包括至少一个所述数据节点,所述每一数据节点至少与一个不同于本数据节点的另一数据节点相连,且所述数据节点在其预设时间间隔点获取本数据节点中不同于所述另一数据节点的数据,并将所述获取的数据写入至所述另一数据节点中,触发所述另一数据节点更新其数据版本; 所述方法包括 依据预设规则在所述数据副本集群中被选取的当前数据节点接收待更新数据,并将所述待更新数据写入至本数据节点; 其中,所述待更新数据在所述数据副本集群接收到的更新请求信息中提取; 并更新所述当前数据节点的数据版本; 若当前系统时间到达所述预设时间间隔点,所述当前数据节点获取本数据节点中不同于所述另一数据节点的数据,并将所述获取的数据写入至所述另一数据节点中,触发所述另一数据节点更新其数据版本。2.根据权利要求I所述的方法,其特征在于,所述数据节点的数据版本包括被写入数据的标识信息; 所述更新所述当前数据节点的数据版本包括 将所述待更新数据的标识信息添加至所述当前数据节点的数据版本中。3.根据权利要求I所述的方法,其特征在于,所述依据预设规则在所述数据副本集群中选取当前数据节点包括 任意选取所述数据副本集群中的一个数据节点作为当前数据节点; 或选取所述数据副本集群中数据版本最大的数据节点作为当前数据节点。4.根据权利要求2所述的方法,其特征在于,所述当前数据节点获取本数据节点中不同于所述另一数据节点的数据,并将所述获取的数据写入至所述另一数据节点中,触发所述另一数据节点更新其数据版本包括 所述当前数据节点依据其数据版本生成同步请求信息,并将所述同步请求信息发送至所述另一数据节点; 其中,所述同步请求信息包括所述当前数据节点的数据版本; 所述另一数据节点依据其数据版本及所述当前数据节点的数据版本生成同步回复信息,并将所述同步回复信息发送至所述当前数据节点; 其中,所述同步回复信息包括所述当前数据节点中不同于所述另一数据节点的数据的标识信息; 所述当前数据节点提取与所述同步回复信息中的标识信息相对应的数据,并将所述提取的数据写入至所述另一数据节点,触发所述另一数据节点更新其数据版本。5.一种海量数据处理装置,其特征在于,应用于预设的分布式数据副本集群中存储有海量数据的数据节点; 其中,所述数据副本集群至少包括一个所述数据节点,所述每一数据节点至少与一个不同于本数据节点的另一数据节点相连; 所述装置包括计时单元、第一写入单元、第二写入单元和版本更新单元,...

【专利技术属性】
技术研发人员:李晨马向晖
申请(专利权)人:杭州勒卡斯广告策划有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1