【技术实现步骤摘要】
基于分布式数据的并发处理方法和系统
本专利技术涉及数据处理
,特别涉及一种基于分布式数据的并发处理方法和系统。
技术介绍
随着信息与通讯技术的发展,海量数据时代已经到来。各个行业需要存储的数据量与日俱增,尤其是需要存储大量用户数据的行业,例如金融、电信、网络通信服务(电子邮件、即时通信)、网络社交服务(微博、论坛)等等。海量数据一般被分布式存储于多台服务器中,存储海量数据的服务器可达几千台甚至上万台。这些服务器可位于一个或多个服务器集群,亦或者位于一个或多个数据处理中心。一些数据库的数据存储方式也为分布式存储方式,例如,xcube数据库。xcube为分布式的NoSQL数据库,它将大数据量的数据表划分为多个子表,分别将子表存储到多台服务器上,并将子表信息记录在路由表中。子表信息包括子表的开始行键值、结束行键值、子表的数据量和子表所在的服务器。子表的开始行键值、结束行键值分别表示子表的开始行和结束行的主键的键值。。子表中包含开始行键值在父数据表中对应的位置到结束行键值在父数据表中对应的位置的所有记录。海量数据的快速处理是人们需要面对的问题。多线程、多任务分解的处理方式可对单机存储的数据进行并发处理,而如何协调服务器集群中的服务器对分布式海量数据进行并发处理,提高海量数据的处理速度是亟需解决的问题。
技术实现思路
基于此,有必要提供一种能快速并发处理分布式数据的基于分布式数据的并发处理方法。一种基于分布式数据的并发处理方法,包括以下步骤:控制端获取提交的作业对应的数据块信息;任务处理端向所述控制端发送任务处理请求;所述控制端查找与所述任务处理端分布 ...
【技术保护点】
一种基于分布式数据的并发处理方法,包括以下步骤:控制端获取提交的作业对应的数据块信息;任务处理端向所述控制端发送任务处理请求;所述控制端查找与所述任务处理端分布于同一服务器且还未分配的数据块,将查找到的数据块分配给所述任务处理端;若未查找到与所述任务处理端分布于同一服务器且还未分配的数据块,则所述控制端统计正在被任务处理端处理的数据块最少的服务器,将该服务器上未分配的数据块分配给所述任务处理端;所述任务处理端按照预设流程处理所述控制端分配的数据块。
【技术特征摘要】
1.一种基于分布式数据的并发处理方法,包括以下步骤:控制端获取提交的作业的预设信息;所述控制端检查所述作业是否已经成功初始化,若否,则所述控制端获取提交的作业对应的数据块信息,在获取所述作业对应的数据块信息后,在预设的作业处理情况表中存储所述作业对应的数据块信息,并在所述作业处理情况表中记录所述数据块为未分配状态,标记所述作业为已经成功初始化状态,若是,则等待任务处理端发送任务处理请求;任务处理端向所述控制端发送任务处理请求;所述控制端查找与所述任务处理端分布于同一服务器且还未分配的数据块,将查找到的数据块分配给所述任务处理端;若未查找到与所述任务处理端分布于同一服务器且还未分配的数据块,则所述控制端统计正在被任务处理端处理的数据块最少的服务器,将该服务器上未分配的数据块分配给请求任务的任务处理端;所述请求任务的任务处理端按照预设流程处理所述控制端分配的数据块。2.根据权利要求1所述的基于分布式数据的并发处理方法,其特征在于,所述控制端查找与所述任务处理端分布于同一服务器的还未分配的数据块的步骤为:所述控制端查找与所述任务处理端分布于同一服务器的还未分配的数据块中数据量最大的数据块。3.根据权利要求1所述的基于分布式数据的并发处理方法,其特征在于,所述将该服务器上未分配的数据块分配给请求任务的任务处理端的步骤为:将该服务器上数据量最大的数据块分配给所述请求任务的任务处理端。4.根据权利要求1所述的基于分布式数据的并发处理方法,其特征在于,所述控制端查找与所述任务处理端分布于同一服务器且还未分配的数据块的步骤为:所述控制端在所述作业处理情况表中查找所述作业对应的数据块中与所述任务处理端分布于同一服务器且还未分配的数据块;所述控制端统计正在被任务处理端处理的数据块最少的服务器,将该服务器上未分配的数据块分配给请求任务的任务处理端的步骤为:所述控制端根据所述作业处理情况表统计正在被任务处理端处理的数据块最少的服务器,将所述作业处理情况表中该服务器上未分配的数据块分配给所述请求任务的任务处理端;所述方法还包括:所述控制端分配数据块后,在所述作业处理情况表中记录所分配的数据块为已分配状态。5.根据权利要求4所述的基于分布式数据的并发处理方法,其特征在于,所述方法还包括:所述请求任务的任务处理端向所述控制端上报处理的数据块的完成进度;所述控制端在所述作业处理情况表中记录所述处理的数据块的完成进度;当处理某一数据块的任务处理端的处理中断后,所述控制端将处理中断的数据块分配给请求任务的任务处理端,并将所述处理中断的数据块的完成进度发送给所述请求任务的任务处理端,所述请求任务的任务处理端根据所述处理中断的数据块的完成进度处理所述处理中断的数据块。6.根据权利要求5所述的基于分布式数据的并发处理方法,其特征在于,所述作业的预设信息包括作业是否为周期性作业的信息;所述方法还包括:若所述作业为周期性作业,则所述控制端在所述作业对应的数据块都已处理完时,清除所述作业处理情况表中所述作业对应的记录,标记所述作业为未成功初始化状态,进入所述控制端获取提交的作业对应的数据块信息的步骤。7.一种基于分布式...
【专利技术属性】
技术研发人员:薛扣英,邓大付,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。