一种分布式计算集群的数据存储处理系统及方法技术方案

技术编号:15355356 阅读:178 留言:0更新日期:2017-05-17 12:19
本发明专利技术提供一种分布式计算集群的数据存储处理系统及方法,从存储单元中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;将每个块文件的地址分发给一个计算单元;每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元。这样在计算机集群中,控制单元获取承载量超出阈值的数据文件,将该数据文件进行拆分,通过计算单元进行处理。这样将大文件进行了拆分并进行了分块处理提示处理效率,充分利用集群中的处理资源。

【技术实现步骤摘要】

本专利技术涉及计算机文件处理领域,尤其涉及一种分布式计算集群的数据存储处理系统及方法
技术介绍
当前,计算机集群技术现在已经广泛的应用于大数据、云计算、高性能计算等多个IT领域。分布式文件系统(distributedfilesystem)是计算机集群,特别是高性能计算集群系统中常见的组成部分,通过分布式文件系统,集群中的计算单元可以共享位于其他单元上的数据。在计算机集群中如果待处理的数据文件较大,会占用集群中数据处理量,消耗集群的资源,导致数据处理效率低下,而且容易集群数据通道。
技术实现思路
为了克服上述现有技术中的不足,本专利技术提供一种分布式计算集群的数据存储处理系统,包括:存储单元,控制单元和至少一个计算单元;控制单元用于从存储单元中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;设置每个块文件的地址,将每个块文件的地址分发给一个计算单元;每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;控制单元还用于接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元;存储单元用于储存数据文件,计算结果文件以及系统的数据信息,并将数据共享给集群中单元使用。优选地,还包括:管理单元,交换机,IP地址设置模块,挂载模块;控制单元,管理单元,存储单元及多个计算单元通过交换机连接到一起;管理单元用于使用户通过管理单元登录,并使用计算单元上的计算资源;IP地址设置模块用于对管理单元,存储单元,每个计算单元设置IP地址;控制单元,管理单元,存储单元及每个计算单元均部署操作系统;在存储单元上部署ssh协议的服务器端守护进程sshd服务;在控制单元,每个计算单元和管理单元上部署用户空间文件系统;在控制单元,每个计算单元和管理单元上部署sshfs服务;挂载模块用于集群中的任意用户在存储单元中存储的数据,并通过sshfs服务挂载到计算单元和管理单元上的对应目录下。优选地,还包括:用户注册模块;用户注册模块用于使系统提供普通用户注册客户端及root用户注册客户端;普通用户注册客户端提供给用户注册普通用户账户及密码,root用户注册客户端提供给用户注册root用户账户及密码;普通用户使用sshfs服务卸载以该用户权限挂载在计算单元和管理单元上的目录;root用户把存储单元中的数据,挂载到计算单元和管理单元上的对应目录下;root用户使用sshfs服务卸载所有通过上述方式挂载的,计算单元和管理单元上的目录。优选地,还包括:一个或者多个交换机;设置多个交换机则整个集群的采用星型网络拓扑结构,或环形网络拓扑结构,或总线网络拓扑结构,或树形网络拓扑结构,或网状网络拓扑结构。优选地,控制单元,管理单元,存储单元,每个计算单元均使用的是同一个Linux操作系统。类型和版本号。优选地,所有单元通过NIS服务共享同一套用户账户和密码,或者管理单元,存储单元,每个计算单元均建立单独的用户账户和密码。优选地,还包括:数据文件承载量阈值设置模块;数据文件承载量阈值设置模块用于设置存储单元中数据文件承载量的阈值。一种分布式计算集群的数据存储处理方法,方法包括,步骤1、从存储单元中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;步骤2、设置每个块文件的地址,将每个块文件的地址分发给一个计算单元;步骤3、每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;步骤4、接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元。从以上技术方案可以看出,本专利技术具有以下优点:从存储单元中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;将每个块文件的地址分发给一个计算单元;每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元。这样在计算机集群中,控制单元获取承载量超出阈值的数据文件,也就是在计算机集群中,数据文件比较大的文件,将该数据文件进行拆分,通过计算单元进行处理。这样将大文件进行了拆分并进行了分块处理提示处理效率,充分利用集群中的处理资源,避免集群数据通道。附图说明为了更清楚地说明本专利技术的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为分布式计算集群的数据存储处理系统的整体示意图;图2为分布式计算集群的数据存储处理系统实施例示意图;图3为分布式计算集群的数据存储处理方法流程图。具体实施方式为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将运用具体的实施例及附图,对本专利技术保护的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利保护的范围。本实施例提供一种分布式计算集群的数据存储处理系统,如图1所示,包括:存储单元2,控制单元5和至少一个计算单元;控制单元5用于从存储单元2中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;设置每个块文件的地址,将每个块文件的地址分发给一个计算单元;每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;控制单元5还用于接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元;存储单元2用于储存数据文件,计算结果文件以及系统的数据信息,并将数据共享给集群中单元使用。系统还包括:管理单元1,交换机3,IP地址设置模块,挂载模块;控制单元5,管理单元1,存储单元2及多个计算单元通过交换机连接到一起;管理单元1用于使用户通过管理单元登录,并使用计算单元上的计算资源;IP地址设置模块用于对管理单元,存储单元,每个计算单元设置IP地址;控制单元5,管理单元1,存储单元2及每个计算单元均部署操作系统;在存储单元2上部署ssh协议的服务器端守护进程sshd服务;在控制单元5,每个计算单元和管理单元上部署用户空间文件系统;在控制单元5,每个计算单元和管理单元上部署sshfs服务;挂载模块用于集群中的任意用户在存储单元中存储的数据,并通过sshfs服务挂载到控制单元5,计算单元和管理单元上的对应目录下。系统还包括:用户注册模块;用户注册模块用于使系统提供普通用户注册客户端及root用户注册客户端;普通用户注册客户端提供给用户注册普通用户账户及密码,root用户注册客户端提供给用户注册root用户账户及密码;普通用户使用sshfs服务卸载以该用户权限挂载在控制单元,计算单元和管理单元上的目录;root用户把存储本文档来自技高网...
一种分布式计算集群的数据存储处理系统及方法

【技术保护点】
一种分布式计算集群的数据存储处理系统,其特征在于,包括:存储单元,控制单元和至少一个计算单元;控制单元用于从存储单元中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;设置每个块文件的地址,将每个块文件的地址分发给一个计算单元;每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;控制单元还用于接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元;存储单元用于储存数据文件,计算结果文件以及系统的数据信息,并将数据共享给集群中单元使用。

【技术特征摘要】
1.一种分布式计算集群的数据存储处理系统,其特征在于,包括:存储单元,控制单元和至少一个计算单元;控制单元用于从存储单元中获取承载量超出阈值的数据文件,将文件进行拆分为至少一个块文件,块文件的数量与计算单元的数量相对应;设置每个块文件的地址,将每个块文件的地址分发给一个计算单元;每个计算单元根据接收的块文件地址读取块文件数据信息,对块文件进行计算处理,并将计算结果写入到计算结果文件中,发送给控制单元;控制单元还用于接收计算单元发送的计算结果文件,并读取计算结果文件,将计算结果文件储存至存储单元;存储单元用于储存数据文件,计算结果文件以及系统的数据信息,并将数据共享给集群中单元使用。2.根据权利要求1所述的分布式计算集群的数据存储处理系统,其特征在于,还包括:管理单元,交换机,IP地址设置模块,挂载模块;控制单元,管理单元,存储单元及多个计算单元通过交换机连接到一起;管理单元用于使用户通过管理单元登录,并使用计算单元上的计算资源;IP地址设置模块用于对管理单元,存储单元,每个计算单元设置IP地址;控制单元,管理单元,存储单元及每个计算单元均部署操作系统;在存储单元上部署ssh协议的服务器端守护进程sshd服务;在控制单元,每个计算单元和管理单元上部署用户空间文件系统;在控制单元,每个计算单元和管理单元上部署sshfs服务;挂载模块用于集群中的任意用户在存储单元中存储的数据,并通过sshfs服务挂载到计算单元和管理单元上的对应目录下。3.根据权利要求2所述的分布式计算集群的数据存储处理系统,还包括:用户注册模块;用户注册模块用于使系统提供普通用户注册客户端及root用户注册客户端;普通用户注册客户端提供给用户注册普通用户账户及密码,ro...

【专利技术属性】
技术研发人员:王志华
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1