一种云计算服务器集群的均衡负载系统及方法技术方案

技术编号:15520627 阅读:169 留言:0更新日期:2017-06-04 10:08
本发明专利技术公开了一种云计算服务器集群的均衡负载系统及方法,采用二层资源分配策略,具体地:用户登录时,由管理服务器中的登录模块、监控模块、分配模块协同工作,将其分配给某一台GPU计算服务器,用户在GPU计算服务器上提交作业时,管理服务器的资源预估模块将预估作业的资源占用情况,结合监控模块监控到的GPU计算服务器实时资源占用情况,如发现已分配的资源不足以完成该任务,则由分配模块进行第二层分配。本发明专利技术基于事件驱动机制,实现集群的负载均衡,具有自动化、智能化、在线执行的特点,在进行负载均衡时以用户使用体验为主要考虑,使得负载均衡策略更加简单、高效、透明,保证了集群系统的高性能、高服务质量和弹性扩展。

Balanced load system and method for cloud computing server cluster

The invention discloses a cloud computing server cluster load balancing system and method, using the two layer resource allocation strategy, specifically: user login, the login module, the management server monitoring module and distribution module of collaborative work, assign it to a GPU calculation server, user computing server submission in GPU, the management server resources prediction module will work estimate resource occupancy, calculation of occupancy server real-time monitoring module to monitor the resources with GPU, such as that allocated resources is not sufficient to complete the task, the second layer distribution distribution module. Based on the event driven mechanism of the invention, load balancing cluster, has the characteristics of automation, intelligent and online execution, making the load balancing when a user experience as the main consideration, the load balancing strategy is more simple, efficient and transparent, the cluster system with high performance and high quality of service and elastic expansion.

【技术实现步骤摘要】
一种云计算服务器集群的均衡负载系统及方法
本专利技术涉及集群服务器
,具体涉及一种云计算服务器集群的均衡负载系统及方法。
技术介绍
伴随着计算需求的发展,云计算的发展越来越快。云计算集群通常采用大规模计算模块进行计算,为了保证集群的安全性、稳定性以及用户的体验,需要采用负载均衡集群。目前常用的集群负载均衡系统一般只能对资源进行一次分配,这种机制的弊端在于,分配后当用户真正提交任务并开始运算时,根据规则分配的服务器资源不一定能满足用户的计算需求,而由于分配是单层、单向、静态的,所以容易造成服务器资源过载、用户使用体验不佳的情况发生。考虑到系统性价比、用户体验等问题,因此,实现集群负载的自动化、智能化、在线化是亟待解决的问题。
技术实现思路
本专利技术的目的在于提供一种云计算服务器集群的均衡负载系统及方法,用以解决现有集群负载均衡系统不够自动化、智能化、在线化,系统性价比及用户体验不佳的问题。为实现上述目的,本专利技术设计了一种云计算服务器集群的均衡负载系统及方法。具体地,一种云计算服务器集群的均衡负载系统,关键是,该系统包括:用于存放用户数据和用户计算数据的存储服务器、一组用于执行用户计算任务的GPU计算服务器和用于分配、监控GPU计算服务器运行情况的管理服务器;其中,所述的管理服务器包括:登录模块:用于获得和保存用户登录信息,并将用户登录信息传给监控模块和分配模块;监控模块:用于监控每个GPU计算服务器的用户数量、GPU占用情况、内存占用情况;分配模块:用于将登录的用户分配给特定的计算服务器;资源预估模块:用于在用户提交作业后进行占用的资源预估。进一步地,所述的GPU计算服务器能容纳的并发用户数量的最大值由管理员设定。进一步地,所述的存储服务器中设有公共目录和用户目录,用户目录包括所有用户各自的目录,用户登录后可调用自身目录中的信息和数据。基于上述系统的一种云计算服务器集群的均衡负载方法,所述方法包括以下步骤:a、用户登录时,由管理服务器中的登录模块获得用户的登录信息,然后触发登录事件,登录事件触发后,监控模块立即将所有GPU计算服务器的用户数量、GPU占用情况、内存占用情况发送给分配模块,分配模块将用户分配给当前用户数最少的GPU计算服务器;b、用户调用存储服务器中的数据,在管理服务器为其分配的GPU计算服务器运行任务,提交任务时,触发资源预估事件,由管理服务器中的资源预估模块根据提交任务时的描述和选择参数对任务占用的资源进行预估,所述的预估方法包括根据数据类型、大小、任务流程中所用软件,在根据以往运行任务积累的经验创建的的数据库中查到预计需要的GPU占用率,以及需要的内存、IO、网络容量,通过预估结果及监控模块传来的实时资源占用情况,若发现已分配的资源不足以完成任务,则由分配模块进行再次分配;c、任务运行完毕后,用户退出登录,结束。进一步地,所述的步骤a中,分配模块将用户分配给当前用户数最少的GPU计算服务器时,若当前用户数最少的GPU计算服务器数量大于1时,将用户按顺序分配给GPU计算服务器。进一步地,步骤a中,用户登录后,调用存储服务器中公共目录和用户目录中的数据。进一步地,所述的步骤a中,分配模块将用户分配给当前用户数最少的GPU计算服务器时,当若监控模块监控到所有GPU计算服务器都达到最大并发用户数,则向登录模块发送信息,登录模块向用户发出提示信息。进一步地,所述的步骤a中,分配模块将用户分配给当前用户数最少的GPU计算服务器时,当监控模块监控到所有GPU计算服务器都达到最大并发用户数的80%,则向管理员发出提示信息。还有,管理员有查看监控模块中的GPU计算服务器的用户数量、GPU占用情况、内存占用情况的信息的权限,管理员有停止用户进程额权限,存储服务器中用户个人数据的查看权限仅为用户个人。进一步地,管理服务器中的登录模块将用户的登录信息保存在数据库中,步骤c,用户在退出登录时可以选择暂时下线或结束进程,若选择暂时下线,则登录信息不从数据库中删除,系统认为该用户还是登录状态,用户再次从网页或客户端登录时,将自动匹配到之前的GPU计算服务器,继续之前的进程;若选择结束进程,登录信息将从登录模块的数据库中删除,用户下次登录将重新分配GPU计算服务器。本专利技术具有如下优点:1、云计算平台往往是针对某个特定领域的,这就决定了用的任务主要集中在一个有限的范围内,这使得用户提交任务时进行资源预估成为可能。本方案利用资源预估技术,进行双层资源分配,力求达到资源利用的动态、充分、有效。2、本专利技术基于事件驱动的双层分配机制,实现集群的负载均衡,具有自动化、智能化、在线执行的特点,在进行负载均衡时以用户使用体验为主要考虑,使得负载均衡策略更加简单、高效、透明,保证了集群系统的高性能、高服务质量和弹性扩展。附图说明图1是本专利技术的系统结构框图。图2是本专利技术的方法流程图。具体实施方式以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。本专利技术的技术方案首先包括系统物理结构的部署,具体可参见图1,该云计算服务器集群的均衡负载系统的物理结构包括:管理服务器,用于分配用户、监控计算服务器运行情况,GPU计算服务器,用于执行用户的计算任务,存储服务器,用于存放用户数据和计算数据。上述管理服务器包括:登录模块,用于获得和保存用户登录信息,并将用户登录信息传给监控模块和分配模块;监控模块,用于监控每个计算服务器的用户数量、GPU占用情况、内存占用情况;分配模块,用于将登录的用户分配给特定的计算服务器;资源预估模块,用于在用户提交作业后进行可能占用资源的预估。其中,本专利技术中所述的GPU计算服务器可有多个,每个GPU计算服务器最多能容纳的并发用户数由管理员定义。还有,本专利技术所述的存储服务器下有公共目录和用户目录,用户目录包括所有用户各自的目录。参见图2,用户使用本专利技术所述的一种云计算服务器集群的均衡负载系统的流程如下:a)用户从网页或客户端发起登录;b)管理服务器中的登录模块获得用户的登录信息,然后触发登录事件;c)登录事件触发后,管理服务器中的监控模块将所有GPU计算服务器的用户数量、GPU占用情况、内存占用情况发送给管理服务器中的分配模块;d)分配模块进行第一层分配,将用户分配给当前用户数最少的GPU计算服务器,若当前用户数最少的GPU计算服务器数量大于1,则将用户按顺序分配给GPU计算服务器;e)用户在分配到的GPU计算服务器上提交任务,触发资源预估事件;f)资源预估模块根据用户提交任务时的描述及选择的参数进行资源资源预估;所述的预估方法包括根据数据类型、大小、任务流程中所用软件,在根据以往运行任务积累的经验创建的的数据库中查到预计需要的GPU占用率,以及需要的内存、IO、网络容量;g)分配模块根据预估的资源占用情况和当前各GPU计算服务器的占用情况,进行第二层分配,将用户分配给能够最大限度满足其使用需求的GPU计算服务器;h)用户运行任务;i)用户可以调用存储服务器中公共目录和自己目录中的数据,并可将数据存入自己的目录中;j)用户每次提交任务时,都触发资源预估事件,进行二层分配;k)用户退出,可以选择暂时下线或结束进程,若选择暂时下线,则登录信息不从数据库中删除,系统认为该用户还是登录状态,用户再次从网页或客户端登录时,将本文档来自技高网...
一种云计算服务器集群的均衡负载系统及方法

【技术保护点】
一种云计算服务器集群的均衡负载系统,其特征在于,该系统包括:用于存放用户数据和用户计算数据的存储服务器、一组用于执行用户计算任务的GPU计算服务器和用于分配、监控GPU计算服务器运行情况的管理服务器;其中,所述的管理服务器包括:登录模块:用于获得和保存用户登录信息,并将用户登录信息传给监控模块和分配模块;监控模块:用于监控每个GPU计算服务器的用户数量、GPU占用情况、内存占用情况及IO、网络容量;分配模块:用于将登录的用户分配给特定的计算服务器;资源预估模块:用于在用户提交作业后进行占用的资源预估。

【技术特征摘要】
1.一种云计算服务器集群的均衡负载系统,其特征在于,该系统包括:用于存放用户数据和用户计算数据的存储服务器、一组用于执行用户计算任务的GPU计算服务器和用于分配、监控GPU计算服务器运行情况的管理服务器;其中,所述的管理服务器包括:登录模块:用于获得和保存用户登录信息,并将用户登录信息传给监控模块和分配模块;监控模块:用于监控每个GPU计算服务器的用户数量、GPU占用情况、内存占用情况及IO、网络容量;分配模块:用于将登录的用户分配给特定的计算服务器;资源预估模块:用于在用户提交作业后进行占用的资源预估。2.根据权利要求1所述的一种云计算服务器集群的均衡负载系统,其特征在于,所述的GPU计算服务器能容纳的并发用户数量的最大值由管理员设定。3.根据权利要求1所述的一种云计算服务器集群的均衡负载系统,其特征在于,所述的存储服务器中设有公共目录和用户目录,用户目录包括所有用户各自的目录,用户登录后可调用自身目录中的信息和数据。4.根据权利要求1所述系统的一种云计算服务器集群的均衡负载方法,其特征在于,所述方法包括以下步骤:a、用户登录时,由管理服务器中的登录模块获得用户的登录信息,然后触发登录事件,登录事件触发后,监控模块立即将所有GPU计算服务器的用户数量、GPU占用情况、内存占用情况发送给分配模块,分配模块将用户分配给当前用户数最少的GPU计算服务器;b、用户调用存储服务器中的数据,在管理服务器为其分配的GPU计算服务器运行任务,提交任务时,触发资源预估事件,由管理服务器中的资源预估模块根据提交任务时的描述和选择参数对任务占用的资源进行预估,所述的预估方法包括根据数据类型、大小、任务流程中所用软件,在根据以往运行任务积累的经验创建的的数据库中查到预计需要的GPU占用率,以及需要的内存、IO、网络容量,通过预估结果及监控模块传来的实时资源占用情况,若发现已分配的资源不足以完...

【专利技术属性】
技术研发人员:姜意李永军张义周邦宇谭苗苗
申请(专利权)人:上海承蓝科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1