The invention discloses a cloud computing server cluster load balancing system and method, using the two layer resource allocation strategy, specifically: user login, the login module, the management server monitoring module and distribution module of collaborative work, assign it to a GPU calculation server, user computing server submission in GPU, the management server resources prediction module will work estimate resource occupancy, calculation of occupancy server real-time monitoring module to monitor the resources with GPU, such as that allocated resources is not sufficient to complete the task, the second layer distribution distribution module. Based on the event driven mechanism of the invention, load balancing cluster, has the characteristics of automation, intelligent and online execution, making the load balancing when a user experience as the main consideration, the load balancing strategy is more simple, efficient and transparent, the cluster system with high performance and high quality of service and elastic expansion.
【技术实现步骤摘要】
一种云计算服务器集群的均衡负载系统及方法
本专利技术涉及集群服务器
,具体涉及一种云计算服务器集群的均衡负载系统及方法。
技术介绍
伴随着计算需求的发展,云计算的发展越来越快。云计算集群通常采用大规模计算模块进行计算,为了保证集群的安全性、稳定性以及用户的体验,需要采用负载均衡集群。目前常用的集群负载均衡系统一般只能对资源进行一次分配,这种机制的弊端在于,分配后当用户真正提交任务并开始运算时,根据规则分配的服务器资源不一定能满足用户的计算需求,而由于分配是单层、单向、静态的,所以容易造成服务器资源过载、用户使用体验不佳的情况发生。考虑到系统性价比、用户体验等问题,因此,实现集群负载的自动化、智能化、在线化是亟待解决的问题。
技术实现思路
本专利技术的目的在于提供一种云计算服务器集群的均衡负载系统及方法,用以解决现有集群负载均衡系统不够自动化、智能化、在线化,系统性价比及用户体验不佳的问题。为实现上述目的,本专利技术设计了一种云计算服务器集群的均衡负载系统及方法。具体地,一种云计算服务器集群的均衡负载系统,关键是,该系统包括:用于存放用户数据和用户计算数据的存储服务器、一组用于执行用户计算任务的GPU计算服务器和用于分配、监控GPU计算服务器运行情况的管理服务器;其中,所述的管理服务器包括:登录模块:用于获得和保存用户登录信息,并将用户登录信息传给监控模块和分配模块;监控模块:用于监控每个GPU计算服务器的用户数量、GPU占用情况、内存占用情况;分配模块:用于将登录的用户分配给特定的计算服务器;资源预估模块:用于在用户提交作业后进行占用的资源预估。进一步地 ...
【技术保护点】
一种云计算服务器集群的均衡负载系统,其特征在于,该系统包括:用于存放用户数据和用户计算数据的存储服务器、一组用于执行用户计算任务的GPU计算服务器和用于分配、监控GPU计算服务器运行情况的管理服务器;其中,所述的管理服务器包括:登录模块:用于获得和保存用户登录信息,并将用户登录信息传给监控模块和分配模块;监控模块:用于监控每个GPU计算服务器的用户数量、GPU占用情况、内存占用情况及IO、网络容量;分配模块:用于将登录的用户分配给特定的计算服务器;资源预估模块:用于在用户提交作业后进行占用的资源预估。
【技术特征摘要】
1.一种云计算服务器集群的均衡负载系统,其特征在于,该系统包括:用于存放用户数据和用户计算数据的存储服务器、一组用于执行用户计算任务的GPU计算服务器和用于分配、监控GPU计算服务器运行情况的管理服务器;其中,所述的管理服务器包括:登录模块:用于获得和保存用户登录信息,并将用户登录信息传给监控模块和分配模块;监控模块:用于监控每个GPU计算服务器的用户数量、GPU占用情况、内存占用情况及IO、网络容量;分配模块:用于将登录的用户分配给特定的计算服务器;资源预估模块:用于在用户提交作业后进行占用的资源预估。2.根据权利要求1所述的一种云计算服务器集群的均衡负载系统,其特征在于,所述的GPU计算服务器能容纳的并发用户数量的最大值由管理员设定。3.根据权利要求1所述的一种云计算服务器集群的均衡负载系统,其特征在于,所述的存储服务器中设有公共目录和用户目录,用户目录包括所有用户各自的目录,用户登录后可调用自身目录中的信息和数据。4.根据权利要求1所述系统的一种云计算服务器集群的均衡负载方法,其特征在于,所述方法包括以下步骤:a、用户登录时,由管理服务器中的登录模块获得用户的登录信息,然后触发登录事件,登录事件触发后,监控模块立即将所有GPU计算服务器的用户数量、GPU占用情况、内存占用情况发送给分配模块,分配模块将用户分配给当前用户数最少的GPU计算服务器;b、用户调用存储服务器中的数据,在管理服务器为其分配的GPU计算服务器运行任务,提交任务时,触发资源预估事件,由管理服务器中的资源预估模块根据提交任务时的描述和选择参数对任务占用的资源进行预估,所述的预估方法包括根据数据类型、大小、任务流程中所用软件,在根据以往运行任务积累的经验创建的的数据库中查到预计需要的GPU占用率,以及需要的内存、IO、网络容量,通过预估结果及监控模块传来的实时资源占用情况,若发现已分配的资源不足以完...
【专利技术属性】
技术研发人员:姜意,李永军,张义,周邦宇,谭苗苗,
申请(专利权)人:上海承蓝科技股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。