This application discloses a fault testing method and related devices for cluster servers in a machine learning system. The method includes receiving a fault testing task sent by a fault generation server, in which the fault testing task carries a software fault testing script, and sending a test request carrying the software fault testing script to M servers in the cluster server, in which, M is a positive integer; receives M test responses sent by the M servers, in which the M test responses carry M software fault test data obtained by the M servers running the software fault test script, and the M servers correspond to the M test responses one by one; verifies the M software fault test data to obtain M software fault test results. Fruit. The implementation of the embodiments of the present invention is beneficial to enriching the application scenarios.
【技术实现步骤摘要】
机器学习系统中的集群服务器故障测试方法和相关装置
本专利技术涉及计算机
,尤其涉及机器学习系统中的集群服务器故障测试方法和相关装置。
技术介绍
机器学习经过几十年的发展,终于在存储能力和计算能力的发展下得到广泛应用。机器学习中的模型训练需要计算大量的数据,以得到合适的模型。虽然GPU的计算能力比CPU好几个数量级,但面对机器学习的计算需求,仍然不够。因此,往往通过在集群服务器上部署docker服务以进行多机多卡训练,来满足机器学习的计算需求。其中,Docker是一个开源的容器引擎,也是一种轻量级的虚拟化技术,且对性能损耗小,易于封装,因此在机器学习中的应用也越来越广泛。一般来说,一次机器学习的模型训练短则几个小时,长则数周。如果在一次训练中,机器学习系统中的集群服务器发生故障,则需要重新开始,之前的计算都会白费。那么一个好的机器学习系统需要有处理故障并恢复的过程。因此,在机器学习系统投入实际使用之前,需要对机器学习系统中的集群服务器下发故障测试脚本进行故障测试,以检测集群服务器故障处理能力以及找出集群服务器存在的潜在缺陷。然而,现有的测试方法,只能对单个服务器下发硬件故障测试脚本进行硬件故障测试,应用场景单一。
技术实现思路
本专利技术实施例提供了机器学习系统中的集群服务器故障测试方法和相关装置,实施本专利技术实施例,有利于丰富应用场景。本专利技术第一方面提供了机器学习系统中的集群服务器故障测试方法,包括:故障执行服务器接收故障生成服务器发送的故障测试任务,其中,所述故障测试任务携带软件故障测试脚本;所述故障执行服务器向所述集群服务器中的M个服务器下发携 ...
【技术保护点】
1.机器学习系统中的集群服务器故障测试方法,其特征在于,包括:故障执行服务器接收故障生成服务器发送的故障测试任务,其中,所述故障测试任务携带软件故障测试脚本;所述故障执行服务器向所述集群服务器中的M个服务器下发携带所述软件故障测试脚本的测试请求,其中,M为正整数;所述故障执行服务器接收所述M个服务器发送的M个测试响应,其中,所述M个测试响应携带所述M个服务器运行所述软件故障测试脚本而得到的M条软件故障测试数据,所述M个服务器与所述M个测试响应一一对应;所述故障执行服务器对所述M条软件故障测试数据进行校验,以得到M个软件故障测试结果。
【技术特征摘要】
1.机器学习系统中的集群服务器故障测试方法,其特征在于,包括:故障执行服务器接收故障生成服务器发送的故障测试任务,其中,所述故障测试任务携带软件故障测试脚本;所述故障执行服务器向所述集群服务器中的M个服务器下发携带所述软件故障测试脚本的测试请求,其中,M为正整数;所述故障执行服务器接收所述M个服务器发送的M个测试响应,其中,所述M个测试响应携带所述M个服务器运行所述软件故障测试脚本而得到的M条软件故障测试数据,所述M个服务器与所述M个测试响应一一对应;所述故障执行服务器对所述M条软件故障测试数据进行校验,以得到M个软件故障测试结果。2.根据权利要求1所述的方法,其特征在于,所述故障执行服务器向所述集群服务器中的M个服务器下发携带所述软件故障测试脚本的测试请求,包括:所述故障执行服务器按照所述测试请求传输耗费时间的长短对所述M个服务器进行从小到大的编号,以得到M个编号;所述故障执行服务器按照所述M个编号的顺序向所述M个服务器下发所述测试请求。3.根据权利要求2所述的方法,其特征在于,所述故障执行服务器按照所述M个编号的顺序向所述M个服务器下发所述测试请求,包括:所述故障执行服务器确定所述软件故障测试脚本与预设表达式是否匹配成功;若所述软件故障测试脚本与所述预设表达式匹配成功,所述故障执行服务器则确定是否有调用用户接口的权限,其中,所述用户接口属于容器管理节点,所述容器管理节点为所述M个服务器中的任意一个服务器,所述容器管理节点用于管理部署在所述M个服务器中的每个服务器上的N个容器,N为正整数;若有调用所述用户接口的权限,所述故障执行服务器则按照所述M个编号的顺序调用所述用户接口向部署在所述M个服务器中的每个服务器上的N个容器下发所述测试请求。4.根据权利要求3所述的方法,其特征在于,所述若有调用所述用户接口的权限,所述故障执行服务器则按照所述M个编号的顺序调用所述用户接口向部署在所述M个服务器中的每个服务器上的N个容器下发所述测试请求,包括:若有调用所述用户接口的权限,所述故障执行服务器按照所述M个编号的顺序调用所述用户接口获取所述M个服务器的M个配置文件,其中,所述M个配置文件中的第i个配置文件包含部署在第i个服务器上的N个容器的软件故障测试优先级,所述第i个服务器属于所述M个服务器,0<i≤M且i为正整数;所述故障执行服务器按照所述软件故障测试优先级从高到低的顺序,调用所述用户接口向部署在所述M个服务器中的每个服务器上的N个容器下发所述测试请求。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:若所述软件故障测试脚本与所述预设表达式未匹配成功,所述故障执行服务器则确定是否有通过安全外壳协议远程登录所述M个服务器的权限;若有通过所述安全外壳协议远程登录所述M个服务器的权限,所述故障执行服务器则按照所述M个编号的顺序通过所述安全外壳协议远程登录所述M个服务器,以向所述M个服务器的每个服务器中运行的Q个角色服务器下发所述测试请求,其中,Q为正整数。6.根据权利要求1或5所述的方法,其特征在于,所述故障测试任务还携带硬件故障测试脚本,所述方法还包括:所述故障执行服务器确定有通过所述安全外壳协议远程登录所述M个服务器的权限,以按照所述M个编号的顺序通过所述...
【专利技术属性】
技术研发人员:郑海刚,吕旭涛,王孝宇,
申请(专利权)人:深圳云天励飞技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。