【技术实现步骤摘要】
本公开涉及计算机,尤其涉及人工智能、软件测试和模型训练。
技术介绍
1、依据尺度定律(scaling law),模型越大,输入数据可包括的词元(token)数量越多,此时模型的预测准确度越高。其中,模型的大小可以通过模型包括的参数数量、网络层数和/或网络结构的复杂度衡量。而模型越大,模型训练过程中发生故障的频率越高。为了保障大尺寸模型的训练效率,产生了模型训练的容错系统,容错系统可以在模型训练过程中发生故障时,及时采取应对措施,保障训练过程的稳定性和连续性。
技术实现思路
1、本公开提供了一种对容错系统的测试方法、系统、装置、电子设备及介质。
2、本公开实施例的第一方面,提供了一种对容错系统的测试方法,包括:
3、接收测试样例,所述测试样例包括:目标故障类型和预期行为数据;
4、基于各种故障类型与预设故障之间的预设对应关系,确定所述目标故障类型对应的目标故障;
5、向待测试模型的训练设备注入所述目标故障;
6、从容错系统中获取实际
...【技术保护点】
1.一种对容错系统的测试方法,包括:
2.根据权利要求1所述的方法,在所述接收测试样例之后,还包括:
3.根据权利要求1或2所述的方法,所述目标故障类型为至少一个,所述测试样例还包括所述目标故障类型对应的触发状态;在所述接收测试样例之后,还包括:
4.根据权利要求1-3任一项所述的方法,在所述向所述待测试模型的训练设备注入所述目标故障之前,还包括:
5.根据权利要求4所述的方法,其中,所述测试样例还包括目标训练设备的设备信息,所述向待测试模型的训练设备注入所述目标故障,包括:
6.根据权利要求1-5任一项所述
...【技术特征摘要】
1.一种对容错系统的测试方法,包括:
2.根据权利要求1所述的方法,在所述接收测试样例之后,还包括:
3.根据权利要求1或2所述的方法,所述目标故障类型为至少一个,所述测试样例还包括所述目标故障类型对应的触发状态;在所述接收测试样例之后,还包括:
4.根据权利要求1-3任一项所述的方法,在所述向所述待测试模型的训练设备注入所述目标故障之前,还包括:
5.根据权利要求4所述的方法,其中,所述测试样例还包括目标训练设备的设备信息,所述向待测试模型的训练设备注入所述目标故障,包括:
6.根据权利要求1-5任一项所述的方法,其中,所述对比所述实际行为数据和所述预期行为数据,得到对所述容错系统的测试结果,包括:
7.根据权利要求6所述的方法,在所述对比所述实际行为数据和所述预期行为数据,得到对所述容错系统的测试结果之后,还包括:
8.根据权利要求6所述的方法,在所述对比所述实际行为数据和所述预期行为数据,得到对所述容错系统的测试结果之后,还包括:
9.根据权利要求1-8任一项所述的方法,所述测试样例还包括测试结束条件,在所述对比所述实际行为数据和所述预期行为数据,得到对所述容错系统的测试结果之后,还包括:
10.一种对容错系统的测试系统,包括:
11.根据权利要求10所述的测试系统,还包括:
12.根据权利要求11所述的测试系统,所述目标故障类型为至少一个,所述测试样例还包括所述目标故障类型对应的触发状态;
13.根据权利要求10-12任一项所述的测试系统,所述测试框架,还用于:
14.根据权利要求13所述...
【专利技术属性】
技术研发人员:田戈骁,梁阳,何雅,董泽照,罗跃东,巩伟宝,于佃海,马艳军,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。