【技术实现步骤摘要】
一种设备验证方法、装置、电子设备和存储介质
[0001]本申请涉及计算机
,尤其涉及一种设备验证方法、装置、电子设备和存储介质。
技术介绍
[0002]随着深度学习技术的发展,各种深度神经网络模型不断涌现。根据当前人工智能的趋势,越复杂的网络模型可以提供越好的准确性,网络深度也从几层扩大到成百上千层。虽然深层次的网络大大提高了精确率,但也使得网络模型参数越来越多、训练时间越来越长,尤其大模型训练需要运行月度级别,因此训练设备的稳定性非常重要。
[0003]相关技术中,在完成训练设备的配置后,直接交付给技术人员用于模型训练。基于上述方式,由于模型网络层次的加深和参数量的增加,导致在训练过程中出现训练设备故障时,往往需要耗费大量时间进行故障定位。若训练设备故障频发,会进一步增加模型训练耗费时间,降低模型训练效率。
[0004]因此,如何降低训练设备在模型训练过程中的故障率,成为目前亟待解决的问题。
技术实现思路
[0005]本申请实施例提供一种设备验证方法、装置、电子设备和存储介质,用以降低 ...
【技术保护点】
【技术特征摘要】
1.一种设备验证方法,其特征在于,所述方法包括:确定待验证设备的基础属性信息符合预设属性条件时,将测试数据输入所述待验证设备;通过所述待验证设备包含的各图形处理器GPU,分别对所述测试数据进行数据处理,获得各GPU各自的数据处理结果,所述数据处理结果用于表征对应的GPU的数据独立处理能力;基于所述测试数据的参考测试结果,确定各数据处理结果均表征验证通过时,将验证数据输入所述待验证设备;通过所述各GPU对所述验证数据进行数据处理,获得所述各GPU的综合协作处理结果,并基于所述验证数据的参考验证结果和所述综合协作处理结果,获得所述待验证设备的设备验证结果,其中,所述综合协作处理结果用于表征所述各GPU之间的数据协作处理能力。2.如权利要求1所述的方法,其特征在于,所述测试数据包含第一部分数据和第二部分数据,所述第一部分数据的数据量小于所述第二部分数据的数据量;则所述通过所述待验证设备包含的各图形处理器GPU,分别对所述测试数据进行数据处理,获得各GPU各自的数据处理结果,包括:针对所述各GPU,分别执行以下操作:通过一个GPU对所述第一部分数据进行数据处理,获得第一输出结果;基于所述第一部分数据的参考结果,确定所述第一输出结果表征验证通过时,将所述第二部分数据输入所述一个GPU;通过所述一个GPU对所述第二部分数据进行数据处理,获得针对所述第二部分数据的数据处理速度,并将所述数据处理速度作为所述一个GPU的数据处理结果。3.如权利要求1所述的方法,其特征在于,所述参考测试结果包含:所述各GPU各自的参考处理速度;则通过以下方式获得各参考处理速度:针对所述各GPU,分别执行以下操作:基于一个GPU的类型信息,获取具有相同类型信息的GPU的历史数据处理速度;若获取到的历史数据处理速度的数量不大于第一数量阈值,则将第一预设速度作为所述一个GPU的参考处理速度;若所述数量大于所述第一数量阈值,则基于获取到的各历史数据处理速度,获得所述一个GPU的参考处理速度。4.如权利要求3所述的方法,其特征在于,所述数据处理结果包含相应的GPU的数据处理速度;则通过以下方式确定所述各数据处理结果均表征验证通过:获取各参考处理速度各自对应的速度差值,所述速度差值是基于相应的参考处理速度与对应的数据处理速度获得的;若所述各参考处理速度各自与对应的速度差值之间的大小关系,均符合第一预设关系,则确定所述各数据处理结果均表征验证通过。5.如权利要求4所述的方法,其特征在于,所述若所述各参考处理速度各自与对应的速度差值之间的大小关系,均符合第一预设关系,则确定所述各数据处理结果均表征验证通过,包括:若所述各参考处理速度与对应的速度差值之间的差值,均不大于相应的参考处理速度
与预设比例值的乘积,则确定所述各数据处理结果均表征验证通过。6.如权利要求1~5任一项所述的方法,其特征在于,所述通过所述各GPU对所述验证数据进行数据处理,获得所述各GPU的综合...
【专利技术属性】
技术研发人员:查冲,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。