【技术实现步骤摘要】
预训练模型的生成方法、装置、电子设备以及存储介质
[0001]本公开涉及人工智能
,尤其涉及计算机视觉和深度学习技术。具体地,涉及一种预训练模型的生成方法、装置、电子设备以及存储介质。
技术介绍
[0002]预训练模型可以指利用数目较多的训练数据对预设模型进行训练得到的与任务无关的模型。针对下游任务,可以利用与下游任务相关的少量的训练数据对预训练模型进行微调,得到用于处理下游任务的模型。例如,下游任务可以包括图像处理任务、音频处理任务或文本处理任务等。
技术实现思路
[0003]本公开提供了一种预训练模型的生成方法、装置、电子设备以及存储介质。
[0004]根据本公开的一方面,提供了一种预训练模型的生成方法,包括:确定与候选模型结构集合对应的性能指标集合,其中,上述候选模型结构集合是从搜索空间包括的多个模型结构中确定的,上述搜索空间是基于超网络的搜索空间;根据上述性能指标集合,分别从上述候选模型结构集合中确定与多个芯片中的每个芯片对应的目标模型结构,其中,每个上述目标模型结构是满足性能指标条件的 ...
【技术保护点】
【技术特征摘要】
1.一种预训练模型的生成方法,包括:确定与候选模型结构集合对应的性能指标集合,其中,所述候选模型结构集合是从搜索空间包括的多个模型结构中确定的,所述搜索空间是基于超网络的搜索空间;根据所述性能指标集合,分别从所述候选模型结构集合中确定与多个芯片中的每个芯片对应的目标模型结构,其中,每个所述目标模型结构是满足性能指标条件的模型结构;以及针对所述多个芯片中的每个芯片,将与所述芯片对应的目标模型结构确定为与所述芯片对应的预训练模型,其中,所述芯片用于运行与所述芯片对应的预训练模型。2.根据权利要求1所述的方法,还包括:利用训练集训练超网络,得到训练完成的超网络;以及基于所述训练完成的超网络,得到所述搜索空间。3.根据权利要求1或2所述的方法,其中,所述确定与候选模型结构集合对应的性能指标集合,包括:利用性能预测器处理所述候选模型结构集合,得到与候选模型结构集合对应的性能指标集合。4.根据权利要求3所述的方法,还包括:从所述搜索空间中确定评估模型结构集合;以及利用所述评估模型结构集合,得到所述性能预测器。5.根据权利要求4所述的方法,其中,所述性能指标集合包括以下至少一项:精度评估值集合和速度评估值集合;所述性能预测器包括以下至少一项:精度预测器和速度预测器;其中,所述利用所述评估模型结构集合,得到所述性能预测器,包括以下至少一项:利用所述评估模型结构集合处理评测集,得到与所述评估模型结构集合对应的精度评估值集合;以及利用所述评估模型结构集合和与所述评估模型结构集合对应的精度评估值集合,得到所述精度预测器;针对所述多个芯片中的每个芯片,将所述评估模型结构集合运行于所述芯片,得到所述芯片运行所述评估模型结构集合的速度评估值集合;以及利用所述评估模型结构集合和每个所述芯片运行所述评估模型结构集合的速度评估值集合,得到所述速度预测器。6.根据权利要求5所述的方法,还包括:确定与所述评估模型结构集合对应的评估模型编码集合;其中,所述利用所述评估模型结构集合和与所述评估模型结构集合对应的精度评估值集合,得到所述精度预测器,包括:利用与所述评估模型结构集合对应的评估模型编码集合和精度评估值集合,得到所述精度预测器;其中,所述利用所述评估模型结构集合和每个所述芯片运行所述评估模型结构集合的速度评估值集合,得到所述速度预测器,包括:利用与所述评估模型结构集合对应的评估模型编码集合和每个所述芯片运行所述评
估模型结构集合的速度评估值集合,得到所述速度预测器。7.根据权利要求4~6中任一项所述的方法,其中,所述从所述搜索空间中确定评估模型结构集合,包括:确定与所述搜索空间包括的多个模型结构中的每个模型结构对应的信息熵;以及根据与所述搜索空间包括的多个模型结构中的每个模型结构对应的信息熵,从所述搜索空间中确定所述评估模型结构集合。8.根据权利要求4~6中任一项所述的方法,其中,所述从所述搜索空间中确定评估模型结构集合,包括:根据所述搜索空间包括的多个模型结构,确定与所述搜索空间对应的至少一个聚类中心;以及根据与所述搜索空间对应的至少一个聚类中心,得到所述评估模型结构集合。9.根据权利要求5或6所述的方法,其中,所述精度评估值集合包括与所述多个芯片中的每个芯片对应的精度评估值集合,与每个所述芯片对应的精度评估值集合包括多个预测精度值;所述速度评估值集合包括与所述多个芯片中的每个芯片对应的速度评估值集合,与每个所述芯片对应的速度评估值集合包括多个运行速度值;其中,所述根据所述性能指标集合,分别从所述候选模型结构集合中确定与多个芯片中的每个芯片对应的目标模型结构,包括:针对所述多个芯片中的每个芯片,对与所述芯片对应的精度评估值类集合包括的多个预测精度值进行排序,得到与所述芯片的精度评估值集合对应的排序结果;对与所述芯片对应的速度评估值集合包括的多个运行速度值进行排序,得到与所述芯片的速度评估值集合对应的排序结果;以及根据与所述芯片的精度评估值集合对应的排序结果和与速度评估值集合对应的排序结果,确定与所述芯片对应的目标模型结构。10.根据权利要求5或6所述的方法,其中,所述精度评估值集合包括与所述多个芯片中的每个芯片对应的精度评估值集合;所述速度评估值集合包括与所述多个芯片中的每个芯片对应的速度评估值集合;其中,所述根据与所述芯片的精度评估值集合对应的排序结果和与速度评估值集合对应的排序结果,确定与所述芯片对应的目标模型结构,包括:针对所述多个芯片中的每个芯片,从与所述芯片对应的速度评估值集合中查找与至少一个预定运行速度值中的每个预定运行速度值对应的至少一个候选模型结构;针对所述至少一个预定运行速度值中的每个预定运行速度值,根据与所述芯片对应的精度评估值集合,对与所述预定运行速度值对应的至少一个候选模型结构进行排序,得到与所述预定运行速度值对应的至少一个候选模型结构的排序结果;以及根据与所述预定运行速度值对应的至少一个候选模型结构的排序结果,从与所述预定运行速度值应的至少一个候选模型结构中确定与所述芯片对应的目标模型结构。11.一种预训练模型的生成装置,包括:第一确定模块,用于确定与候选模型结构集合对应的性能指标集合,其中,所述候选模型结构集合是从搜索空间包括的多个模型结构中确定的,所述搜索空间是基于超网络的搜
索空间;第二确定模块,用于根据所述性能指标集合,分别从所述候选模型结构集合中确定与多个芯片中的每...
【专利技术属性】
技术研发人员:希滕,张刚,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。