【技术实现步骤摘要】
模型训练方法、系统、集群及介质
[0001]本申请涉及人工智能(artificial intelligence,AI)
,尤其涉及一种模型训练方法、模型训练系统以及计算设备集群、计算机可读存储介质、计算机程序产品。
技术介绍
[0002]随着AI技术的不断发展,很多新的AI模型也随之产生。其中,AI模型是指通过机器学习等AI技术开发和训练得到的用于实现特定AI任务的算法模型。AI任务是指利用AI模型的功能完成的任务。其中,AI任务可以包括语言翻译、智能问答等自然语言处理(natural language processing,NLP)任务,或者目标检测、图像分类等计算机视觉(computer vision,CV)任务。
[0003]新的AI模型通常是AI领域的专家针对特定的AI任务而提出的,并且这些AI模型在上述特定的AI任务取得了较好的效果。因此,很多研究者尝试将这些新的AI模型引入其他的AI任务。以转换器(transformer)模型为例,transformer模型是一种基于注意力机制对输入数据的各个部分进行加权的深度学习模型。该transformer模型在很多NLP任务中均获得了显著的效果,很多研究者尝试将transformer模型引入CV任务,例如图像分类任务、目标检测任务等等。
[0004]然而,将AI模型(例如是transformer模型)引入新的AI任务时,通常需要先在较大的数据集上进行预训练,由此导致整个训练过程需要花费较长时间,例如一些AI模型可能需要训练数千天,难以满足业务的 ...
【技术保护点】
【技术特征摘要】
1.一种人工智能AI模型训练方法,其特征在于,所述方法包括:确定待训练的第一模型和待训练的第二模型,所述第一模型和所述第二模型为异构的两种AI模型;将训练数据输入所述第一模型和所述第二模型,获得所述第一模型对所述训练数据进行推理后的第一输出,以及所述第二模型对所述训练数据进行推理后的第二输出;以所述第二输出为所述第一模型的监督信号,结合所述第一输出迭代更新所述第一模型的模型参数,直至所述第一模型满足第一预设条件。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:以所述第一输出为所述第二模型的监督信号,结合所述第二输出迭代更新所述第二模型的模型参数,直至所述第二模型满足第二预设条件。3.根据权利要求1或2所述的方法,其特征在于,所述第一输出包括所述第一模型从所述训练数据中提取的第一特征和基于所述第一特征推理的第一概率分布中的至少一个,所述第二输出包括所述第二模型从所述训练数据中提取的第二特征和基于所述第二特征推理的第二概率分布中的至少一个;所述以所述第二输出为所述第一模型的监督信号,结合所述第一输出迭代更新所述第一模型的模型参数,包括:根据所述第一特征和所述第二特征确定第一对比损失,和/或者,根据所述第一概率分布和所述第二概率分布确定第一相对熵损失;根据所述第一对比损失和所述第一相对熵损失中的至少一个,迭代更新所述第一模型的模型参数。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一对比损失和所述第一相对熵损失中的至少一个,迭代更新所述第一模型的模型参数,包括:根据所述第一对比损失的梯度和所述第一相对熵损失的梯度迭代更新所述第一模型的模型参数;当所述第一模型的监督损失与所述第二模型的监督损失的差值小于第一预设阈值时,停止执行根据所述第一对比损失的梯度迭代更新所述第一模型的模型参数。5.根据权利要求1至4任一项所述的方法,其特征在于,所述第一模型为转换器模型,所述第二模型为卷积神经网络模型。6.根据权利要求1至5任一项所述的方法,其特征在于,所述确定待训练的第一模型和待训练的第二模型,包括:根据用户通过用户界面的选择,确定所述待训练的第一模型和所述待训练的第二模型;或者,根据用户设置的AI任务的类型确定所述待训练的第一模型和所述待训练的第二模型。7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:接收用户通过用户界面配置的训练参数;和/或,根据用户设置的AI任务的类型以及所述第一模型、所述第二模型,确定训练参数。8.根据权利要求7所述的方法,其特征在于,所述训练参数包括训练轮次、优化器类型、学习率更新策略、模型参数初始化方式和训练策略中的一种或多种。9.一种模型训练系统,其特征在于,所述系统包括:
交互单元,用于确定待训练的第一模型和待训练的第二模型,所述第一模型和所述第二模型为异构的两种AI模型;训练单元,用于将训练数据输入所述第一模型和所述第二模型,获得所述第一模型对所述训练数据进行推理后的第一输出,以及所述第二...
【专利技术属性】
技术研发人员:童贝,喻晓源,
申请(专利权)人:华为云计算技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。