模型训练方法、系统、集群及介质技术方案

技术编号:36700578 阅读:20 留言:0更新日期:2023-03-01 09:16
本申请提供了一种人工智能(AI)模型训练方法,包括:确定待训练的第一模型和待训练的第二模型,该第一模型和第二模型为异构的两种AI模型,将训练数据输入第一模型和第二模型,获得第一模型对训练数据进行推理后的第一输出,以及第二模型对训练数据进行推理后的第二输出,然后以第二输出为第一模型的监督信号,结合第一输出迭代更新第一模型的模型参数,直至第一模型满足第一预设条件。该方法利用与第一模型互补的第二模型对训练数据进行推理后的输出作为监督信号,训练第一模型,促进第一模型加速收敛,无需在大规模数据集上预训练,缩短了训练时间,提高了训练效率。提高了训练效率。提高了训练效率。

【技术实现步骤摘要】
模型训练方法、系统、集群及介质


[0001]本申请涉及人工智能(artificial intelligence,AI)
,尤其涉及一种模型训练方法、模型训练系统以及计算设备集群、计算机可读存储介质、计算机程序产品。

技术介绍

[0002]随着AI技术的不断发展,很多新的AI模型也随之产生。其中,AI模型是指通过机器学习等AI技术开发和训练得到的用于实现特定AI任务的算法模型。AI任务是指利用AI模型的功能完成的任务。其中,AI任务可以包括语言翻译、智能问答等自然语言处理(natural language processing,NLP)任务,或者目标检测、图像分类等计算机视觉(computer vision,CV)任务。
[0003]新的AI模型通常是AI领域的专家针对特定的AI任务而提出的,并且这些AI模型在上述特定的AI任务取得了较好的效果。因此,很多研究者尝试将这些新的AI模型引入其他的AI任务。以转换器(transformer)模型为例,transformer模型是一种基于注意力机制对输入数据的各个部分进行加权的深度学习模型。该transformer模型在很多NLP任务中均获得了显著的效果,很多研究者尝试将transformer模型引入CV任务,例如图像分类任务、目标检测任务等等。
[0004]然而,将AI模型(例如是transformer模型)引入新的AI任务时,通常需要先在较大的数据集上进行预训练,由此导致整个训练过程需要花费较长时间,例如一些AI模型可能需要训练数千天,难以满足业务的需求。

技术实现思路

[0005]本申请提供了一种AI模型训练方法,该方法利用与第一模型互补的第二模型对训练数据进行推理后的输出作为监督信号,训练第一模型,促进第一模型加速收敛,无需在大规模数据集上预训练,缩短了训练时间,提高了训练效率。本申请还提供了上述方法对应的模型训练系统、计算设备集群、计算机可读存储介质以及计算机程序产品。
[0006]第一方面,本申请提供了一种AI模型训练方法。该方法可以由模型训练系统执行。该模型训练系统可以是用于训练AI模型的软件系统,计算设备或计算设备集群通过运行该软件系统的程序代码,以执行AI模型训练方法。该模型训练系统也可以是用于训练AI模型的硬件系统。下文以该模型训练系统为软件系统进行示例说明。
[0007]具体地,模型训练系统确定待训练的第一模型和待训练的第二模型,该第一模型和第二模型为异构的两种AI模型,然后将训练数据输入所述第一模型和所述第二模型,获得所述第一模型对所述训练数据进行推理后的第一输出,以及所述第二模型对所述训练数据进行推理后的第二输出,接着以所述第二输出为所述第一模型的监督信号,结合所述第一输出迭代更新所述第一模型的模型参数,直至所述第一模型满足第一预设条件。
[0008]该方法中,模型训练系统利用与第一模型性能互补的第二模型对训练数据进行推理后的第二输出,为第一模型的训练加入额外的监督信号,促进第一模型向与该第一模型
互补的第二模型学习,使得第一模型可以加速收敛,无需在大规模的数据集上进行预训练,大幅缩短了训练时间,提高了第一模型训练的效率,满足了业务的需求。
[0009]在一些可能的实现方式中,模型训练系统还可以以所述第一输出为所述第二模型的监督信号,结合所述第二输出迭代更新所述第二模型的模型参数,直至所述第二模型满足第二预设条件。
[0010]如此,模型训练系统利用与第二模型性能互补的第一模型对训练数据进行推理后的第一输出,为第二模型的训练加入额外的监督信号,促进第二模型向与该第二模型互补的第一模型学习,使得第二模型可以加速收敛,无需在大规模的数据集上进行预训练,大幅缩短了训练时间,提高了第二模型训练的效率,满足了业务的需求。
[0011]在一些可能的实现方式中,所述第一输出包括所述第一模型从所述训练数据中提取的第一特征和基于所述第一特征推理的第一概率分布中的至少一个,所述第二输出包括所述第二模型从所述训练数据中提取的第二特征和基于所述第二特征推理的第二概率分布中的至少一个。
[0012]模型训练系统以第二输出为第一模型的监督信号,结合第一输出迭代更新所述第一模型的模型参数,可以通过如下方式实现:根据所述第一特征和所述第二特征确定第一对比损失,和/或者,根据所述第一概率分布和所述第二概率分布确定第一相对熵损失;然后根据所述第一对比损失和所述第一相对熵损失中的至少一个,迭代更新所述第一模型的模型参数。
[0013]基于上述对比损失和/或相对熵损失进行梯度回流,模型训练系统不仅可以使得AI模型学习到如何区分不同的类别,还能够使AI模型参考另一个AI模型的概率估计(或称作概率分布)来提升自身的泛化能力。
[0014]在一些可能的实现方式中,模型训练系统在迭代更新所述第一模型的模型参数时,可以先根据所述第一对比损失的梯度和所述第一相对熵损失的梯度迭代更新所述第一模型的模型参数。当所述第一模型的监督损失与所述第二模型的监督损失的差值小于第一预设阈值时,停止执行根据所述第一对比损失的梯度迭代更新所述第一模型的模型参数。
[0015]该方法中,模型训练系统通过对梯度回流进行限制,例如限制对比损失的梯度回流至第一模型,可以避免性能较差的模型对性能较好的模型产生误导,导致模型朝着错误的方向收敛,由此可以促进第一模型高效收敛。
[0016]在一些可能的实现方式中,模型训练系统在迭代更新所述第二模型的模型参数时,可以先根据所述第二对比损失的梯度和所述第二相对熵损失的梯度迭代更新所述第二模型的模型参数。当所述第二模型的监督损失与所述第一模型的监督损失的差值小于第二预设阈值时,停止执行根据所述第二相对熵损失的梯度迭代更新所述第二模型的模型参数。
[0017]模型训练系统通过对梯度回流进行限制,例如限制相对熵损失的梯度回流至第二模型,可以避免性能较差的模型对性能较好的模型产生误导,导致模型朝着错误的方向收敛,由此可以促进第二模型高效收敛。
[0018]在一些可能的实现方式中,由于模型结构的差异,训练第一模型的分支和训练第二模型的分支的学习速度、数据利用效率及表征能力的上限可以是不同的,模型训练系统可以调整训练策略,实现在训练的不同阶段,由训练效果好(如收敛快、精度高)的分支充当
老师的角色(即提供监督信号的角色),促进训练效果较差的分支进行学习。在训练效果接近的情况下,两个分支可以互为合作伙伴,相互学习。随着训练的递进,分支的角色可以发生互换。也即异构的两个AI模型在训练过程中可以自主地选择相应角色达到互相促进的目的,提高了训练效率。
[0019]在一些可能的实现方式中,所述第一模型为转换器模型,所述第二模型为卷积神经网络模型。转换器模型和卷积神经网络模型的性能互补,因此,模型训练系统可以采用互补学习的方式训练转换器模型和卷积神经网络模型,提高训练效率。
[0020]在一些可能的实现方式中,模型训练系统可以根据用户通过用户界面的选择,确定所述待训练的第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人工智能AI模型训练方法,其特征在于,所述方法包括:确定待训练的第一模型和待训练的第二模型,所述第一模型和所述第二模型为异构的两种AI模型;将训练数据输入所述第一模型和所述第二模型,获得所述第一模型对所述训练数据进行推理后的第一输出,以及所述第二模型对所述训练数据进行推理后的第二输出;以所述第二输出为所述第一模型的监督信号,结合所述第一输出迭代更新所述第一模型的模型参数,直至所述第一模型满足第一预设条件。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:以所述第一输出为所述第二模型的监督信号,结合所述第二输出迭代更新所述第二模型的模型参数,直至所述第二模型满足第二预设条件。3.根据权利要求1或2所述的方法,其特征在于,所述第一输出包括所述第一模型从所述训练数据中提取的第一特征和基于所述第一特征推理的第一概率分布中的至少一个,所述第二输出包括所述第二模型从所述训练数据中提取的第二特征和基于所述第二特征推理的第二概率分布中的至少一个;所述以所述第二输出为所述第一模型的监督信号,结合所述第一输出迭代更新所述第一模型的模型参数,包括:根据所述第一特征和所述第二特征确定第一对比损失,和/或者,根据所述第一概率分布和所述第二概率分布确定第一相对熵损失;根据所述第一对比损失和所述第一相对熵损失中的至少一个,迭代更新所述第一模型的模型参数。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一对比损失和所述第一相对熵损失中的至少一个,迭代更新所述第一模型的模型参数,包括:根据所述第一对比损失的梯度和所述第一相对熵损失的梯度迭代更新所述第一模型的模型参数;当所述第一模型的监督损失与所述第二模型的监督损失的差值小于第一预设阈值时,停止执行根据所述第一对比损失的梯度迭代更新所述第一模型的模型参数。5.根据权利要求1至4任一项所述的方法,其特征在于,所述第一模型为转换器模型,所述第二模型为卷积神经网络模型。6.根据权利要求1至5任一项所述的方法,其特征在于,所述确定待训练的第一模型和待训练的第二模型,包括:根据用户通过用户界面的选择,确定所述待训练的第一模型和所述待训练的第二模型;或者,根据用户设置的AI任务的类型确定所述待训练的第一模型和所述待训练的第二模型。7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:接收用户通过用户界面配置的训练参数;和/或,根据用户设置的AI任务的类型以及所述第一模型、所述第二模型,确定训练参数。8.根据权利要求7所述的方法,其特征在于,所述训练参数包括训练轮次、优化器类型、学习率更新策略、模型参数初始化方式和训练策略中的一种或多种。9.一种模型训练系统,其特征在于,所述系统包括:
交互单元,用于确定待训练的第一模型和待训练的第二模型,所述第一模型和所述第二模型为异构的两种AI模型;训练单元,用于将训练数据输入所述第一模型和所述第二模型,获得所述第一模型对所述训练数据进行推理后的第一输出,以及所述第二...

【专利技术属性】
技术研发人员:童贝喻晓源
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1