迁移学习模型的确定方法、装置、设备及存储介质制造方法及图纸

技术编号:35068979 阅读:13 留言:0更新日期:2022-09-28 11:29
本申请公开了一种迁移学习模型的确定方法、装置、设备及存储介质,属于计算机与互联网技术领域。所述方法包括:从至少一个候选迁移学习模型中确定多个候选网络层;基于候选网络层对训练样本集合进行处理,得到样本编码信息熵和多个类别分别对应的类别编码信息熵;根据样本编码信息熵和多个类别编码信息熵,确定候选网络层的迁移率;基于各个候选网络层分别对应的迁移率,根据迁移率满足第一条件的候选网络层构建针对训练样本集合的迁移学习模型。本申请中,提供了一种在迁移学习之前评估迁移学习效果的方式,无需迁移学习即能够评估候选网络层对训练样本集合的迁移学习效果,以快速准确地确定针对训练样本集合的最优候选网络层。确地确定针对训练样本集合的最优候选网络层。确地确定针对训练样本集合的最优候选网络层。

【技术实现步骤摘要】
迁移学习模型的确定方法、装置、设备及存储介质


[0001]本申请涉及计算机与互联网
,特别涉及一种迁移学习模型的确定方法、装置、设备及存储介质。

技术介绍

[0002]在模型学习过程中,通过迁移学习可以将某个任务开发的模型应用至其它任务的模型训练中。
[0003]目前,在迁移学习时,根据目标任务与源任务之间的关联关系,确定适用于目标任务的一个或多个迁移学习模型,之后,在存在多个迁移学习模型的情况下,采用该目标任务的训练样本集合分别对各个迁移学习模型进行训练,以得到适用于该目标任务的多个深度学习模型。之后,对该多个深度学习模型,通过测试确定各个深度学习模型的输出结果的准确率,以确定各个深度学习模型在本次迁移学习后的迁移学习效果,将准确率最高,即迁移学习效果最好的深度学习模型确定为目标任务最终的训练模型。
[0004]然而,在经过迁移学习得到深度学习模型后才能够对迁移学习效果进行评估,在存在多个迁移学习模型的情况下,无法快速确定目标任务对应的最优迁移学习模型。

技术实现思路

[0005]本申请实施例提供了一种迁移学习模型的确定方法、装置、设备及存储介质,提供了一种在迁移学习之前评估迁移学习效果的方式,能够快速准确地确定针对训练样本集合的最优候选网络层。所述技术方案如下。
[0006]根据本申请实施例的一个方面,提供了一种迁移学习模型的确定方法,所述方法包括以下步骤:
[0007]从至少一个候选迁移学习模型中确定多个候选网络层,一个候选迁移学习模型对应至少一个候选网络层;其中,不同的候选迁移学习模型是基于不同的训练数据训练得到的模型;
[0008]基于所述候选网络层对训练样本集合进行处理,得到样本编码信息熵和多个类别分别对应的类别编码信息熵,所述训练样本集合中包括属于不同类别的训练样本;其中,所述样本编码信息熵用于指示所述训练样本集合中的训练样本编码后所包含的信息量,所述类别对应的类别编码信息熵用于指示所述训练样本集合中属于所述类别的训练样本编码后所包含的信息量;
[0009]根据所述样本编码信息熵和所述多个类别编码信息熵,确定所述候选网络层的迁移率,所述迁移率用于指示所述候选网络层针对所述训练样本集合的迁移学习效果;
[0010]基于各个所述候选网络层分别对应的迁移率,根据迁移率满足第一条件的候选网络层构建针对所述训练样本集合的迁移学习模型。
[0011]根据本申请实施例的一个方面,提供了一种迁移学习模型的确定装置,所述装置包括以下模块:
[0012]网络层确定模块,用于从至少一个候选迁移学习模型中确定多个候选网络层,一个候选迁移学习模型对应至少一个候选网络层;其中,不同的候选迁移学习模型是基于不同的训练数据训练得到的模型;
[0013]样本处理模块,用于基于所述候选网络层对训练样本集合进行处理,得到样本编码信息熵和多个类别分别对应的类别编码信息熵,所述训练样本集合中包括属于不同类别的训练样本;其中,所述样本编码信息熵用于指示所述训练样本集合中的训练样本编码后所包含的信息量,所述类别对应的类别编码信息熵用于指示所述训练样本集合中属于所述类别的训练样本编码后所包含的信息量;
[0014]迁移率确定模块,用于根据所述样本编码信息熵和所述多个类别编码信息熵,确定所述候选网络层的迁移率,所述迁移率用于指示所述候选网络层针对所述训练样本集合的迁移学习效果;
[0015]模型构建模块,用于基于各个所述候选网络层分别对应的迁移率,根据迁移率满足第一条件的候选网络层构建针对所述训练样本集合的迁移学习模型。
[0016]根据本申请实施例的一个方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现上述迁移学习模型的确定方法。
[0017]根据本申请实施例的一个方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现上述迁移学习模型的确定方法。
[0018]根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述迁移学习模型的确定方法。
[0019]本申请实施例提供的技术方案可以带来如下有益效果:
[0020]通过样本编码信息熵和类别编码信息熵确定候选网络层的迁移率,以此确定候选网络层针对训练样本集合的迁移学习效果,提供了一种在迁移学习之前评估迁移学习效果的方式,无需迁移学习即能够评估候选网络层对训练样本集合的迁移学习效果,以快速准确地确定针对训练样本集合的最优候选网络层;而且,根据候选网络层的迁移率,以网络层为基本单位确定迁移学习效果,提高了迁移率的判断精度,对于同一候选迁移学习模型,能够确定该候选迁移学习模型中适合迁移学习的最优网络层,进一步地,在后续能够以网络层为基本单位构建迁移学习模型,从侧面降低了初始构建的迁移学习模型与最终训练得到的迁移学习模型之间的差异,提高了迁移学习模型的训练效率。
附图说明
[0021]图1是本申请一个实施例提供的迁移学习模型的确定系统的示意图;
[0022]图2示例性示出了一种迁移学习模型的确定系统的示意图;
[0023]图3是本申请一个实施例提供的迁移学习模型的确定方法的流程图;
[0024]图4示例性示出了一种候选迁移网络的迁移率获取方式的示意图;
[0025]图5示例性示出了一种迁移学习模型的构建方式的示意图;
[0026]图6示例性示出了另一种迁移学习模型的构建方式的示意图;
[0027]图7示例性示出了一种应用于图像分类任务中迁移学习模型的确定方法的流程的示意图;
[0028]图8示例性示出了一种化学分子结构分类任务中迁移学习模型的确定方法的流程的示意图;
[0029]图9是本申请一个实施例提供的迁移学习模型的确定装置的框图;
[0030]图10是本申请另一个实施例提供的迁移学习模型的确定装置的框图;
[0031]图11是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
[0032]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0033]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种迁移学习模型的确定方法,其特征在于,所述方法包括:从至少一个候选迁移学习模型中确定多个候选网络层,一个候选迁移学习模型对应至少一个候选网络层;其中,不同的候选迁移学习模型是基于不同的训练数据训练得到的模型;基于所述候选网络层对训练样本集合进行处理,得到样本编码信息熵和多个类别分别对应的类别编码信息熵,所述训练样本集合中包括属于不同类别的训练样本;其中,所述样本编码信息熵用于指示所述训练样本集合中的训练样本编码后所包含的信息量,所述类别对应的类别编码信息熵用于指示所述训练样本集合中属于所述类别的训练样本编码后所包含的信息量;根据所述样本编码信息熵和所述多个类别编码信息熵,确定所述候选网络层的迁移率,所述迁移率用于指示所述候选网络层针对所述训练样本集合的迁移学习效果;基于各个所述候选网络层分别对应的迁移率,根据迁移率满足第一条件的候选网络层构建针对所述训练样本集合的迁移学习模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述候选网络层对训练样本集合进行处理,得到样本编码信息熵和多个类别分别对应的类别编码信息熵,包括:基于所述候选网络层对训练样本集合进行处理,得到样本特征矩阵和多个类别分别对应的类别特征矩阵;根据所述样本特征矩阵确定样本编码信息熵;根据各个所述类别对应的类别特征矩阵,确定各个所述类别分别对应的类别编码信息熵。3.根据权利要求2所述的方法,其特征在于,所述基于所述候选网络层对训练样本集合进行处理,得到样本特征矩阵和多个类别分别对应的类别特征矩阵,包括:基于所述候选网络层的特征提取函数,分别对所述训练样本集合中的各个训练样本进行处理,得到各个所述训练样本分别对应的特征向量;根据各个所述训练样本分别对应的特征向量,构建所述样本特征矩阵;其中,所述样本特征矩阵中第一目标列的数据为第一目标训练样本的特征向量;对于所述训练样本集合中属于目标类别的至少一个训练样本,根据属于所述目标类别的各个训练样本分别对应的特征向量,构建所述目标类别对应的类别特征矩阵;其中,所述目标类别对应的类别特征矩阵中第二目标列的数据为属于所述目标类别的第二目标训练样本的特征向量。4.根据权利要求2所述的方法,其特征在于,所述根据所述样本特征矩阵确定样本编码信息熵,包括:获取所述训练样本对应的特征向量的维度,以及针对所述训练样本的编码精确率;根据所述训练样本对应的特征向量的维度,以及针对所述训练样本的编码精确率,确定将所述样本特征矩阵压缩为所述编码精确率所指示的编码所需的编码长度;基于所述编码长度确定所述样本编码信息熵。5.根据权利要求1所述的方法,其特征在于,所述从至少一个候选迁移学习模型中确定多个候选网络层,包括:基于所述训练样本集合的训练任务,将与所述训练任务相关联的关联任务对应的训练
模型确定为所述候选迁移学习模型;对所述候选迁移学习模型包含的网络层进行采样,得到所述候选迁移学习模型对应的至少一个...

【专利技术属性】
技术研发人员:黄隆锴
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1