基于元学习的神经网络训练方法及神经网络技术

技术编号:35050035 阅读:11 留言:0更新日期:2022-09-28 10:48
本发明专利技术提供了基于元学习的神经网络训练方法、由该方法训练得到的神经网络以及非瞬时性计算机可读存储介质。该方法包括:提供元模型神经网络;利用少样本训练数据集,通过元学习算法,对所述元模型神经网络进行训练,以得到经过少样本训练的元模型神经网络参数,其中所述少样本训练数据集仅包括已知类别的少样本训练数据;以及利用测试数据集,通过开放集识别方法,对经过训练的元模型神经网络进行优化,其中所述测试数据集既包括已知类别的测试数据,还包括未知类别的测试数据。还包括未知类别的测试数据。还包括未知类别的测试数据。

【技术实现步骤摘要】
基于元学习的神经网络训练方法及神经网络


[0001]本申请涉及人工智能领域,具体涉及基于元学习的神经网络训练方法、由该方法训练得到的神经网络以及非瞬时性计算机可读存储介质。

技术介绍

[0002]少样本学习是实际应用机器学习算法时会遇到的问题。少样本学习主要解决当某一类别图像在训练时标注数据很少的情况下,如何训练模型区分出这一类图像的问题。针对少样本学习,现有的常用方法包括原型网络、关系网络和匹配网络。
[0003]开放集识别也是实际应用机器学习算法时会遇到的问题。开放集识别主要解决在模型部署时,遇到不在训练类别的输入时,如何区分出来这些图像的问题。针对开放集识别,现有的常用方法包括OpenMax和Counterfactual。
[0004]目前,现有技术中还没有技术方案能够在一个统一框架下解决这两个问题。也就是说,现有技术没有直接针对少样本和开放集两类设定同时出现的场景。由于之前针对少样本学习的方法无法处理开放集识别的问题,所以只能混合使用现有的少样本学习和开放集识别的方法处理这种新的场景。训练得到的模型在分类精度,以及开放集样本检测这两个指标上表现都不高。

技术实现思路

[0005]基于此,本专利技术提供了一种基于元学习的神经网络训练方法,其包括:
[0006]S101:提供元模型神经网络;
[0007]S102:利用少样本训练数据集,通过元学习算法,对所述元模型神经网络进行训练,以得到经过少样本训练的元模型神经网络参数,其中所述少样本训练数据集仅包括已知类别的少样本训练数据;以及
[0008]S103:利用测试数据集,通过开放集识别方法,对经过训练的元模型神经网络进行优化,其中所述测试数据集既包括已知类别的测试数据,还包括未知类别的测试数据。
[0009]根据一个实施方式,该方法还包括:
[0010]重复执行步骤S102和S103,以得到多次迭代训练优化的元模型神经网络。
[0011]根据一个实施方式,步骤S103包括:
[0012]将所述测试数据集中的测试数据输入经过训练的元模型神经网络,以得到所述测试数据的分类结果;
[0013]根据分类结果,计算所述测试数据的损失函数;以及
[0014]基于所述损失函数,对所述元模型神经网络的参数进行优化。
[0015]根据一个实施方式,根据分类结果,计算所述测试数据的损失函数包括:
[0016]计算所述已知类别的测试数据在所述已知类别上的交叉熵作为第一损失函数;以及
[0017]计算所述未知类别的测试数据在所述已知类别上的交叉熵作为第二损失函数。
[0018]根据一个实施方式,基于所述损失函数,对所述元模型神经网络的参数进行优化包括:
[0019]以使所述第一损失函数最小化为条件,按照所述第一损失函数对应的梯度更新所述元模型神经网络的参数;以及
[0020]以使所述第二损失函数最大化为条件,按照所述第二损失函数对应的梯度更新所述元模型神经网络的参数。
[0021]根据一个实施方式,该方法还包括:
[0022]将每个已知类别的训练数据和测试数据在特征空间中的分布形状预设为椭球形。
[0023]根据一个实施方式,步骤S101包括:
[0024]对所述元模型神经网络的参数进行随机初始化。
[0025]根据一个实施方式,所述元模型神经网络是resnet

18神经网络。
[0026]根据本专利技术的另一方面,提供了一种神经网络,其通过如上所述的神经网络训练方法进行训练后得到。
[0027]根据本专利技术的又一方面,提供了一种非瞬时性计算机可读存储介质,具有存储于其上的指令,其中所述指令当被处理器执行时,实施如上所述的神经网络训练方法。
[0028]由此,由于少样本训练数据集仅包括已知类别的少样本训练数据,所以通过少样本训练数据集训练后的元模型神经网络能够解决少样本学习的问题。由于测试数据集不仅包括了已知类别的测试数据,还包括了未知类别的测试数据,因此通过测试数据集优化后的元模型神经网络还能够解决开放集识别的问题。因此,在经过了少样本训练数据集的训练,并经过了测试数据集的优化后,所得到的元模型神经网络能够同时解决少样本学习和开放集识别两个问题。
附图说明
[0029]图1示出了根据本申请一个实施方式基于元学习的神经网络训练方法的流程图。
[0030]图2示出了根据本申请一个实施方式基于元学习的神经网络训练方法的执行实例的示意图。
[0031]图3示出了根据本申请一个实施方式对经过训练的元模型神经网络进行优化的流程图。
[0032]图4示出了根据本申请另一实施方式基于元学习的神经网络训练方法的流程图。
具体实施方式
[0033]在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本专利技术的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
[0034]在本专利技术的描述中,需要理解的是,术语"中心"、"纵向"、"横向"、"长度"、"宽度"、"厚度"、"上"、"下"、"前"、"后"、"左"、"右"、"竖直"、"水平"、"顶"、"底"、"内"、"外"、"顺时针"、"逆时针"等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语"第一"、"第二"仅
用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有"第一"、"第二"的特征可以明示或者隐含地包括一个或者更多个所述特征。在本专利技术的描述中,"多个"的含义是两个或两个以上,除非另有明确具体的限定。
[0035]在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语"安装"、"相连"、"连接"应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接:可以是机械连接,也可以是电连接或可以相互通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。
[0036]在本专利技术中,除非另有明确的规定和限定,第一特征在第二特征之"上"或之"下"可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征"之上"、"上方"和"上面"包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征"之下"、"下方"和"下面"包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度小于第二特征。
[0037]下文的公开提供了许多不同的实施方式或例子用来实现本专利技术的不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于元学习的神经网络训练方法,包括:S101:提供元模型神经网络;S102:利用少样本训练数据集,通过元学习算法,对所述元模型神经网络进行训练,以得到经过少样本训练的元模型神经网络参数,其中所述少样本训练数据集仅包括已知类别的少样本训练数据;以及S103:利用测试数据集,通过开放集识别方法,对经过训练的元模型神经网络进行优化,其中所述测试数据集既包括已知类别的测试数据,还包括未知类别的测试数据。2.如权利要求1所述的神经网络训练方法,还包括:重复执行步骤S102和S103,以得到多次迭代训练优化的元模型神经网络。3.如权利要求1所述的神经网络训练方法,其中步骤S103包括:将所述测试数据集中的测试数据输入经过训练的元模型神经网络,以得到所述测试数据的分类结果;根据分类结果,计算所述测试数据的损失函数;以及基于所述损失函数,对所述元模型神经网络的参数进行优化。4.如权利要求3所述的神经网络训练方法,其中根据分类结果,计算所述测试数据的损失函数包括:计算所述已知类别的测试数据在所述已知类别上的交叉熵作为第一损失函数;以及计算所述未知类别的测试数据在所...

【专利技术属性】
技术研发人员:李皓翔刘博康昊华刚
申请(专利权)人:虫极科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1