基于上下文记忆和细粒度校准的小样本学习方法和装置制造方法及图纸

技术编号:27242916 阅读:33 留言:0更新日期:2021-02-04 12:15
本发明专利技术公开了一种基于上下文记忆和细粒度校准的小样本学习方法和装置。该方法在小样本学习中模仿人类的认知机制,结合一个由“粗”到“细”的学习过程,首先通过一个类敏感的上下文记忆网络从全局特征的角度来学习具有判别性的关系嵌入,并预测全局query

【技术实现步骤摘要】
基于上下文记忆和细粒度校准的小样本学习方法和装置


[0001]本专利技术涉及一种小样本学习方法,尤其涉及一种基于上下文记忆和细粒度校准的小样本学习方法,同时也涉及相应的小样本学习装置,属于机器学习


技术介绍

[0002]数据是机器学习领域的重要资源,在数据缺少的情况下如何训练模型呢?小样本学习(Few-shot Learning)是其中一个有效的解决方案。小样本学习是指在样本稀疏(每个类别可能只有一个或几个有限的样本)的条件下,研究如何从一个或几个有限的样本中提取有效的概念,使模型能够快速适应这些新的不可见类别。
[0003]近年来,人们先后提出了多种小样本学习方法。这些方法大致可分为基于优化的小样本学习方法、基于生成的小样本学习方法和基于度量的小样本学习方法。在基于优化的小样本学习方法中,首先在一系列学习任务上训练所需的元学习器,并且不断优化它以获得在目标任务分布(包括潜在的不可见任务)上的最佳性能。在基于生成的小样本学习方法中,尝试使用生成元学习器来扩充小样本数据或学习预测新类别的分类权重。在基于度量的小样本学习方法中,通过对共享特征空间中的支持和查询样本特征进行比较来进行分类,取得了较好的效果。2016年的早期研究将情景训练机制引入到小样本学习中,利用双向LSTM(长短期记忆网络)在整个支持集的上下文中对每个支持样本进行编码,并通过注意机制将查询样本与支持样本进行匹配。
[0004]现有的小样本学习方法大多聚焦于从每个样本中抽象全局信息。这与人类的认知机制是一致的。人类的认知机制通常首先从全局的角度进行粗略的识别。但是在实践中,当从全局的角度难以区分对象时,人类会进一步求助于局部的细节特征。为了弥补现有方法的不足,近期的一些研究提出从局部角度提取细微差异,并在细粒度数据集上取得了较好的结果。但是,只关注全局或局部特征,现有方法仍然不能在具有多种类别的数据集上提供强大的泛化能力。
[0005]在申请号为201910600332.6的中国专利申请中,国防科技大学提出一种面向多模态数据的小样本机器学习方法。该方法针对多模态数据在小样本条件下的识别分类典型应用,采用多模态数据编码、层级池化以及关系网络学习的方式,在少量标签样本支持条件下,能够对新类别数据进行快速识别分类,取得了优于当前几种典型算法的识别准确率,具备较好的表征能力和泛化能力。

技术实现思路

[0006]本专利技术所要解决的首要技术问题在于提供一种基于上下文记忆和细粒度校准的小样本学习方法。
[0007]本专利技术所要解决的另一技术问题在于提供一种基于上下文记忆和细粒度校准的小样本学习装置。
[0008]为了实现上述目的,本专利技术采用下述的技术方案:
[0009]根据本专利技术实施例的第一方面,提供一种基于上下文记忆和细粒度校准的小样本学习方法,包括如下步骤:
[0010]S1,从数据集中随机采样预定的任务;
[0011]S2,加载多层卷积神经网络和类敏感的上下文记忆网络的参数,利用特征提取网络提取该任务中每个样本的局部特征和全局特征;
[0012]S3,通过循环神经网络的状态更新机制进行隐状态更新;
[0013]S4,使用双向更新机制获得最终的关系嵌入;
[0014]S5,通过类敏感的上下文记忆网络从全局特征的角度学习具有判别性的关系嵌入,然后预测全局query-to-class相似度;
[0015]S6,计算预测可靠性τ;
[0016]S7,如果τ>τ0,将全局query-to-class相似度最高的类别作为最终的分类结果;否则,进一步计算局部query-to-class相似度,获得最终的分类结果。
[0017]其中较优地,所述步骤S1中,从训练集或测试集中采用随机采样的方法获取训练任务或测试任务;
[0018]所述训练任务或测试任务中,包含了一个支撑集合和一个查询集合所述支撑集合包含了N个不同的类别,每个类别包含K个已知标签的样本;所述查询集合中包含了T个未知标签的样本;其中,K、N、T均为正整数。
[0019]其中较优地,所述步骤S2中,利用多层卷积神经网络对采样得到的任务中的每个样本进行特征提取,得到每个样本的三维的局部特征,然后通过全连接层或全局池化将局部特征转换为一维的全局特征。
[0020]其中较优地,所述多层卷积神经网络是WideResNet或者ResNet。
[0021]其中较优地,所述步骤S3包括如下子步骤:
[0022]S31,对循环神经网络的信息流进行修改,增加残差连接;
[0023]S32,考虑前两次迭代的历史信息,将二者进行线性叠加之后作为循环神经网络更新前的隐状态变量,通过循环神经网络的状态更新机制进行隐状态更新。
[0024]其中较优地,所述步骤S4包括如下子步骤:
[0025]使用双向更新机制进一步学习上下文信息,将从两个相反的方向输出的隐藏状态进行拼接,作为最终的关系嵌入。
[0026]其中较优地,所述步骤S5中,所述全局query-to-class相似度的计算公式为:
[0027][0028]其中为根据每个关系嵌入学习得到的相似度评分。
[0029]其中较优地,所述步骤S6中,从全局query-to-class相似度的计算结果中选出相似度最高的两个类别和通过下式计算二者的预测可靠性τ:
[0030][0031]其中较优地,所述步骤S7中,将τ和预先设置的可靠性阈值τ0进行比较,若τ的值大于设定的可靠性阈值τ0,则将预测概率最高的类别视为最后结果,否则将类别和判定为难以区分类别,进行细粒度校准,获得更精确的局部query-to-class的相似性。
[0032]根据本专利技术实施例的第二方面,提供一种基于上下文记忆和细粒度校准的小样本学习装置,包括处理器和存储器,所述处理器读取所述存储器中的计算机程序,用于执行以下操作:
[0033]S1,从数据集中随机采样预定的任务;
[0034]S2,加载多层卷积神经网络和类敏感的上下文记忆网络的参数,利用特征提取网络提取该任务中每个样本的局部特征和全局特征;
[0035]S3,通过循环神经网络的状态更新机制进行隐状态更新;
[0036]S4,使用双向更新机制获得最终的关系嵌入;
[0037]S5,通过类敏感的上下文记忆网络从全局特征的角度学习具有判别性的关系嵌入,然后预测全局query-to-class相似度;
[0038]S6,计算预测可靠性τ;
[0039]S7,如果τ>τ0,将全局query-to-class相似度最高的类别作为最终的分类结果;否则,进一步计算局部query-to-class相似度,获得最终的分类结果。
[0040]与现有技术相比较,本专利技术在小样本学习中模仿人类的认知机制,结合一个由“粗”到“细”的学习过程,首先通过一个类敏感的上下文记忆网络从全局特征的角度来学习具有判别性的关系嵌入,并预测全局query-to本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于上下文记忆和细粒度校准的小样本学习方法,其特征在于包括如下步骤:S1,从数据集中随机采样预定的任务;S2,加载多层卷积神经网络和类敏感的上下文记忆网络的参数,利用特征提取网络提取该任务中每个样本的局部特征和全局特征;S3,通过循环神经网络的状态更新机制进行隐状态更新;S4,使用双向更新机制获得最终的关系嵌入;S5,通过类敏感的上下文记忆网络从全局特征的角度学习具有判别性的关系嵌入,然后预测全局query-to-class相似度;S6,计算预测可靠性τ;S7,如果τ>τ0,将全局query-to-class相似度最高的类别作为最终的分类结果;否则,进一步计算局部query-to-class相似度,获得最终的分类结果。2.如权利要求1所述的小样本学习方法,其特征在于:所述步骤S1中,从训练集或测试集中采用随机采样的方法获取训练任务或测试任务;所述训练任务或测试任务中,包含了一个支撑集合和一个查询集合所述支撑集合包含了N个不同的类别,每个类别包含K个已知标签的样本;所述查询集合中包含了T个未知标签的样本;其中,K、N、T均为正整数。3.如权利要求1所述的小样本学习方法,其特征在于:所述步骤S2中,利用多层卷积神经网络对采样得到的任务中的每个样本进行特征提取,得到每个样本的三维的局部特征,然后通过全连接层或全局池化将局部特征转换为一维的全局特征。4.如权利要求3所述的小样本学习方法,其特征在于:所述多层卷积神经网络是WideResNet或者ResNet。5.如权利要求1所述的小样本学习方法,其特征在于所述步骤S3包括如下子步骤:S31,对循环神经网络的信息流进行修改,增加残差连接;S32,考虑前两次迭代的历史信息,将二者进行线性叠加之后作为循环神经网络更新前的隐状态变量,通过循环神经网络的状态更新机制进行...

【专利技术属性】
技术研发人员:刘祥龙马宇晴刘卫白世豪
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1