一种基于知识图和少样本学习的数据偏移方法技术

技术编号：40084398 阅读：8 留言：0更新日期：2024-01-23 15:13

本发明专利技术公开一种基于知识图和少样本学习的数据偏移方法，在实际应用中，由于传感器故障、环境变化等，可能会导致数据集发生偏移，大多数现有的少样本学习方法在设计时并未考虑数据转移，因此当数据分布发生变化时，性能会下降，本发明专利技术使用知识图来表示领域知识，并将领域知识和少样本学习结合起来，利用知识图中的关系信息来指导模型的训练，捕捉数据中的复杂模式，本发明专利技术还提出一种新颖的基于度量的元学习框架，借助知识图谱来提取特定于任务的表示和任务共享的表示，可以通过任务共享和任务特定表示的组合来解决任务内/之间的数据转移，在机械工程领域中实现更加准确和可靠的数据分析。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及工程应用领域中的数据偏移方法，为了解决传感器故障、环境变化等方面可能会导致数据集发生偏移的问题。目前传统的机器学习方法可能会失效，本专利技术能够应用基于知识图和少样本学习的模型对数据偏移的方法进行有效解决提出的一种方案。

技术介绍

1、鉴于对有限标记样本训练模型的迫切需求，少样本学习受到越来越多的关注，关键是解决具有大量参数的模型中的过度拟合问题，并在每个分类类别中的一些可用样本上进行训练。基于元学习(学习学习)策略开发了一套小样本学习方法，即模型在训练阶段接受从训练集中采样的不同学习任务，并且对从测试集中采样的一组新任务进行评估。这些基于元学习的方法已经取得了卓越的性能，可以被认为是避免过度拟合的有前途的选择。

2、值得注意的是，这些方法假设所有样本都来自相同的分布(独立同分布观测值)。在实践中，这个假设通常并不成立。例如，流行的少镜头基准miniimagenet是大规模数据集imagenet的子集，它实际上包含来自互联网上不同来源的数据。换句话说，该数据集中的样本是从不同的分布中抽取的，称为数据分布的偏移(也称为数据偏移)，任务之间(甚至任务内)发生的数据转移问题可能会降低为独立同分布而设计的小样本学习方法的性能。小样本学习中的数据转移问题，并面临以下挑战，(1)任务内数据转移，有限的标记样本数量是小样本学习的关键瓶颈。因此，支持样本(标记样本)的质量极其重要。当发生任务内数据转移时，有限的支持样本包含的信息不足以代表其在不同分布下的类别。

3、(2)任务间数据转移，当从不同的分布中采样

技术实现思路

1、受到典型的小样本学习方法，即原型网络的启发，提出图原型网络(gpn)，它通过图卷积网络(gcn)利用知识边缘图来提取任务共享表示，并使用cnn从每个任务中提取特定于任务的表示。此外，将两种表示结合起来可以产生更稳定的类原型，与标准模型相比，它受样本质量的影响更小。然后通过简单地查找嵌入查询样本的最接近的类原型来执行分类，发现数据转移对之前一些基于度量的元学习方法的性能产生了严重的负面影响，相比之下，这些方法在没有数据转移的情况下可以具有良好的性能。本专利技术利用知识图来指导任务共享表示的学习，将其与特定于任务的表示相结合，在少样本学习中生成适当的类原型。

2、本专利技术的一种基于知识图和少样本学习的数据偏移方法，包含以下步骤：

3、s1：问题设置

4、s2：特定于任务的表示

5、s3：任务共享表示

6、s4:图原型网络

7、进一步地，所述s1的具体方法为：

8、s11、形式上，有一个训练集dtrain和一个测试集dtest，它们的类标签不重叠，现有的标准少样本学习方法假设训练集dtrain和测试集dtest中的所有样本都来自相同的分布，相反，假设样本可以来自不同的分布，并且不知道样本来自哪个分布，目标是通过在数据转移下的小样本学习场景中在dtrain上训练模型来构建dtest的分类器；

9、s12、为了实现这一目标，模型需要接受一组n路k-shot学习任务的训练(即经历元学习阶段)，通过从训练集dtrain中随机选择n个类，然后生成两个集合来构建n路k-shot学习任务，其中包括：1)支持集s＝{(x1,y1),…,(xn×k,yn×k)}包含n个选定类别中每个类别的k个样本；2)查询集q，其包含多个不同样本，其类别是n个选定类别；在训练过程中，对于构造的学习任务，将支持集s馈送到模型中，然后更新模型的参数以最小化其对查询集q中的样本的预测的损失，在测试过程中，从测试集dtest中采样n路k-shot测试任务以及支持集s和查询集q，这与训练任务的构造类似，查询集中样本的标签是在支持集的帮助下预测的。

10、进一步地，所述s2的具体方法为：

11、s21、受原型网络的启发，使用支持集通过嵌入函数f(·)计算每个类(也称为原型)的v维表示e∈rv，对于每个任务，原型en被定义为来自同一类n的支持样本嵌入的平均向量，即：

12、

13、其中sn∈s是支持集s的子集(带有n类标签)，通过上式可以发现en的质量很大程度上取决于特定任务的支持集s，换句话说，同一类别的原型e的质量因一项任务而异，而另一项任务则包含特定于任务的信息，为了方便起见，使用来表示由f(·)为类n提取的特定于任务的原型。

14、进一步地，所述s3的具体方法为：

15、s31、为了解决任务内和任务间数据转移，两个关键思想是学习稳定的任务共享表示和如上所述的桥接类别，利用知识图谱，可以捕获稳定的类别语义信息以及连接所有类别的语义关系，即使样本来自不同的分布，它们通常共享类别的词向量中编码的辅助知识以及类别之间的先验语义关系，因此，知识图谱可以驱动稳定的任务共享表示的学习，并弥合学习任务和测试任务类别之间的差距；

16、s32、首先构造一个图(有l个节点)，每个节点表示一个j维向量，代表一个不同的概念(类的名称)，将具有足够标记样本(在dtrain中)的类别中包含的知识转移到学习具有少量标记样本(在dtest中)的类别，利用wordnet中的辅助节点构建从dtrain中的类别到dtest中的类别的路径，每个节点都使用类标签名称的词向量进行初始化，知识图谱(例如wordnet)中类之间的关系以对称邻接矩阵a∈r l×l的形式编码，采用传播规则对图进行卷积；

17、

18、其中h(l)表示第l层的激活，θ(l)表示第l层的可训练权重矩阵，d∈rl×l是度矩阵，其中dii＝∑jaij，对于第一层，h(0)∈rl×j由l个词向量组成，gcng(·)被训练来预测所有类别的任务共享原型，即eshare＝g(h(0))，其中eshare表示任务共享原型，由组成(其中n表示类别)。

19、进一步地，所述s4的具体方法为：

20、s41、通过使用图原型网络(gpn)中，cnn f(·)用于提取特定于任务的原型，特别是会受到支持集s质量影响的原型，并将每个知识图谱节点对应的词向量作为gcn g(·)的输入来提取任务共享原型eshare，特定任务原型和任务共享原型相结合，生成每个类的稳定原型，即：

21、

22、其中λ∈[0,1]是特定任务表示和任务共享表示之间的权衡参数，对于查询示例x，gpn根据f(x)与嵌入空间中的原型之间的距离的softmax运算来预测其类标签，即

23、

24、其中d(·,·)表示欧氏距离。整体损失函数定义为查询集q上的交叉熵损失，即

25、

26、s4本文档来自技高网...

【技术保护点】

1.一种基于知识图和少样本学习的数据偏移方法，其特征在于包含以下步骤：

2.根据权利要求1所述的一种基于知识图和少样本学习的数据偏移方法，其特征在于步骤S1中具体描述为；

3.根据权利要求1所述的一种基于知识图和少样本学习的数据偏移方法，其特征在于步骤S2的具体方法为：

4.根据权利要求1所述的一种基于知识图和少样本学习的数据偏移方法，其特征在于步骤S3中的具体方法为：

5.根据权利要求1所述的一种基于知识图和少样本学习的数据偏移方法，其特征在于步骤S4中的具体步骤为：

【技术特征摘要】

1.一种基于知识图和少样本学习的数据偏移方法，其特征在于包含以下步骤：

2.根据权利要求1所述的一种基于知识图和少样本学习的数据偏移方法，其特征在于步骤s1中具体描述为；

3.根据权利要求1所述的一种基于知识图和少样本学习的数据偏移方法，...

【专利技术属性】
技术研发人员：陈昱绰，朱峰，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人