一种基于元学习的主动采样方法技术

技术编号：22817755 阅读：38 留言：0更新日期：2019-12-14 13:23

本发明专利技术公开了一种基于元学习的主动采样方法，该方法借鉴元学习的思想，通过之前得到的主动学任务的经验(MetaData)用一个回归模型M去学习一个查询策略的指标。回归模型M的输入是根据我们设计的一些关于某个未标记样本x和当前分类模型C的底层特征，这些设计的Meta特征与数据集的特征空间和分类模型的形式无关，输出值是衡量x对于提升分类模型C的作用大小；并且，这些Meta特征独立于数据集的特征空间和分类模型的形式，因此具有更好的泛化能力。

An active sampling method based on meta learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于元学习的主动采样方法
本专利技术涉及一种基于元学习的主动采样方法；属于机器学习

技术介绍
在大数据时代的背景下，我们能够轻易地获得大量的未标记数据集，而绝大部分机器学习模型，尤其是深度学习模型都需要大量的有标记样本进行训练。然而，获取有标记样本是十分困难且昂贵的，特别是在需要高度相关的专业知识背景的领域，例如医学图像领域。主动学习的概念正是针对上述问题而提出的，目的是挑选尽可能少的未标记样本进行标记，使得模型的性能达到一个令人满意的效果。目前，大部分主动采样(AL)策略都是针对不同的分类任务而设计相应的指标，在面对不同任务时，没有一种主动采样策略能够明显优于其他策略。因此，研究者提出了许多Meta-AL方法来自动选择最佳策略。但是它们需要对分类模型性能进行可靠的评估以此去选择最佳的策略，因为有标记的数据很少，这往往是不准确的。这些Meta-AL的方法也很难超越现有人为设计AL策略的组合。鉴于上述原因，有必要对采样方法进行改进。
技术实现思路
专利技术目的：为了克服现有技术中存在的不足，本专利技术的目的在于提供一种基于元学习的主动采样方法。为实现上述目的，本专利技术采用的技术方案为：一种基于元学习的主动采样方法，包括以下步骤：(一)通过在大量已有标记的数据集上模拟进行主动学习的过程，根据Meta特征设计规则，获取足够量的MetaData数据；(二)根据步骤(一)中获取的MetaData数据训练Meta回归模型M；(三)在当前主动学习任...

【技术保护点】
1.一种基于元学习的主动采样方法，包括以下步骤：/n(一)通过在大量已有标记的数据集上模拟进行主动学习的过程，根据Meta特征设计规则，获取足够量的MetaData数据；/n(二)根据步骤(一)中获取的MetaData数据训练Meta回归模型M；/n(三)在当前主动学习任务上，根据Meta特征设计规则，计算每个未标记样本的Meta特征；/n(四)将(三)中Meta数据输入至步骤(二)中Meta回归模型M，选择输出值最大的未标记样本，向用户查询真实标记；/n(五)根据得到的真实标记更新分类模型C；/n(六)返回步骤(三)或结束并输出分类模型C。/n

【技术特征摘要】
1.一种基于元学习的主动采样方法，包括以下步骤：
(一)通过在大量已有标记的数据集上模拟进行主动学习的过程，根据Meta特征设计规则，获取足够量的MetaData数据；
(二)根据步骤(一)中获取的MetaData数据训练Meta回归模型M；
(三)在当前主动学习任务上，根据Meta特征设计规则，计算每个未标记样本的Meta特征；
(四)将(三)中Meta数据输入至步骤(二)中Meta回归模型M，选择输出值最大的未标记样本，向用户查询真实标记；
(五)根据得到的真实标记更新分类模型C；
(六)返回步骤(三)或结束并输出分类模型C。

2.根据权利要求1所述的一种基于元学习的主动学习方法，其特征在于：所述步骤(一)在大量已有标记的数据集上获取MetaData数据，具体方法为：
假设当前分类模型为C，当前考虑的未标记样本为x；设MetaData数据集结构为[Z,ΔP]，其中Z为设计的Meta特征，ΔP为分类模型C在加入未标记样本x重新训练后，在测试集上性能前后变化值。

3.根据权利要求2所述的一种基于元学习的主动学习方法，其特征在于：Meta特征Z设计具体细节为：
1)关于数据集的传统的元特征
a)简单的元特征
样本的数量及其对数，特征的数量及其对数，样本数与特征数之比及其对数，特征数与样本数之比及其对数；
b)统计特征
计算所有数值特征的峰度(kurtosis),取其最小值，最大值，均值，标准差；
计算所有数值特征的偏度(skewness),取其最小值，最大值，均值，标准差；
c)PCA统计特征
利用主成分分析PCA的方法，将主成分占比95％的每个成分所解释的方差量进行求和；利用PCA将数据集降维至一维后，计算该特征值的峰度和偏度；
2)样本本身的信息
a)数据集特征维度，所述特征维度为属性维度；
b)已标记的数据集中正样本的比例，负样本的比例；
c)根据当前模型的预测值，计算未标记数据集中，模型预测为正样本的比例，负样本的比例；
d)在整个数据集(包含已标记和未标记)中进行聚类，获取10个聚类中心点ai，并按照每个中心点与x的距离从小到大排序记为aii＝1,2,……10,这10个点的顺序是根据不同的x变化的；计算x与上述10个代表性样本数据点的欧氏距离，并做归一化处理：其中xj是在整个数据集范围内的；
e)按照当前模型对已标记数据集的预测值进行排序，选出10等分点的数据bii＝1,2,……10。计算x与上述10个代表性样本数据点的欧氏距离，并做归一化处理：其中xj是在整个数据集范围内的；
f)按照当前模型对未标记数据集的预测值进行排序，选出10等分点的数据cii＝1,2,……10；计算x与上述10个代表性样本数据点的欧氏距离，并做归一化处理：其中xj是在整个数据集范围内的；
3)模型本身的信息
a)在已标记数据上计算TP、FP、TN、FN的比例；
b)在已标记数据上按照当前模型对已标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化)，并进行排序，选出10等分点的值记录；
c)计算2)中10个值(归一化后)的均值和方差；
d)在未标记数据上，根据当前模型的预测值，计算未标记数据集中，模型预测为正样本的比例，负样本的比例；
e)按照当前模型对未标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化)，并进行排序，选出10等分点的值记录；
f)计算e)中10个值的...

【专利技术属性】
技术研发人员：不公告发明人，
申请(专利权)人：南京智谷人工智能研究院有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人