一种基于元学习的主动采样方法技术

技术编号:22817755 阅读:38 留言:0更新日期:2019-12-14 13:23
本发明专利技术公开了一种基于元学习的主动采样方法,该方法借鉴元学习的思想,通过之前得到的主动学任务的经验(MetaData)用一个回归模型M去学习一个查询策略的指标。回归模型M的输入是根据我们设计的一些关于某个未标记样本x和当前分类模型C的底层特征,这些设计的Meta特征与数据集的特征空间和分类模型的形式无关,输出值是衡量x对于提升分类模型C的作用大小;并且,这些Meta特征独立于数据集的特征空间和分类模型的形式,因此具有更好的泛化能力。

An active sampling method based on meta learning

【技术实现步骤摘要】
一种基于元学习的主动采样方法
本专利技术涉及一种基于元学习的主动采样方法;属于机器学习

技术介绍
在大数据时代的背景下,我们能够轻易地获得大量的未标记数据集,而绝大部分机器学习模型,尤其是深度学习模型都需要大量的有标记样本进行训练。然而,获取有标记样本是十分困难且昂贵的,特别是在需要高度相关的专业知识背景的领域,例如医学图像领域。主动学习的概念正是针对上述问题而提出的,目的是挑选尽可能少的未标记样本进行标记,使得模型的性能达到一个令人满意的效果。目前,大部分主动采样(AL)策略都是针对不同的分类任务而设计相应的指标,在面对不同任务时,没有一种主动采样策略能够明显优于其他策略。因此,研究者提出了许多Meta-AL方法来自动选择最佳策略。但是它们需要对分类模型性能进行可靠的评估以此去选择最佳的策略,因为有标记的数据很少,这往往是不准确的。这些Meta-AL的方法也很难超越现有人为设计AL策略的组合。鉴于上述原因,有必要对采样方法进行改进。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术的目的在于提供一种基于元学习的主动采样方法。为实现上述目的,本专利技术采用的技术方案为:一种基于元学习的主动采样方法,包括以下步骤:(一)通过在大量已有标记的数据集上模拟进行主动学习的过程,根据Meta特征设计规则,获取足够量的MetaData数据;(二)根据步骤(一)中获取的MetaData数据训练Meta回归模型M;(三)在当前主动学习任务上,根据Meta特征设计规则,计算每个未标记样本的Meta特征;(四)将(三)中Meta数据输入至步骤(二)中Meta回归模型M,选择输出值最大的未标记样本,向用户查询真实标记;(五)根据得到的真实标记更新模型;(六)返回步骤(三)或结束并输出分类模型C。进一步的,所述步骤(一)在大量已有标记的数据集上获取MetaData数据,具体方法为:假设当前分类模型为C,当前考虑的未标记样本为x;设MetaData数据集结构为[Z,ΔP],其中Z为设计的Meta特征,ΔP为分类模型C在加入未标记样本x重新训练后,在测试集上性能前后变化值,其中Meta特征Z设计具体细节为:1)关于数据集的传统的元特征(共19维)a)简单的元特征样本的数量及其对数,特征的数量及其对数,样本数与特征数之比及其对数,特征数与样本数之比及其对数;b)统计特征计算所有数值特征的峰度(kurtosis),取其最小值,最大值,均值,标准差;计算所有数值特征的偏度(skewness),取其最小值,最大值,均值,标准差;c)PCA统计特征利用主成分分析PCA的方法,将主成分占比95%的每个成分所解释的方差量进行求和;利用PCA将数据集降维至一维后,计算该特征值的峰度和偏度。2)样本本身的信息(共35维)a)数据集特征维度(属性维度);b)已标记的数据集中正样本的比例,负样本的比例;c)根据当前模型的预测值,计算未标记数据集中,模型预测为正样本的比例,负样本的比例;d)在整个数据集(包含已标记和未标记)中进行聚类,获取10个聚类中心点ai,并按照每个中心点与x的距离从小到大排序记为aii=1,2,……10(这10个点的顺序是根据不同的x变化的)。计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:其中xj是在整个数据集范围内的;e)按照当前模型对已标记数据集的预测值进行排序,选出10等分点的数据bii=1,2,……10。计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:其中xj是在整个数据集范围内的;f)按照当前模型对未标记数据集的预测值进行排序,选出10等分点的数据cii=1,2,……10。计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:其中xj是在整个数据集范围内的。3)模型本身的信息(共180维)a)在已标记数据上计算TP、FP、TN、FN的比例;b)在已标记数据上按照当前模型对已标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化),并进行排序,选出10等分点的值记录;c)计算2)中10个值(归一化后)的均值和方差;d)在未标记数据上,根据当前模型的预测值,计算未标记数据集中,模型预测为正样本的比例,负样本的比例;e)按照当前模型对未标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化),并进行排序,选出10等分点的值记录;f)计算e)中10个值的均值和方差;g)将在此轮之前的五轮主动学习过程中,上述a)到f)的特征全部用作本轮的特征。4)模型在样本上预测的信息(共181维)首先根据当前模型对整个数据集的预测值,做归一化处理;a)记录C(x);b)计算当前C(x)与a,b,c三组共30个样本预测值的差;c)将在此轮之前的五轮主动学习过程中,上述1)到2)的特征全部用作本轮的特征(注意a、b、c三组样本都是本轮选出来的,而不是前5轮选出的)。其中ΔP为分类模型C在加入未标记样本x重新训练后,在测试集上性能前后变化值。模型的性能在本文中选取为模型在测试集上的准确率,针对不同任务可以选择不同的评测标准。进一步的所述步骤(三)在当前主动学习任务上,根据Meta特征设计规则,计算每个未标记样本的Meta特征,并在步骤(四)中利用步骤(二)中训练好的回归模型M输出值最大的未标记样本,具体方法为:x*=argmaxx∈UM(φ(x,C))其中φ(x,C)是按照步骤(一)中设计的Meta特征,根据当前模型C和未标记样本x计算出对应的Meta特征,M是根据步骤(二)训练得到的回归模型,x*即为主动学习过程中被挑选出,给人类专家进行标注的未标记样本。步骤(一)中,在已有标记数据集上获取MetaData的步骤如下:S11、从已有标记的数据集D={D1,…,Dn}中挑选一个数据集D;S12、将该数据集随机划分成训练集和测试集T;S13、针对训练进一步划分成有标记样本集L和未标记样本集U,用于模拟主动学习的过程;S14、依次随机地从U中选取5个样本加入至L,生成主动学习前五轮数据;S15、根据当前有标记集L训练分类模型C,并在测试集T上获的性能评分p0;S16、用生成MetaData数据,从U中随机挑选一个样本x加入L中,重新训练模型C,然后根据当前分类模型C计算x的Meta特征Z=φ(x,C);S17、将在x加入L中后重新训练的分类模型C在测试集T上获的性能评分p1,计算ΔP=p1-p0分类模型C性能变化值,生成MetaData数据[Z,ΔP];S18、判断训练集划分成L和U的次数是否达到要求数量,若达到要求,跳至S19,否则转至步骤S13;S19、判断训练集和测试集的划分本文档来自技高网...

【技术保护点】
1.一种基于元学习的主动采样方法,包括以下步骤:/n(一)通过在大量已有标记的数据集上模拟进行主动学习的过程,根据Meta特征设计规则,获取足够量的MetaData数据;/n(二)根据步骤(一)中获取的MetaData数据训练Meta回归模型M;/n(三)在当前主动学习任务上,根据Meta特征设计规则,计算每个未标记样本的Meta特征;/n(四)将(三)中Meta数据输入至步骤(二)中Meta回归模型M,选择输出值最大的未标记样本,向用户查询真实标记;/n(五)根据得到的真实标记更新分类模型C;/n(六)返回步骤(三)或结束并输出分类模型C。/n

【技术特征摘要】
1.一种基于元学习的主动采样方法,包括以下步骤:
(一)通过在大量已有标记的数据集上模拟进行主动学习的过程,根据Meta特征设计规则,获取足够量的MetaData数据;
(二)根据步骤(一)中获取的MetaData数据训练Meta回归模型M;
(三)在当前主动学习任务上,根据Meta特征设计规则,计算每个未标记样本的Meta特征;
(四)将(三)中Meta数据输入至步骤(二)中Meta回归模型M,选择输出值最大的未标记样本,向用户查询真实标记;
(五)根据得到的真实标记更新分类模型C;
(六)返回步骤(三)或结束并输出分类模型C。


2.根据权利要求1所述的一种基于元学习的主动学习方法,其特征在于:所述步骤(一)在大量已有标记的数据集上获取MetaData数据,具体方法为:
假设当前分类模型为C,当前考虑的未标记样本为x;设MetaData数据集结构为[Z,ΔP],其中Z为设计的Meta特征,ΔP为分类模型C在加入未标记样本x重新训练后,在测试集上性能前后变化值。


3.根据权利要求2所述的一种基于元学习的主动学习方法,其特征在于:Meta特征Z设计具体细节为:
1)关于数据集的传统的元特征
a)简单的元特征
样本的数量及其对数,特征的数量及其对数,样本数与特征数之比及其对数,特征数与样本数之比及其对数;
b)统计特征
计算所有数值特征的峰度(kurtosis),取其最小值,最大值,均值,标准差;
计算所有数值特征的偏度(skewness),取其最小值,最大值,均值,标准差;
c)PCA统计特征
利用主成分分析PCA的方法,将主成分占比95%的每个成分所解释的方差量进行求和;利用PCA将数据集降维至一维后,计算该特征值的峰度和偏度;
2)样本本身的信息
a)数据集特征维度,所述特征维度为属性维度;
b)已标记的数据集中正样本的比例,负样本的比例;
c)根据当前模型的预测值,计算未标记数据集中,模型预测为正样本的比例,负样本的比例;
d)在整个数据集(包含已标记和未标记)中进行聚类,获取10个聚类中心点ai,并按照每个中心点与x的距离从小到大排序记为aii=1,2,……10,这10个点的顺序是根据不同的x变化的;计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:其中xj是在整个数据集范围内的;
e)按照当前模型对已标记数据集的预测值进行排序,选出10等分点的数据bii=1,2,……10。计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:其中xj是在整个数据集范围内的;
f)按照当前模型对未标记数据集的预测值进行排序,选出10等分点的数据cii=1,2,……10;计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:其中xj是在整个数据集范围内的;
3)模型本身的信息
a)在已标记数据上计算TP、FP、TN、FN的比例;
b)在已标记数据上按照当前模型对已标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化),并进行排序,选出10等分点的值记录;
c)计算2)中10个值(归一化后)的均值和方差;
d)在未标记数据上,根据当前模型的预测值,计算未标记数据集中,模型预测为正样本的比例,负样本的比例;
e)按照当前模型对未标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化),并进行排序,选出10等分点的值记录;
f)计算e)中10个值的...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:南京智谷人工智能研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1