多示例多标记中基于样本特征分布的主动学习设计方法技术

技术编号:13339739 阅读:203 留言:0更新日期:2016-07-13 14:03
本发明专利技术公开了多示例多标记中基于样本特征分布的主动学习设计方法,该方法是将miFV算法与基于最大均值差异,并引入样本相似性最小化的单示例多标记学习算法MLBMDR相结合。该方法在主动学习中有效地引入miFV算法快速的将多示例多标记问题转化为单示例多标记问题便于快速计算;使用基于MMD的单示例多标记主动学习算法来进行符合原始数据分布的待查询样本集合的挑选;通过在优化过程中引入样本相似性最小化度量dist来避免相似样本过多出现,提高训练样本的多样性。

【技术实现步骤摘要】

本专利技术涉及一种基于样本特征分布的多示例多标记主动学习的设计方法,属于机器学习的

技术介绍
目前,监督学习框架在实现时需要训练大量的标记已知的样本,才能得到较优性能的模型。而在实际应用时,我们获取的样本往往只有少量标记已知或甚至于没有标记。这时就需要通过其他方法来给样本打上标记,例如最常用的使用人工标注。然而,由于现实数据的复杂性,给样本打标记的工作需要耗费大量的人力物力。为了减少这种资源耗费,主动学习应运而生。主动学习通过按照一定的规则由程序本身自主选取少量的最有价值的样本用于更新模型。这里最有价值的往往体现着可以使模型更大程度的收敛。基于这个价值条件,一般选取规则主要目的是找出具有最大信息量和代表性的模型。目前已有许多经典的主动学习方法在选取最大信息量和代表性的样本上有着良好的性能,例如基于委员会的启发式算法通过选择一定数量的分类模型构成委员会,然后利用每个模型给未知标记的样本打标记并选择结果差异最大的样本。以上的信息量和代表性指标的框架虽然有效,本文档来自技高网...

【技术保护点】
多示例多标记中基于样本特征分布的主动学习设计方法,其特征在于,所述方法包括如下步骤:步骤1:给定输入多示例多标记训练数据集D,D包含已标记数据集合L和未标记数据集合U,其中每个样本x含有d个示例l个特征;步骤2:对于所有多示例样本执行miFV算法,将原始的d×l维多示例的样本x压缩为(2d+1)K维向量f(包含d个特征的单示例样本),K为高斯混合模型中一维高斯模型数量;步骤3:将上步得到的每一个单示例样本f向量归一化后得到新的单示例多标记数据z;步骤4:在新数据z上使用MLBMDR方法,记选出的待查询样本集为Q,已知标记样本集为L,优化ERM+MMD‑dist最小值,直到收敛,得出用于指示选出...

【技术特征摘要】
1.多示例多标记中基于样本特征分布的主动学习设计方法,其特征在于,
所述方法包括如下步骤:
步骤1:给定输入多示例多标记训练数据集D,D包含已标记数据集合L和
未标记数据集合U,其中每个样本x含有d个示例l个特征;
步骤2:对于所有多示例样本执行miFV算法,将原始的d×l维多示例的样
本x压缩为(2d+1)K维向量f(包含d个特征的单示例样本),K为高斯混合模型
中一维高斯模型数量;
步骤3:将上步得到的每一个单示例样本f向量归一化后得到新的单示例多
标记数据z;
步骤4:在新数据z上使用MLBMDR方法,记选出的待查询样本集为Q,
已知标记样本集为L,优化ERM+MMD-dist最小值,直到收敛,得出用于指示
选出待查询样本的指示向量α,其中ERM是求Q∪L的预测标记与真实标记的
误差期望值的最大值;MMD是求Q∪L与原始数据集的分布差异,dist是Q∪L
中样本映射后特征向量两两距离的求和;
步骤5:由上步输出的指示向量α得到输出的待查询样本集合Q。
2.根据权利要求1所述的多示例多标记中基于样本特征分布的主动学习设
计方法,其特征在于,所述方法包括:在主动学习中使用miFV进行多示例到单
示例的压缩、基于MMD和ERM的单示例多标记主动学习算法MLBMDR、在
主动学习MLBMDR优化中引入相似性度量dist减少冗余。
3.根据权利要求2所述的多示例多标记中基于样本特征分布的主动学习设
计方法,其特征在于,所述方法包括多示例到单示例压缩;所述的多示例到单示
例压...

【专利技术属性】
技术研发人员:吴建盛高毓声胡海峰
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1