一种基于哈希方法的多标记学习的学习方法技术

技术编号:11611893 阅读:62 留言:0更新日期:2015-06-17 12:17
本发明专利技术公开了一种基于哈希方法的多标记学习的学习方法,该方法是利用哈希算法与基于贝叶斯统计学的多标记学习算法相结合,该方法有效地利用标记之间的相关性以提高多标记学习模型的预测性能,利用近邻的特性,将标记和标记的近邻引入到后验概率的计算中,充分考虑了标记之间的相关性,提高了算法的准确性;利用MinHash算法解决大规模数据的多标记学习中标记空间往往更加高维和稀疏的问题;利用位置敏感哈希(LSH)进行近邻查找解决大规模数据的学习问题,可以进行快速高效的近邻查找,提高了多标记学习算法的可扩展性。

【技术实现步骤摘要】

本专利技术涉及,属于机器学习的技术领 域。
技术介绍
在传统的监督学习框架中,样本一般具有明确的单一的语义标记,S卩:每个样本示 例只属于一个类别,在这个监督学习框架下已经提出多种算法并取得良好的效果。然而,在 很多现实世界的应用中,研宄对象其语义标记通常是不唯一的,往往存在一个样本可被分 配一组多重标记的情况。例如,在文本分类中,一篇新闻报道可能涵盖某个事件的多个方 面,因此,应该被分配给多个主题(比如,政治和经济);在生物信息学中,一个基因或蛋白 质往往具有多个功能;在图像注释中,一幅图像往往可以被多个主题词注释。这就使得对于 只考虑明确、单一的语义的传统监督学习框架难以取得好的效果。为了使多义性对象中含 有的多种语义信息能够直观地反映,一种显而易见的方式就是为该对象明确地赋予具有合 适类别标记的标记集合。基于以上分析,一种针对多义性对象的学习建模工具,多标记学习 框架由此而产生。在多标记学习框架下,样本由一个示例和对应的多个标记构成,学习的目 标是将多个适当的标记赋予未知的示例。 随着机器学习理论与应用研宄的深入,多标记学习已成为机器学习领域的热点研 宄方向之一。由于多标记分类与现实应用紧密相关,针对多标记分类问题的研宄具有重要 的理论和应用价值。多标记学习是一个具有挑战性的研宄课题,过去主要应用于文本分类 领域,而现在引起了越来越多的研宄人员的兴趣,并应用到很多新的领域,如音乐分类、蛋 白质功能分类、Web挖掘、互联网海量数据信息检索以及图像和视频的语义分类等。 经过多年的发展,在传统的多标记学习问题上,研宄者们已提出了许多经典算法, 如基于决策树的方法、基于神经网络的方法、基于K近邻的方法、基于核的方法、基于支持 向量机的方法、基于集成学习的方法等等。 然而,现在互联网中每天产生的数据数以千万,样本的数量变的很大,维数也变得 很高,并且往往很稀疏,传统的多标记学习算法往往很难适用,随着数据的增加,计算时间 随着样本的数量会产生指数级的增长,而且数据的存储代价也会变得非常高。 传统的多标记学习算法在大规模数据中的应用中面临着很多挑战,主要有:1)如 何有效的利用标记之间的相关性以提高模型的预测性能是多标记学习最核心的问题之一。 传统的基于贝叶斯统计学的算法采用了一阶策略来求解多标记学习问题对标记进行训练, 并没有考虑其他标记对标记的影响,即在模型构建过程中忽略标记之间的相关性,通过考 虑标记之间的相关性,可以提高分类的准确性。2)在大规模数据的多标记学习中,标记空间 往往更加高维和稀疏。在多标记学习的的训练过程中,需要对样本的标记进行计算,由于标 记的高维性,计算复杂度会大幅度增加,训练过程会变的很慢,而如何有效利用标记的稀疏 性,对标记进行快速的计算,减小计算时间是多标记学习在大规模数据中应用时需要面对 的重点问题。3)在大规模数据的多标记学习中,样本空间数量往往巨大。传统多标记学习 算法中,训练的样本数量一般较小。然而,在大规模数据场景下,样本的数量大幅增加,计算 复杂度会产生指数级的增长,另外,存储代价也会变得十分高昂,如何将多标记学习算法应 用到大规模数据中是目前研宄的热点之一。 在大规模数据场景下,基于统计学习的学习算法应用广泛,而基于贝叶斯定理的 学习方法是其中的代表之一。它是一类利用概率统计知识进行分类的算法,其分类原理是 通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率, 选择具有最大后验概率的类作为该对象所属的类,是一种最小错误率意义上的优化。基于 贝叶斯统计学的算法以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验 知识的增量学习方法等特性表示了客体的概率分布和因果联联系,能很好的运用到大规模 数据中,而且方法简单、分类准确率高、速度快,成为当前数据挖掘众多方法中最为引人注 目的焦点之一。 在分类的算法中,在特征空间相似的样本往往以更大的概率共享相同的标记,也 就是说,相似的样本往往更可能具有相同的标记。为了判定未知样本的类别,本专利技术考虑到 利用未知样本的相似样本来判定未知样本的类别。在未知样本的分类判决中,以全部训练 样本作为代表点,计算未知样本与所有训练样本的距离,并以最近邻者(也就是特征空间 中的距离最短)的类别作为决策未知样本类别的唯一依据。不过这种方法对噪声数据过于 敏感,为了解决这个问题,可以把未知样本周边的多个最近邻样本计算在内,扩大参与决策 的样本量,以避免个别数据直接决定决策结。因此在分类算法中,若一个样本在特征空间中 的k个最相似的样本中的大多数都属于某一个类别,则此样本也属于这个类别。此方法在 分类决策上仅依据最邻近的一个或几个样本的类别来最终决定待分样本所属的类别。最 近邻法是在己知类别的训练样本条件下,按最近距离原则进行分类,方法思想直观,效果较 好,方法简单,其中某些技术在理论上能够实现先验知识完备的贝叶斯决策的分类效果,可 以适应类域分布较复杂的情况之中。 在大规模数据的多标记学习中,标记空间往往更加高维和稀疏。基于MinHash的 降维算法从原始的特征空间中抽取一部分进行比较,和拿全部特征进行比较,在数学上,能 得到一样的效果,具体做法是将原始数据通过(〇, 1)矩阵进行表示,对矩阵中值为1的行通 过多个hash函数进行映射,从而用低维的实数向量对原始特征进行表示。由于标记向量的 高维性和稀疏性,标记向量本身是一个(0, 1)矩阵而且其中值为1的数量很少,所以利用基 于MinHash的方法可以在低复杂度的情况下将标记向量进行降维。 随着数据的维度提高,传统的相似性搜索算法虽然在低维数据空间中表现良好, 但是当数据的维度提高时,算法的复杂度呈指数级上升,算法性能会急剧下降。为了解决 这个问题,研宄人员提出可以使用近似最近邻查询来解决相似性搜索问题,即不再返回 完全精确的结果,而是允许査询得到的结果与真实值存在一定的偏差因为在大部分应用 场景下,使用近似结果一样可以很好地解决问题。位置敏感哈希(LocalitySensitive Hashing,LSH)是近似最近邻搜索算法中最流行的一种,它不仅具有坚实的理论基础,而且 在高维数据空间表现优异,因此被广泛应用于许多场景,包括基于内容的图像检索、音频检 索、视频拷贝检测以及DNA序列相似性比对等。而本专利技术能够很好地解决上面的问题。
技术实现思路
本专利技术目的在于解决了多标记学习方法在大规模数据场景下应用时遇到的问题, 提出了,该方法利用hash算法与基于贝叶斯 统计学的多标记学习算法相结合,利用标记之间的相关性以提高多标记学习模型的预测性 能;利用MinHash算法解决大规模数据的多标记学习中标记空间往往更加高维和稀疏的问 题;利用位置敏感哈希(即:LSH)进行近邻查找解决大规模数据的学习问题。 本专利技术解决其技术问题所采取的技术方案是:一种基于哈希方法的多标记学习的 设计方法,该方法包括:多标记算法的标记相关性扩展、多标记算法的MinHash降维、基于 LSH的近邻查找。其中标记相关性扩展,主要是将标记之间的相关性引入到算法中,通过标 记之间的相互影响更好的进行分类;MinHash降维,利用MinHash算法对标记空间进行降 维;LSH本文档来自技高网
...

【技术保护点】
一种基于哈希方法的多标记学习的设计方法,其特征在于,所述方法包括如下步骤:步骤1:给定输入多标记训练数据集D={(xi,Yi)|1≤i≤m}以及测试样例xt,Yi为所对应样本xi的标记集向量;训练集样本集合X(N×m,N是样本个数,m是样本属性的维度);训练集标记集合Y(N×q,q是标签的数量);步骤2:对于训练数据集的标记集合执行MinHash降维算法,将原始的标记集合矩阵由N×q维为压缩为p×q维矩阵步骤3:对样本集合XN×m和新的标记集合分别执行LSH算法,计算出每个样本的近邻N(xi)和每个标记的近邻N(yi);步骤4:对于测试样例xt,执行LSH计算出xt的近邻N(xt);步骤5:计算每个标记yj,j=1,2,...,q的后验概率,根据专利技术中所提出的基于标记相关性扩展的后验概率公式进行计算;步骤6:根据多标记学习算法构建多标记分类器;根据多标记分类器,得到预测的标记集合,即:分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴建盛孙永胡海峰
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1