一种基于哈希方法的多标记学习的学习方法技术

技术编号：11611893 阅读：62 留言：0更新日期：2015-06-17 12:17

本发明专利技术公开了一种基于哈希方法的多标记学习的学习方法，该方法是利用哈希算法与基于贝叶斯统计学的多标记学习算法相结合，该方法有效地利用标记之间的相关性以提高多标记学习模型的预测性能，利用近邻的特性，将标记和标记的近邻引入到后验概率的计算中，充分考虑了标记之间的相关性，提高了算法的准确性；利用MinHash算法解决大规模数据的多标记学习中标记空间往往更加高维和稀疏的问题；利用位置敏感哈希(LSH)进行近邻查找解决大规模数据的学习问题，可以进行快速高效的近邻查找，提高了多标记学习算法的可扩展性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及，属于机器学习的技术领域。
技术介绍
在传统的监督学习框架中，样本一般具有明确的单一的语义标记，S卩：每个样本示例只属于一个类别，在这个监督学习框架下已经提出多种算法并取得良好的效果。然而，在很多现实世界的应用中，研宄对象其语义标记通常是不唯一的，往往存在一个样本可被分配一组多重标记的情况。例如，在文本分类中，一篇新闻报道可能涵盖某个事件的多个方面，因此，应该被分配给多个主题（比如，政治和经济）；在生物信息学中，一个基因或蛋白质往往具有多个功能；在图像注释中，一幅图像往往可以被多个主题词注释。这就使得对于只考虑明确、单一的语义的传统监督学习框架难以取得好的效果。为了使多义性对象中含有的多种语义信息能够直观地反映，一种显而易见的方式就是为该对象明确地赋予具有合适类别标记的标记集合。基于以上分析，一种针对多义性对象的学习建模工具，多标记学习框架由此而产生。在多标记学习框架下，样本由一个示例和对应的多个标记构成，学习的目标是将多个适当的标记赋予未知的示例。随着机器学习理论与应用研宄的深入，多标记学习已成为机器学习领域的热点研宄方向之一。由于多标记分类与现实应用紧密相关，针对多标记分类问题的研宄具有重要的理论和应用价值。多标记学习是一个具有挑战性的研宄课题，过去主要应用于文本分类领域，而现在引起了越来越多的研宄人员的兴趣，并应用到很多新的领域，如音乐分类、蛋白质功能分类、Web挖掘、互联网海量数据信息检索以及图像和视频的语义分类等。经过多年的发展，在传统的多标记学习问题上，研宄者们已提出了许多经典算法，...

【技术保护点】
一种基于哈希方法的多标记学习的设计方法，其特征在于，所述方法包括如下步骤：步骤1：给定输入多标记训练数据集D＝{(xi，Yi)|1≤i≤m}以及测试样例xt，Yi为所对应样本xi的标记集向量；训练集样本集合X(N×m，N是样本个数，m是样本属性的维度)；训练集标记集合Y(N×q，q是标签的数量)；步骤2：对于训练数据集的标记集合执行MinHash降维算法，将原始的标记集合矩阵由N×q维为压缩为p×q维矩阵步骤3：对样本集合XN×m和新的标记集合分别执行LSH算法，计算出每个样本的近邻N(xi)和每个标记的近邻N(yi)；步骤4：对于测试样例xt，执行LSH计算出xt的近邻N(xt)；步骤5：计算每个标记yj，j＝1，2，...，q的后验概率，根据专利技术中所提出的基于标记相关性扩展的后验概率公式进行计算；步骤6：根据多标记学习算法构建多标记分类器；根据多标记分类器，得到预测的标记集合，即：分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：吴建盛，孙永，胡海峰，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人