当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于SPUM数据的半监督多标签学习方法技术

技术编号:33131949 阅读:30 留言:0更新日期:2022-04-17 00:50
本发明专利技术公开了一种基于SPUM数据的半监督多标签学习方法。考虑在数据的多个标签中只有一个标签被明确标注为正,其余标签都为未标注状态的单正例无标注多标签(single positive and unlabeled multi

【技术实现步骤摘要】
一种基于SPUM数据的半监督多标签学习方法


[0001]本专利技术涉及一种基于 SPUM 数据的半监督多标签学习方法,能够在未标注数据和仅有单个正标签被标注的多标签数据上学习到良好分类模型的算法,并且此算法可以仅通过节点间的少量信息传递学得全局最优的分类模型。

技术介绍

[0002]在实际多标签学习中一个数据可能存在多种标签需要预测,如在目标检测领域中一张图片通常会出现多个目标,文本情感分析中一段文本也将会有多种情感等。目前的性能先进的多标签分类算法通常需要每个数据的每个标签都被人工标注上 +1 或 0,以表示该类存在与否,但这通常是一件繁琐的工作以至于完整标注数据是昂贵的。若在仅有部分数据的单个标签被标注,另一部分数据完全未标注的情况下可以学到多标签分类信息,那么繁琐的多标签标注任务将变为简单许多的仅需对少量数据进行单个正例标注的任务,无疑大大降低了人力标注的成本。同时在现代的数据存储形式中,通常数据分别存储在不同的数据节点,并且考虑到数据隐私问题和通信代价问题各数据节点间并不期望传输原始数据。如何在仅通过在分布式节点间传递少量信息的形式获得本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于 SPUM 数据的半监督多标签学习方法,其特征是,分布式场景下,通过由各节点的无标注数据和SPUM 数据计算得到的损失函数,反向计算得到本节点梯度信息后在网络中通过分布式策略传递并最终使每个节点都获得全局最优的模型参数;所述的分布式场景,基于一个有个分布在不同地理位置的节点的分布式网络无向图,其中表示节点集, 表示各节点的邻居节点的编号集,表示节点的与邻居节点的边集;各分布式节点各自存储多标签数据集记为,其中每个数据都有个标签并将标签集记为;在各节点的数据集中,除了有部分已标注单个正例标签的 SPUM 数据集 之外仍然存在相当比例的未进行任何标注的数据集;在SPUM 数据中,维标签向量仅有一个标签被标注到,使用观测向量表示这种被不完全标注的标签向量,则 SPUM 数据被公式描述为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中
ꢀ∅ꢀ
为未知标签,即其可能为1或0,定义为模型输出,其中为单个数据,代表节点的模型参数;为了算法表示的简洁性,使用 代表;步骤如下:1)获取各节点的数据,得到各节点的 SPUM 数据;2)计算各节点的损失函数,对每个节点计算得到该节点的损失函数并提出全局优化问题;3)分布式优化,通过分布式梯度计算方法,对步骤2)中所提全局优化问题通过将每个结点的梯度传递给邻居节点并融合来求解;4)事件触发,计算临时参数估计的变化率判断是否大于触发阈值,若大于触发阈值,梯度传递事件被触发,以此减少步骤3)中节点间的传递频次以降低通信成本;5)对上述步骤进行多次循环迭代获得全局最优模型参数。2.根据权利要求1所述的方法,其特征是,在步骤 2)中,所述的损失函数设计时首先采用正类数量约束,为算法预测输出的每一个样例的正标签数量设置一个期望值并将这种对正标签数量的约束称为正类数量约束(positive numbers regularization,PNR),记为,表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
其中表示算法输出正标签数量的统计期望,首先考虑已标注数据集,使用获取正向信息,同时辅以正类数量约束得到已标注数据部分的正类数量约束损失函数记为,表示为: (3)其中单个节点的算法输出堆叠即,观测向量堆叠即;同时考虑半监督情况,即对于只有未观测标签可以使用的未标注数据集,使用“假负”策略对未标注数据的所有标签加以负向损失以得到大量负向信息并使用标签平滑减少“假负”策略产生的噪声,同时辅以正类数量约束得到未标注部分的正类数量约束损失函数记为,并将其表示为: (4)其中设置为,为最终综合考虑已标注部分和未标注部分,得到各节点的正类数量约束损失函数为:
ꢀꢀꢀꢀꢀꢀꢀ
(5)尽管上述 lPNR 损失函数采用了作为正类数量约束实现了一定的对未观测标签输出的隐性假设,从而能从中获取一定信息,但这个隐性假设仅仅针对输出正标签的期望数量使其约束性较弱;为此使用直接针对输出标签值的预测值的隐性假设,...

【专利技术属性】
技术研发人员:张晨刘英
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1