当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于SPUM数据的半监督多标签学习方法技术

技术编号:33131949 阅读:28 留言:0更新日期:2022-04-17 00:50
本发明专利技术公开了一种基于SPUM数据的半监督多标签学习方法。考虑在数据的多个标签中只有一个标签被明确标注为正,其余标签都为未标注状态的单正例无标注多标签(single positive and unlabeled multi

【技术实现步骤摘要】
一种基于SPUM数据的半监督多标签学习方法


[0001]本专利技术涉及一种基于 SPUM 数据的半监督多标签学习方法,能够在未标注数据和仅有单个正标签被标注的多标签数据上学习到良好分类模型的算法,并且此算法可以仅通过节点间的少量信息传递学得全局最优的分类模型。

技术介绍

[0002]在实际多标签学习中一个数据可能存在多种标签需要预测,如在目标检测领域中一张图片通常会出现多个目标,文本情感分析中一段文本也将会有多种情感等。目前的性能先进的多标签分类算法通常需要每个数据的每个标签都被人工标注上 +1 或 0,以表示该类存在与否,但这通常是一件繁琐的工作以至于完整标注数据是昂贵的。若在仅有部分数据的单个标签被标注,另一部分数据完全未标注的情况下可以学到多标签分类信息,那么繁琐的多标签标注任务将变为简单许多的仅需对少量数据进行单个正例标注的任务,无疑大大降低了人力标注的成本。同时在现代的数据存储形式中,通常数据分别存储在不同的数据节点,并且考虑到数据隐私问题和通信代价问题各数据节点间并不期望传输原始数据。如何在仅通过在分布式节点间传递少量信息的形式获得全局最优分类模型,是分布式学习算法的重要目标。

技术实现思路

[0003]为了克服现有技术难以处理分布式场景下仅有部分数据的单个标签被标注的数据条件的不足,本专利技术的目的是提供一种基于 SPUM 数据的半监督多标签学习方法。
[0004]本专利技术所探讨的场景基于一个有个分布在不同地理位置的节点的分布式网络无向图,其中表示节点集, 表示各节点的邻居节点的编号集,表示节点的与邻居节点的边集。各分布式节点各自存储多标签数据集记为,其中每个数据都有个标签并将标签集记为。在各节点的数据集中,除了有部分已标注单个正例标签的 SPUM 数据集 之外仍然存在相当比例的未进行任何标注的数据集。在SPUM 数据中,维标签向量仅有一个标签被标注到,我们使用观测向量表示这种被不完全标注的标签向量,则 SPUM 数据可被公式描述为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1);
其中
ꢀ∅ꢀ
为未知标签(即其可能为1或0)。定义为模型输出,其中为单个数据,代表节点的模型参数。为了算法表示的简洁性,我们将在下文中使用 代表。多标签学习常见于目标检测领域,用以检测一张图片中可能出现的多种物体。因此本算法使用目标检测算法常用的 ResNet50 作为基本框架对图片进行特征提取,并在特征参数层使用计算损失函数并通过梯度回传优化参数。
[0005]本专利技术要解决的问题就是在上述分布式场景下,通过由各节点的无标注数据和SPUM 数据计算得到的损失函数,反向计算得到本节点梯度信息后在网络中通过分布式策略传递并最终使每个节点都获得全局最优的模型参数。基于SPUM 数据的分布式半监督多标签学习算法,包括以下步骤:1)获取各节点的SPUM数据;2)对每个节点计算得到该节点的损失函数并提出全局损失函数;3)通过分布式梯度计算方法,将每个结点的梯度传递给邻居节点并融合;4)基于事件触发机制,减少节点间的通信量以降低通信成本;5)多次迭代获得全局最优模型参数。
[0006]作为优选技术手段:在步骤 2)中,采用正类数量约束,为算法预测输出的每一个样例的正标签数量设置一个期望值,使其能够使用观测为正的标签的信息来计算的同时不至于全部输出为正。将这种对正标签数量的约束称为正类数量约束(positive numbers regularization,PNR),记为,表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中表示算法输出正标签数量的统计期望。首先考虑已标注数据集,可使用获取正向信息,同时辅以正类数量约束得到已标注数据部分的正类数量约束损失函数记为,表示为:
ꢀꢀ
(3);其中单个节点的算法输出堆叠即,观测向量堆叠即。同时考虑半监督情况,即对于只有未观测标签可以使用的未标注数据集,使用“假负”策略对未标注数据的所有标签加以负向损失以得到大量负向信息并使用标签平滑减少“假负”策略产生的噪声,同时辅以正类数量约束得到未标注部分的正类数量约束损失函数记为,并将其表示为:
ꢀꢀ
(4);其中设置为,为最终综合考虑已标注部分和未标注部分,得到各节点的正类数量约束损失函数为:
ꢀꢀꢀ
(5);尽管上述 lPNR 损失函数采用了作为正类数量约束实现了一定的对未观测标签输出的隐性假设,从而能从中获取一定信息,但这个隐性假设仅仅针对输出正标签的期望数量使其约束性较弱。为此使用直接针对输出标签值的预测值的隐性假设,即时标签预测(real

time label estimation,RLE)。在通过神经网络得到特征向量后使用两套参数和分别计算算法输出和一个标签预测输出并将二者同时送入损失函数进行后续梯度回传和优化。在此基础上将单个数据的标签预测向量记为,所有数据的标签预测矩阵记为。有了强假设性的即时标签预测后,便可以使用全监督的交叉熵损失函数获得更多的信息。将基于标签预测的强假设与上文基于期望正标签数量的弱假设式(5)进行结合,并辅以流形约束得到初步的RLE损失函数,即: (6);其中是梯度中断函数,他将阻止梯度回传,使得仅作为即时的预测标签来使用;;最后一项流形约束用以优化算法输出。上述初步RLE损失函数可在正类数量约束的基础上促使算法输出去接近预测标签。
[0007]那么如何优化标签预测的参数呢,只需要将式(6)中的标签预测与算法输出的位置进行交换得到,即:(11);
此处的最后一项流形约束项不同于式(6)用以优化算法输出,而是用以优化标签预测输出。
[0008]将和进行结合,便可得到最终的适用于SPUM学习的RLE 损失函数,并提出网络上的全局优化问题为:(7);如此便可同时训练输出函数 的参数和标签预测的参数,并最终选取在测试集种表现最好的参数或作为算法输出。
[0009]作为优选技术手段:在步骤4)中,我们将定义一个事件,并让其决定本地节点的参数估计矩阵是否会被网络传输到邻居节点。其中定义为上一次被允许传输的临时参数估计矩阵,为节点上一次被允许传输的时间点。将事件定义为相比于的变化率,因变化率越大则其信息量也越大,并在变化率其大于阈值δ 时视为值得传输,即:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10);的时候,节点被允许向邻居节点传递信息。若此事件在节点上被触发,那么触发事件时间点将被更新为,相应的被允许传输的临时参数估计矩阵也将被替换为并将其传输至邻居节点。
[0010]本专利技术的有益效果:采用基于正类数量约束的即时标签预测损失函数,使得算法在仅有部分数据单个标签被标注为正例的场景下,也能通过对正类数量进行约束和交替优化标签预测和模型输出学习到大量的信息,大大减少了标注任务的成本。在通信带宽等资源受限的分布式网络中,由于的规模可能会非常大,若每一次迭代时都将其传输至邻居节点会造成较大的通信代价。为了减少邻居节点间的通信负担,我们采用了基于事件触发的迭代策略,使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于 SPUM 数据的半监督多标签学习方法,其特征是,分布式场景下,通过由各节点的无标注数据和SPUM 数据计算得到的损失函数,反向计算得到本节点梯度信息后在网络中通过分布式策略传递并最终使每个节点都获得全局最优的模型参数;所述的分布式场景,基于一个有个分布在不同地理位置的节点的分布式网络无向图,其中表示节点集, 表示各节点的邻居节点的编号集,表示节点的与邻居节点的边集;各分布式节点各自存储多标签数据集记为,其中每个数据都有个标签并将标签集记为;在各节点的数据集中,除了有部分已标注单个正例标签的 SPUM 数据集 之外仍然存在相当比例的未进行任何标注的数据集;在SPUM 数据中,维标签向量仅有一个标签被标注到,使用观测向量表示这种被不完全标注的标签向量,则 SPUM 数据被公式描述为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中
ꢀ∅ꢀ
为未知标签,即其可能为1或0,定义为模型输出,其中为单个数据,代表节点的模型参数;为了算法表示的简洁性,使用 代表;步骤如下:1)获取各节点的数据,得到各节点的 SPUM 数据;2)计算各节点的损失函数,对每个节点计算得到该节点的损失函数并提出全局优化问题;3)分布式优化,通过分布式梯度计算方法,对步骤2)中所提全局优化问题通过将每个结点的梯度传递给邻居节点并融合来求解;4)事件触发,计算临时参数估计的变化率判断是否大于触发阈值,若大于触发阈值,梯度传递事件被触发,以此减少步骤3)中节点间的传递频次以降低通信成本;5)对上述步骤进行多次循环迭代获得全局最优模型参数。2.根据权利要求1所述的方法,其特征是,在步骤 2)中,所述的损失函数设计时首先采用正类数量约束,为算法预测输出的每一个样例的正标签数量设置一个期望值并将这种对正标签数量的约束称为正类数量约束(positive numbers regularization,PNR),记为,表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
其中表示算法输出正标签数量的统计期望,首先考虑已标注数据集,使用获取正向信息,同时辅以正类数量约束得到已标注数据部分的正类数量约束损失函数记为,表示为: (3)其中单个节点的算法输出堆叠即,观测向量堆叠即;同时考虑半监督情况,即对于只有未观测标签可以使用的未标注数据集,使用“假负”策略对未标注数据的所有标签加以负向损失以得到大量负向信息并使用标签平滑减少“假负”策略产生的噪声,同时辅以正类数量约束得到未标注部分的正类数量约束损失函数记为,并将其表示为: (4)其中设置为,为最终综合考虑已标注部分和未标注部分,得到各节点的正类数量约束损失函数为:
ꢀꢀꢀꢀꢀꢀꢀ
(5)尽管上述 lPNR 损失函数采用了作为正类数量约束实现了一定的对未观测标签输出的隐性假设,从而能从中获取一定信息,但这个隐性假设仅仅针对输出正标签的期望数量使其约束性较弱;为此使用直接针对输出标签值的预测值的隐性假设,...

【专利技术属性】
技术研发人员:张晨刘英
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1