当前位置: 首页 > 专利查询>吉林大学专利>正文

基于标签传播矫正标签置信度的不准确标记的多标签学习算法制造技术

技术编号:35930235 阅读:13 留言:0更新日期:2022-12-14 10:15
本发明专利技术公开了基于标签传播矫正标签置信度的不准确标记的多标签学习算法,包括以下步骤:步骤一,利用迭代标签传播,根据邻域空间更新候选标签集和非候选标签集的置信度,并分别从中识别出具有高置信度的可信标签;步骤二,利用识别出的可信标签,通过最大后验推理对标签进行两两排序,生成多标签预测模型;本发明专利技术所提出的算法能够自动过滤标注信息的噪声,并补全缺失的监督信息,可用于解决获得的数据标签既不完整又包含噪声的多标签学习任务,该算法通过迭代地标签传播,分别从候选标签集和非候选标签集中提取可信标签,能够减轻被错误标记的标签带来的负面影响,并将其作为可靠的标签信息用于后续的模型学习。签信息用于后续的模型学习。签信息用于后续的模型学习。

【技术实现步骤摘要】
基于标签传播矫正标签置信度的不准确标记的多标签学习算法


[0001]本专利技术涉及机器学习
,具体为基于标签传播矫正标签置信度的不准确标记的多标签学习算法。

技术介绍

[0002]现有的面向有限监督的多标签学习(MLL)方法大多集中在解决仅包含标签缺失或偏标记的问题上,而实际应用中无法确定获得的监督信息能够完全符合这两个任务的设定,本文将这两类有限监督信息同时存在的多标签学习 (MLL)问题称为不准确标记的多标签学习(IncorrectMulti

labelLearning,IML)问题,不准确标记的多标签学习(IML)是指实际应用场景中通常无法获取完全准确的监督信息(即数据标签),得到的数据标签集合通常不够完整且包含一些不相关的噪声,自动过滤标签中的噪声,同时又能将缺失标签信息进行补全是该类任务需要解决的核心问题;面向不准确多标签学习(IML)问题,现有的方法通常需要一部分精确标注的样本或其他额外的监督信息,而一种能够直接用于不准确标签数据的算法显然更加被实际应用所需要,但现有技术中,缺少这方面的算法,因此本文就如何自动过滤标注信息的噪声,如何将缺失的监督信息补全这两点问题提出了一种IML算法。

技术实现思路

[0003]本专利技术的目的在于提供基于标签传播矫正标签置信度的不准确标记的多标签学习算法,以解决上述
技术介绍
中提出的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:基于标签传播矫正标签置信度的不准确标记的多标签学习算法,包括以下步骤:步骤一,利用迭代标签传播,根据邻域空间更新候选标签集和非候选标签集的置信度,并分别从中识别出具有高置信度的可信标签;步骤二,利用识别出的可信标签,通过最大后验推理对标签进行两两排序,生成多标签预测模型;
[0005]其中在上述步骤一中,包括以下步骤:
[0006]1)给定训练数据集:给定有n个训练样本的训练数据集 D={(x
i
,Y
i
)|1≤i≤n};
[0007]2)构建样本的有向加权邻域图:根据给定的训练数据集D,基于 kNN最小误差重构方法构建一个有向加权邻域图G=(V,E,W),图中顶点集合V={x
i
|1≤i≤n}对应所有训练样本,边集合 E={(x
i
,x
j
)|i∈N(x
j
),1≤i,j≤n}表示每个样本与其k近邻之间的关联程度,其中N(x
j
)是样本x
j
的k近邻样本集合,对于权重矩阵每一行权重向量w
j
=[w
j1
,

,w
jn
]通过最小误差重构问题来优化:
[0008][0009]3)计算标签置信度矩阵的初始值:标签置信度矩阵将在迭代标签传播过
程中逐渐更新,其中每个元素p
ij
表示标签y
j
是样本x
i
真实标签的可能性,在没有任何其他信息的前提下,假设每个候选标签是真实标签的可能性一致,依此假设标签置信度矩阵的初始值P(0)表示如下:
[0010][0011]4)完成标签传播过程并得到最终的置信度矩阵:第t次迭代标签传播过程表示为:
[0012]P(t)=δ
·
HP(t

1)+(1

δ)
·
P(0)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式3);
[0013]其中,δ∈[0,1]是传播过程中的协调参数,用于控制置信度矩阵P的值依赖上一次迭代结果的比重,在迭代传播结束后,为了避免尺度不均衡问题,对置信度矩阵P进行归一化处理,得到最终的置信度矩阵P
*
,归一化公式表示为:
[0014][0015]在得到最终的标签置信度矩阵P
*
后,为了避免因为数据划分不均衡导致的在训练集中过拟合的现象,从矩阵补全的角度考虑,将测试样本与其在训练样本空间中的k近邻的相似程度作为置信度的权重,进而得到加权后的标签置信度矩阵加权过程的数学公式表示如下:
[0016][0017]其中,表示样本之间基于距离衡量相似程度的权值矩阵,此处采用欧氏距离作为距离计算方法,任意一个权值ω
ij
∈W的计算公式如下所示:
[0018][0019]5)确定训练数据矫正后的可信标签,形成新的训练数据集:在得到加权的标签置信度矩阵后,分别判断原候选标签集和非候选标签集中标签可信程度,为每个样本x
i
重新分配其对应的可信标签集其数据公式表示如下:
[0020][0021]其中,分别表示原候选标签集和非候选标签集对应的阈值;
[0022]其中在上述步骤二中,包括以下步骤:
[0023]1)构建训练数据:为任意标签对(y
j
,y
l
)(1≤j<l≤q)构建训练数据集,选择在这两个标签上标注情况不同的样本,因此,标签对(y
j
,y
l
)的训练数据表示如下:
[0024][0025]其中I(
·
)是指示函数,任意标签对对应的新标签表示如下:
[0026][0027]2)利用二元学习算法训练得到一组二元分类器:利用二元学习算法 B为每个标签组单独训练一个二元分类器理论上将总计训练q(q

1)/2个二元分类器,对于测试数据集T中的样本采用一个简单的计数量C
j
表示所有与标签y
j
相关的二元分类器对该样本的预测结果的计数,若或则标签y
j
获得一票,计数量C
j
的计算过程
[0028]表示为:
[0029][0030]3)得到最终预测标签集:令E
j
表示标记了标签y
j
的事件,P(E
j
|C
j
) 表示事件E
j
发生的后验概率,表示相同条件下E
j
不发生的后验概率,根据MAP规则,判断P(E
j
|C
j
)是否大于来确定标签y
j
是否为预测标签,最终预测标签集的数学表达式如下所示:
[0031][0032]优选的,所述步骤一1)中,Y
i
表示样本x
i
对应的候选标签集合,是Y
i
在标签空间的补集,表示样本x
i
的非候选标签集合。
[0033]优选的,所述步骤一2)中,优化过程可以看过样本x
j
与其非负近邻样本之间的最优线性重构,该问题可以通过现有的二次规划方法解决,从而得到权重矩阵W,根据W可以得到传播矩阵H=WD
‑1,其中D是W的度矩阵,记录了每个节点对应权重值总和的对角元矩阵,即每个元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于标签传播矫正标签置信度的不准确标记的多标签学习算法,包括以下步骤:步骤一,利用迭代标签传播,根据邻域空间更新候选标签集和非候选标签集的置信度,并分别从中识别出具有高置信度的可信标签;步骤二,利用识别出的可信标签,通过最大后验推理对标签进行两两排序,生成多标签预测模型;其特征在于:其中在上述步骤一中,包括以下步骤:1)给定训练数据集:给定有n个训练样本的训练数据集D={(x
i
,Y
i
)|1≤i≤n};2)构建样本的有向加权邻域图:根据给定的训练数据集D,基于kNN最小误差重构方法构建一个有向加权邻域图G=(V,E,W),图中顶点集合V={x
i
|1≤i≤n}对应所有训练样本,边集合E={(x
i
,x
j
)|i∈N(x
j
),1≤i,j≤n}表示每个样本与其k近邻之间的关联程度,其中N(x
j
)是样本x
j
的k近邻样本集合,对于权重矩阵每一行权重向量w
j
=[w
j1
,

,w
jn
]通过最小误差重构问题来优化:3)计算标签置信度矩阵的初始值:标签置信度矩阵将在迭代标签传播过程中逐渐更新,其中每个元素p
ij
表示标签y
j
是样本x
i
真实标签的可能性,在没有任何其他信息的前提下,假设每个候选标签是真实标签的可能性一致,依此假设标签置信度矩阵的初始值P(0)表示如下:4)完成标签传播过程并得到最终的置信度矩阵:第t次迭代标签传播过程表示为:P(t)=δ
·
H P(t

1)+(1

δ)
·
P(0)
ꢀꢀꢀꢀꢀꢀ
(公式3);其中,δ∈[0,1]是传播过程中的协调参数,用于控制置信度矩阵P的值依赖上一次迭代结果的比重,在迭代传播结束后,为了避免尺度不均衡问题,对置信度矩阵P进行归一化处理,得到最终的置信度矩阵P
*
,归一化公式表示为:在得到最终的标签置信度矩阵P
*
后,为了避免因为数据划分不均衡导致的在训练集中过拟合的现象,从矩阵补全的角度考虑,将测试样本与其在训练样本空间中的k近邻的相似程度作为置信度的权重,进而得到加权后的标签置信度矩阵加权过程的数学公式表示如下:其中,表示样本之间基于距离衡量相似程度的权值矩阵,此处采用欧氏距离作为距离计算方法,任意一个权值ω
ij
∈W的计算公式如下所示:
5)确定训练数据矫正后的可信标签,形成新的训练数据集:在得到加权的标签置信度矩阵后,分别判断原候选标签集和非候选标签集中标签可信程度,为每个样本x
i
重新分配其对应的可信标签集Y
i*
,其数据公式表示如下:其中,分别表示原候选标签集和非候选标签集对应的阈值;其中在上述步骤二中,包括以下步骤:1)构建训练数据:为任意标签对(y
j
,y
l
)(1≤j<l≤q)构建训练数据集,选择在这两个标签上标注情况不同的样本,因此,标签对(y
j
,y
l
)的训练数据表示如下:其中I(
·
)是指示函数,任意标签对对应的新标签η(Y
i*
,y
j

【专利技术属性】
技术研发人员:关媛元王莹王欢
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1