【技术实现步骤摘要】
基于标签传播矫正标签置信度的不准确标记的多标签学习算法
[0001]本专利技术涉及机器学习
,具体为基于标签传播矫正标签置信度的不准确标记的多标签学习算法。
技术介绍
[0002]现有的面向有限监督的多标签学习(MLL)方法大多集中在解决仅包含标签缺失或偏标记的问题上,而实际应用中无法确定获得的监督信息能够完全符合这两个任务的设定,本文将这两类有限监督信息同时存在的多标签学习 (MLL)问题称为不准确标记的多标签学习(IncorrectMulti
‑
labelLearning,IML)问题,不准确标记的多标签学习(IML)是指实际应用场景中通常无法获取完全准确的监督信息(即数据标签),得到的数据标签集合通常不够完整且包含一些不相关的噪声,自动过滤标签中的噪声,同时又能将缺失标签信息进行补全是该类任务需要解决的核心问题;面向不准确多标签学习(IML)问题,现有的方法通常需要一部分精确标注的样本或其他额外的监督信息,而一种能够直接用于不准确标签数据的算法显然更加被实际应用所需要,但现有技术中,缺少这方面的算法,因此本文就如何自动过滤标注信息的噪声,如何将缺失的监督信息补全这两点问题提出了一种IML算法。
技术实现思路
[0003]本专利技术的目的在于提供基于标签传播矫正标签置信度的不准确标记的多标签学习算法,以解决上述
技术介绍
中提出的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:基于标签传播矫正标签置信度的不准确标记的多标签学习算法,包括以下步骤:步骤一, ...
【技术保护点】
【技术特征摘要】
1.基于标签传播矫正标签置信度的不准确标记的多标签学习算法,包括以下步骤:步骤一,利用迭代标签传播,根据邻域空间更新候选标签集和非候选标签集的置信度,并分别从中识别出具有高置信度的可信标签;步骤二,利用识别出的可信标签,通过最大后验推理对标签进行两两排序,生成多标签预测模型;其特征在于:其中在上述步骤一中,包括以下步骤:1)给定训练数据集:给定有n个训练样本的训练数据集D={(x
i
,Y
i
)|1≤i≤n};2)构建样本的有向加权邻域图:根据给定的训练数据集D,基于kNN最小误差重构方法构建一个有向加权邻域图G=(V,E,W),图中顶点集合V={x
i
|1≤i≤n}对应所有训练样本,边集合E={(x
i
,x
j
)|i∈N(x
j
),1≤i,j≤n}表示每个样本与其k近邻之间的关联程度,其中N(x
j
)是样本x
j
的k近邻样本集合,对于权重矩阵每一行权重向量w
j
=[w
j1
,
…
,w
jn
]通过最小误差重构问题来优化:3)计算标签置信度矩阵的初始值:标签置信度矩阵将在迭代标签传播过程中逐渐更新,其中每个元素p
ij
表示标签y
j
是样本x
i
真实标签的可能性,在没有任何其他信息的前提下,假设每个候选标签是真实标签的可能性一致,依此假设标签置信度矩阵的初始值P(0)表示如下:4)完成标签传播过程并得到最终的置信度矩阵:第t次迭代标签传播过程表示为:P(t)=δ
·
H P(t
‑
1)+(1
‑
δ)
·
P(0)
ꢀꢀꢀꢀꢀꢀ
(公式3);其中,δ∈[0,1]是传播过程中的协调参数,用于控制置信度矩阵P的值依赖上一次迭代结果的比重,在迭代传播结束后,为了避免尺度不均衡问题,对置信度矩阵P进行归一化处理,得到最终的置信度矩阵P
*
,归一化公式表示为:在得到最终的标签置信度矩阵P
*
后,为了避免因为数据划分不均衡导致的在训练集中过拟合的现象,从矩阵补全的角度考虑,将测试样本与其在训练样本空间中的k近邻的相似程度作为置信度的权重,进而得到加权后的标签置信度矩阵加权过程的数学公式表示如下:其中,表示样本之间基于距离衡量相似程度的权值矩阵,此处采用欧氏距离作为距离计算方法,任意一个权值ω
ij
∈W的计算公式如下所示:
5)确定训练数据矫正后的可信标签,形成新的训练数据集:在得到加权的标签置信度矩阵后,分别判断原候选标签集和非候选标签集中标签可信程度,为每个样本x
i
重新分配其对应的可信标签集Y
i*
,其数据公式表示如下:其中,分别表示原候选标签集和非候选标签集对应的阈值;其中在上述步骤二中,包括以下步骤:1)构建训练数据:为任意标签对(y
j
,y
l
)(1≤j<l≤q)构建训练数据集,选择在这两个标签上标注情况不同的样本,因此,标签对(y
j
,y
l
)的训练数据表示如下:其中I(
·
)是指示函数,任意标签对对应的新标签η(Y
i*
,y
j
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。