一种基于平均距离权重和价值计算的多标签分类方法技术

技术编号:27594535 阅读:46 留言:0更新日期:2021-03-10 10:13
本发明专利技术属于多标签分类方法领域,具体涉及一种基于平均距离权重和价值计算的多标签分类方法。将包含标签的近邻和不包含标签的近邻信息加入到分类中,全面地将近邻样本对待测样本的影响进行考量。具体地,通过计算近邻样本的距离,并将距离进行量化后选取适当的权重,得到一个新的分类函数,并且在计算后验概率时加入价值概念,使得最终的分类结果更偏向弱势类。类。

【技术实现步骤摘要】
一种基于平均距离权重和价值计算的多标签分类方法


[0001]本专利技术属于多标签分类方法领域,具体涉及一种基于平均距离权重和价值计算的多标签k最近邻分类方法。

技术介绍

[0002]随着互联网技术的发展,数据的数量和复杂程度越来越大,多标签分类方法在面对这些数据时会出现分类性能下降的情况。多标签k最近邻分类方法 (ML

kNN)的出现使得多标签学习的研究领域得到了极大的进展,但是 ML

kNN也存在一定的局限性。在基于概率统计的ML

KNN多标签分类方法里,待分类样本的k个近邻被隐含地认为对分类结果具有相同的影响而忽略了该k 个近邻与待分类样本距离的远近。
[0003]鉴于此,Zeng等人在2016年提出了IML

kNN方法,在ML

kNN基础上通过融合样本的最近邻和k个邻居的信息以达到正确分类的目的。该算法仅仅考虑了最近邻的影响,并不能全面地考虑到整体近邻样本对分类结果的影响,并且待测样本的k近邻中样本与待测样本的距离远近对于待测样本的标签也具有很大影响。对于大多数多标签数据集的某一类,正例的样本数远远小于负例的样本数,而在分类中应该更多关注的是正例的正确分类程度。
[0004]为了解决传统ML

kNN方法中距离信息丢失的问题,2018年乔亚琴等人提出了构造k近邻数据的多标签分类方法(LinRML

kNN和LogRML

kNN),通过对近邻样本与测试样本之间的距离关系,重新构造了新的数据集。在所构造的新数据集中,新数据的特征定义为近邻样本的距离与相关标签的加权和。通过这种方式,样本中可以包含近邻样本的距离,并且将近邻样本的个数也加入到数据的特征中,特征中包含了更多的信息。通过构造新数据集进行分类的方法虽然在一定程度上弥补了ML

kNN的缺陷,但其完全依靠近邻之间的信息进行预测,不能结合近邻的概率特征进行预测。

技术实现思路

[0005]本专利技术主要针对上述问题,提出了基于平均距离权重和价值计算的多标签分类方法(average Distance weight and Value ML

kNN,DVML

kNN),将包含标签的近邻和不包含标签的近邻信息加入到分类中,全面地将近邻样本对待测样本的影响进行考量。具体地,通过计算近邻样本的距离,并将距离进行量化后选取适当的权重,得到一个新的分类函数,并且在计算后验概率时加入价值概念,使得最终的分类结果更偏向弱势类。
[0006]本专利技术的上述技术问题是通过以下技术方案得以实施的:一种基于平均距离权重和价值计算的多标签分类方法,其特征在于,方法流程如下:
[0007]输入:训练集,测试集;
[0008]输出:分类结果。
[0009]步骤一,计算标签y
j
的先验概率,计算公式为:
[0010]P(y
j
=0)=1

P(y
j
=0);
[0011]s为拉普拉斯平滑系数,一般取1,m为数据集中训练集的样本个数。
[0012]步骤二,计算训练集样本xz的K个邻居N(x
i
)。
[0013]步骤三,计算近邻样本选中标签y
j
的个数;
[0014][0015]步骤四,h[a]=0,h'[a]=0,对于样本x
i
,如果含有标签y
j
,则对于h[a] 和h'[a]需要满足的条件为h[a]=h[a]+1&&h'[a]=h'[a]‑
1,如果不包含标签y
j
,则需要满足的条件为h'[a]=h'[a]+1&&h[a]=h[a]‑
1。
[0016]步骤五,对于测试集样本x
i
中的近邻,若最终h[C
j
(x
i
)]<0
[0017]或者h'[C
j
(x
i
)]<0,则需将h[C
j
(x
i
)]或者h'[C
j
(x
i
)]的值置为0。
[0018]步骤六,计算后验条件概率。
[0019]步骤七,对于x
i
包含标签的样本和不包含标签的样本对其分别计算平均距离d和d',采用欧式距离;
[0020]距离转化公式为:
[0021](d,d')表示;两个样本之间的距离,a为一个常数,
[0022]将w的公式代入决策函数中,决策函数的最终形式为:
[0023][0024]步骤八,根据决策公式计算最终结果,判断x
i
的分类结果。
[0025]作为优选,所述步骤四即为价值计算,训练集样本在完成价值计算之后,如果h[a]或者h'[a]的值小于0时,则将h[a]或者h'[a]的值置为0。
[0026]作为优选,所述价值计算的过程主要为:计算后验条件概率P(C
j(xi)
|y
j
) 时,当数据集中的某一样本x的近邻中有a个近邻选择标签y
j
,且样本x 选择了标签y
j
,则h[a]的值增加1,将h'[a]的值减少1;若样本x未选择标签y
j
,并且有a个近邻选择标签y
j
,则对h'[a]的值增加1,h[a]的值减少1,初始值为0,h'[a]的最大值为K;当计算后的h[a]或者h'[a]的值小于0时,将h[a]或者h'[a]的值均置为0;最后通过最终得到的h[a]和h'[a] 计算后验条件概率。
[0027]作为优选,所述后验条件概率计算公式为:
[0028][0029][0030]其中s为拉普拉斯平滑系数,一般取1。
[0031]作为优选,所述决策函数的过程:
[0032]步骤1,首先确定ML

kNN中标签的先验概率:
[0033][0034]其中s为拉普拉斯平滑系数,一般取1,m数据集中训练集的样本个数;
[0035]步骤2,在ML

kNN基础上得到一个新的分类函数:
[0036][0037]其中含有标签j时,j=1,否则j=0;当j=1时,t表示含有标签j的近邻样本的个数,w表示含有标签j的近邻样本的平均距离转化的权重;
[0038]样本当j=0时,表示不含有标签j的近邻样本个数,w表示不含有标签j的近邻样本的平均距离转化的权重,t/K和(K

t)/K分别表示不同的加权系数;
[0039]距离转化成权重w要求距离越小则权重越大;
[0040]步骤3,高斯转换
[0041][0042]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于平均距离权重和价值计算的多标签分类方法,其特征在于,方法流程如下:步骤一,计算标签y
j
的先验概率,计算公式为:P(y
j
=0)=1

P(y
j
=0);s为拉普拉斯平滑系数,一般取1,m为数据集中训练集的样本个数;步骤二,计算训练集样本x
z
的K个邻居N(x
i
);步骤三,计算近邻样本选中标签y
j
的个数;步骤四,h[a]=0,h'[a]=0,对于样本x
i
,如果含有标签y
j
,则对于h[a]和h'[a]需要满足的条件为h[a]=h[a]+1&&h'[a]=h'[a]

1,如果不包含标签y
j
,则需要满足的条件为h'[a]=h'[a]+1&&h[a]=h[a]

1;步骤五,对于测试集样本x
i
中的近邻,若最终h[C
j
(x
i
)]<0或者h'[C
j
(x
i
)]<0,则需将h[C
j
(x
i
)]或者h'[C
j
(x
i
)]的值置为0;步骤六,计算后验条件概率;步骤七,对于x
i
包含标签的样本和不包含标签的样本对其分别计算平均距离d和d',采用欧式距离;距离转化公式为:(d,d')表示;两个样本之间的距离,a为一个常数,将w的公式代入决策函数中,决策函数的最终形式为:其中含有标签j时,j=1,否则j=0;当j=1时,t表示含有标签j的近邻样本的个数,w表示含有标签j的近邻样本的平均距离转化的权重;样本当j=0时,表示不含有标签j的近邻样本个数,w表示不含有标签j的近邻样本的平均距离转化的权重,t/K和(K

t)...

【专利技术属性】
技术研发人员:李小波周书悦
申请(专利权)人:浙江师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1