一种基于平均距离权重和价值计算的多标签分类方法技术

技术编号：27594535 阅读：46 留言：0更新日期：2021-03-10 10:13

本发明专利技术属于多标签分类方法领域，具体涉及一种基于平均距离权重和价值计算的多标签分类方法。将包含标签的近邻和不包含标签的近邻信息加入到分类中，全面地将近邻样本对待测样本的影响进行考量。具体地，通过计算近邻样本的距离，并将距离进行量化后选取适当的权重，得到一个新的分类函数，并且在计算后验概率时加入价值概念，使得最终的分类结果更偏向弱势类。类。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于平均距离权重和价值计算的多标签分类方法

[0001]本专利技术属于多标签分类方法领域，具体涉及一种基于平均距离权重和价值计算的多标签k最近邻分类方法。

技术介绍

[0002]随着互联网技术的发展，数据的数量和复杂程度越来越大，多标签分类方法在面对这些数据时会出现分类性能下降的情况。多标签k最近邻分类方法 (ML
‑
kNN)的出现使得多标签学习的研究领域得到了极大的进展，但是 ML
‑
kNN也存在一定的局限性。在基于概率统计的ML
‑
KNN多标签分类方法里，待分类样本的k个近邻被隐含地认为对分类结果具有相同的影响而忽略了该k 个近邻与待分类样本距离的远近。
[0003]鉴于此，Zeng等人在2016年提出了IML
‑
kNN方法，在ML
‑
kNN基础上通过融合样本的最近邻和k个邻居的信息以达到正确分类的目的。该算法仅仅考虑了最近邻的影响，并不能全面地考虑到整体近邻样本对分类结果的影响，并且待测样本的k近邻中样本与待测样本的距离远近对于待测样本的标签也具有很大影响。对于大多数多标签数据集的某一类，正例的样本数远远小于负例的样本数，而在分类中应该更多关注的是正例的正确分类程度。
[0004]为了解决传统ML
‑
kNN方法中距离信息丢失的问题，2018年乔亚琴等人提出了构造k近邻数据的多标签分类方法(LinRML
‑
kNN和LogRML
‑
kNN)，通过对近邻样...

【技术保护点】

【技术特征摘要】
1.一种基于平均距离权重和价值计算的多标签分类方法，其特征在于，方法流程如下：步骤一，计算标签y
j
的先验概率，计算公式为：P(y
j
＝0)＝1
‑
P(y
j
＝0)；s为拉普拉斯平滑系数，一般取1，m为数据集中训练集的样本个数；步骤二，计算训练集样本x
z
的K个邻居N(x
i
)；步骤三，计算近邻样本选中标签y
j
的个数；步骤四，h[a]＝0，h'[a]＝0，对于样本x
i
，如果含有标签y
j
，则对于h[a]和h'[a]需要满足的条件为h[a]＝h[a]+1&&h'[a]＝h'[a]
‑
1，如果不包含标签y
j
，则需要满足的条件为h'[a]＝h'[a]+1&&h[a]＝h[a]
‑
1；步骤五，对于测试集样本x
i
中的近邻，若最终h[C
j
(x
i
)]＜0或者h'[C
j
(x
i
)]＜0，则需将h[C
j
(x
i
)]或者h'[C
j
(x
i
)]的值置为0；步骤六，计算后验条件概率；步骤七，对于x
i
包含标签的样本和不包含标签的样本对其分别计算平均距离d和d'，采用欧式距离；距离转化公式为：(d,d')表示；两个样本之间的距离，a为一个常数，将w的公式代入决策函数中，决策函数的最终形式为：其中含有标签j时，j＝1，否则j＝0；当j＝1时，t表示含有标签j的近邻样本的个数，w表示含有标签j的近邻样本的平均距离转化的权重；样本当j＝0时，表示不含有标签j的近邻样本个数，w表示不含有标签j的近邻样本的平均距离转化的权重，t/K和(K
‑
t)...

【专利技术属性】
技术研发人员：李小波，周书悦，
申请(专利权)人：浙江师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人