一种多标签解耦的双向重采样方法技术

技术编号:26506510 阅读:39 留言:0更新日期:2020-11-27 15:34
本发明专利技术涉及一种多标签解耦的双向重采样方法。通过对多标签数据集并发度较高的样本进行解耦,并在解耦阶段时对数据集样本解耦时设置解耦终止条件,使得解耦更加合理,重采样阶段对过采样和欠采样方法进行改进,并且将过采样与欠采样结合并且对样本标签进行比较,使得样本分布更加均衡的同时最大限度的保留含有弱势标签的样本,并且对数据集的原始分布情况不发生太大改变。

【技术实现步骤摘要】
一种多标签解耦的双向重采样方法
本专利技术属于多标签重采样领域,具体涉及一种多标签解耦的双向重采样方法。
技术介绍
目前在多标签学习中,由于分类器自身缺陷,分类器在多标签不平衡的数据集中分类性能下降明显。研究表明,分类器在标签平衡的数据集中表现更为优异。对数据集的平衡关系到最后的分类效果,现阶段主要采用重采样方式对数据集进行预处理使数据集达到平衡。但是现有的多标签不平衡处理方法会对数据集的分布造成一定的影响,单纯的过采样容易造成过拟合现象,单纯的欠采样容易造成信息丢失,而且单独使用这两种方法会对数据集的原始分布造成破坏。随着对多标签不平衡数据集研究的深入,研究发现强势标签和弱势标签在样本当中的并发现象也会造成分类器的性能下降,强势标签与弱势标签的解耦是广泛应用的方法,而标签不平衡和标签并发往往在数据集中是共同存在的,这更加造成了正确分类的难度。对于此类问题,将标签解耦方法与重采样方法结合的混合方法得到了重视。但是标签解耦方法在标签的并发程度达到平衡时还会继续进行解耦,使数据集产生“过解耦”状态,影响最终的分类效果。<br>
技术实现思路
<本文档来自技高网
...

【技术保护点】
1.一种多标签解耦的双向重采样方法,包括解耦和重采样,其特征在于,所述重采样包括:/n步骤一,随机选择标签集合中的一个标签y,若标签属于弱势标签,并且标签所包含的样本数小于平均样本数以及IR<MeanIR就随机产生一个抽样次数x,并满足x=Random(0,MeanSamples-|y|);/n步骤二,从标签的样本中随机选择m个样本,对这m个样本计算Min-SCUMBLEIns值,并且复制其中m个样本中Min-SCUMBLEIns值最低的样本,放回抽取x次,添加到数据集中,将需重采样的样本数减1;/n步骤三:若标签属于强势标签,/n则抽样次数x=Random(0,|y|-MeanSamp...

【技术特征摘要】
1.一种多标签解耦的双向重采样方法,包括解耦和重采样,其特征在于,所述重采样包括:
步骤一,随机选择标签集合中的一个标签y,若标签属于弱势标签,并且标签所包含的样本数小于平均样本数以及IR<MeanIR就随机产生一个抽样次数x,并满足x=Random(0,MeanSamples-|y|);
步骤二,从标签的样本中随机选择m个样本,对这m个样本计算Min-SCUMBLEIns值,并且复制其中m个样本中Min-SCUMBLEIns值最低的样本,放回抽取x次,添加到数据集中,将需重采样的样本数减1;
步骤三:若标签属于强势标签,
则抽样次数x=Random(0,|y|-MeanSamples);
步骤四:从标签的样本中随机选择m个样本对这m个样本计算Min-SCUMBLEIns值,将Min-SCUMBLEIns值最低的样本标签值设置为0,共抽取x次,将需重采样个数减1;
Xi表示数据集的第i个样本,Y表示数据集D的标签集,Li为Xi样本的标签集;解耦后的数据集为Dd,弱势标签域为minBag,强势标签域为majBag;
需重采样的样本数为数据集的数量乘以重采样率P;
即samplesToResampling=|D|*P;
根据公式1计算所有标签的标签不平衡数IR值,
根据公式2求出初始平均不平衡数MeanIR值,
根据公式3求出平均样本数MeanSamples的值;
根据公式4求出弱势标签度量Min-SCUMBLEIns的值;

















2.根据权利要求1所述的多标签解耦的双向重采样方法,其特征在于,所述解耦...

【专利技术属性】
技术研发人员:李小波周书悦
申请(专利权)人:浙江师范大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1