当前位置: 首页 > 专利查询>中南大学专利>正文

不平衡数据集的分类方法技术

技术编号:19481200 阅读:40 留言:0更新日期:2018-11-17 10:40
本发明专利技术公开了一种不平衡数据集的分类方法,包括获取训练数据并得到训练数据的候选频繁项集;对候选频繁项集进行过滤;将候选关联规则分类至规则集合中;衡量规则前件和后件的相关性得到分类关联规则;对得到的分类关联规则进行过滤和排序从而得到分类器;采用分类器对不平衡数据进行分类。本发明专利技术方法结合了增比置信度、负关联规则挖掘、增比率和规则强度定义,通过多种因素的结合,能更全面的衡量规则的优先级,因此本发明专利技术方法能够在不平衡数据集中有很好的分类效果,在保证整体分类效果的情况下,能够有效提高分类效果,而且本发明专利技术方法简单可靠。

【技术实现步骤摘要】
不平衡数据集的分类方法
本专利技术具体涉及一种不平衡数据集的分类方法。
技术介绍
分类作为数据挖掘领域的一个重要分支,被广泛应用于科学研究、医疗、金融、以及制造业等领域。随着分类技术在各领域应用中的不断深入,新问题和挑战也伴随而来,例如,在实际的应用中,难免会碰到不平衡数据集,如何针对不平衡数据集进行分类是一个广受关注的问题。不平衡数据集是相对于平衡数据集而言的,它是指在某个数据集中,数据类别的分布不均匀,或者说在该数据集中,类别的分布相差很大。对于某个二分类问题的不平衡数据集,把其中样本量少的类称为正类(也称为小类或者是少类),反之,把样本量多的类称为负类(也称为大类或者是多数类)。不平衡数据集广泛存在于我们的实际生活中,例如医疗诊断、卫星图像中的石油泄漏、垃圾邮件过滤等。因此,如何针对不平衡数据集的分类问题具有很高的应用价值以及广泛的应用前景。目前的不平衡数据集的分类方法,往往方法较为复杂,而且精度相对不高,影响了不平衡数据集的分类效果。
技术实现思路
本专利技术的目的之一在于提供一种简单可靠且分类效果较好的不平衡数据集的分类方法。本专利技术提供的这种不平衡数据集的分类方法,包括如下本文档来自技高网...

【技术保护点】
1.一种不平衡数据集的分类方法,包括如下步骤:S1.获取训练数据,得到训练数据的候选频繁项集;S2.对步骤S1得到的候选频繁项集进行过滤;S3.将候选关联规则分类至相应类别的规则集合中;S4.衡量规则前件和后件的相关性,从而得到各类别相关的分类关联规则;S5.以规则强度作为衡量指标对步骤S4得到的分类关联规则进行过滤和排序,从而得到分类器;S6.采用步骤S5得到的分类器对不平衡数据进行分类。

【技术特征摘要】
1.一种不平衡数据集的分类方法,包括如下步骤:S1.获取训练数据,得到训练数据的候选频繁项集;S2.对步骤S1得到的候选频繁项集进行过滤;S3.将候选关联规则分类至相应类别的规则集合中;S4.衡量规则前件和后件的相关性,从而得到各类别相关的分类关联规则;S5.以规则强度作为衡量指标对步骤S4得到的分类关联规则进行过滤和排序,从而得到分类器;S6.采用步骤S5得到的分类器对不平衡数据进行分类。2.根据权利要求1所述的不平衡数据集的分类方法,其特征在于步骤S1所述的得到训练数据的候选频繁项集,具体为对训练数据采用Apriori算法,同时设置最小支持度阈值,从而得到满足最小支持度阈值的候选频繁项集。3.根据权利要求1所述的不平衡数据集的分类方法,其特征在于步骤S2所述的对候选频繁项集进行过滤,具体为设置最小增比率阈值,然后采用如下规则进行过滤:若频繁项集的增比率低于最小增比率阈值,则将该频繁项集过滤;若频繁项集的增比率大于或等于最小增比率阈值,则将该频繁项集保留;若频繁项集的增比率无穷大,则该频繁项集的增比率定义为该类别相关的所有频繁项集的增比率的均值。4.根据权利要求3所述的不平衡数据集的分类方法,其特征在于所述的增比率,具体为采用如下算式计算增比率:式中ER(x→C)为规则x→C的增比率,CSup(x→C)为类支持度且CSup(x→C)=N(x∪C)/N(C),N(x∪C)表示x和C同时出现在事务集D中的次数,N(C)表示类C在事务集中出现的次数,x表示规则前件,表示类C的补类。5.根据权利要求1~4之一所述的不平衡数据集的分类方法,其特征在于步骤S3所述的将候选关联规则分类至相应类别的规则集合,具体为设置增比置信度阈值,然后采用如下规则进行分类:若候选关联规则的增比置信度大于或等于增比置信度阈值,则将该关联规则加入到对应类别的规则集合中;若候选关联规则的增比置信度小于增比置信度阈值,则将该关联规则删除。6.根据权利要求5所述的不平衡数据集的分类方法,其特征在于所述的候选关联规则的增比置信度,具体为采用如下算式计算增比置信度:E...

【专利技术属性】
技术研发人员:李芳芳段昱毛星亮
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1