基于K-means与多任务关联学习结合的多分类方法技术

技术编号:19343808 阅读:279 留言:0更新日期:2018-11-07 14:30
本发明专利技术公开了一种基于K‑means与多任务关联学习结合的多分类方法;本发明专利技术将K‑means方法与多任务关联学习方法组合在一起进行多分类。使用K‑means下采样解决了多分类中训练样本不均衡的问题,并减小了训练集的数据量,有利于加快计算速度并减少计算机系统资源的占用。多任务关联学习算法有较强的分类能力,引入该算法作为分类器保证了组合算法的分类准确率,并使组合算法更具通用性。

Multi classification method based on K-means and multi task association learning

The invention discloses a multi-classification method based on the combination of K_means and multi-task Association learning, and combines the K_means method and multi-task association learning method for multi-classification. K_means downsampling is used to solve the problem of unbalanced training samples in multi-classification and reduce the amount of data in training set, which is helpful to accelerate the calculation speed and reduce the occupancy of computer system resources. The multi-task association learning algorithm has strong classification ability. The introduction of this algorithm as a classifier ensures the classification accuracy of the combination algorithm and makes the combination algorithm more universal.

【技术实现步骤摘要】
基于K-means与多任务关联学习结合的多分类方法
本专利技术属于机器学习及多分类领域,涉及一种基于K-means与多任务关联学习相结合的多分类方法。
技术介绍
多分类中一个经典的拆分策略是“一对其余”(Onevs.Rest,简称OvR):在一个N分类任务中,分别将其中一个类作为正类,其余所有类作为负类,训练N个二分类器。在预测阶段,将未知样本同时提交给所有二分类器,并将所有二分类器的结果进行集成,给出最终判断。在实际应用时,目前已有方法主要存在两大问题,一是在OvR中正负样本不均衡的问题,当样本分布不均衡时,常规分类器通常将少数类样本误认为噪声,从而导致分类结果偏向于多数类,导致分类精度很低;二是训练每个二分类器时都会使用全部训练样本,这样会增加算法的时间复杂度。为了解决OvR中遇到的上述问题,并提高多分类的准确率。本专利技术首先采用K-means方法对数据集进行下采样,获得平衡数据集的同时减少训练样本。接着采用多任务关联学习的方法对下采样后的数据进行分类,充分利用训练集包含的信息。本专利技术采用的K-means与多任务关联学习器相结合的方法能有效提高多分类正确率。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提出一种基于K-means与多任务关联学习结合的多分类方法。本专利技术方法包括以下步骤:步骤(1)、构建数据集采用数据库中的任一数据集作为样本数据集,分别将样本数据集中n个类别样本中的一类样本作为正类,标记为+1,其余所有样本作为负类,标记为-1,构建出n个训练子集Ci=1,2...n。步骤(2)、利用K-means方法对数据集下采样对于步骤(1)中构造的每个训练子集Ci=1,2...n,指定每个子集中正类样本数Ci+为聚类中簇的个数k;对训练子集中的负类样本采用K-means方法聚为Ci+个簇,并保留每个簇的聚类中心作为数据集中的负类,这样就获得了正负样本数相等的训练子集。步骤(3)、选择核函数多任务关联学习方法中使用核函数把特征映射到高维空间;由于高斯核在通用性方面具有优势,因此本专利技术中采用高斯核:其中σ>0为高斯核的带宽,xi、xj表示训练集中任一样本,k()表示核矩阵。步骤(4)、训练多任务关联学习器,确定正则化参数λ1和λ2的值将步骤(2)中下采样得到的每个训练子集作为一个分类任务用来训练多任务关联学习器;训练出n个二分类器CLi=1,2...n。在多任务关联学习方法中,需要指定两个优化参数λ1和λ2,在λ1∈{10-1,10-2,10-3,10-4,10-5}和λ2∈{10-2,10-3,10-4,10-5}中确定使分类器获得最高分类准确率的λ1和λ2值。步骤(5)、样本预测将每个待测样本X同时提交给所有二分类器,获得n个预测结果,对这n个结果进行集成后给出该样本所属类别。本专利技术的有益效果是:本专利技术的关键在于将K-means方法与多任务关联学习方法组合在一起进行多分类。使用K-means下采样解决了多分类中训练样本不均衡的问题,并减小了训练集的数据量,有利于加快计算速度并减少计算机系统资源的占用。多任务关联学习算法有较强的分类能力,引入该算法作为分类器保证了组合算法的分类准确率,并使组合算法更具通用性。附图说明图1为本专利技术的流程图。具体实施方式下面结合具体实施例对本专利技术做进一步的分析。本实施例采用UCI数据库中的Wine数据集作为训练的样本数据集。在运用基于K-means与多任务关联学习相结合的多分类算法进行多分类过程中具体包括以下步骤,如图1所示:步骤(1)、构建数据集Wine数据集中的数据共有3类,标签分别为“1”“2”“3”,因此需要构建3个训练子集,第一个子集C1将标签为“1”的样本标记为+1,标签为“2”“3”的样本标记为-1;第二个子集C2将标签为“2”的样本标记为+1,标签为“1”“3”的样本标记为-1;第三个子集C3将标签为“3”的样本标记为+1,标签为“1”“2”的样本标记为-1。步骤(2)、利用K-means方法对数据集下采样对于子集C1中标记为-1的全部样本,用K-means方法进行下采样,聚成C1+(C1+是C1中标记为+1的样本的个数)个簇,并选取这C1+个簇的质心作为C1数据集中的负类,替换掉C1中标记为-1的样本,这样就获得了正负样本数相等的数据子集。对其余训练子集C2和C3执行同样的操作。步骤(3)、选择核函数选择高斯核作为核函数,本实例中高斯核的带宽参数σ指定为1。步骤(4)、训练多任务关联学习器,确定正则化参数λ1和λ2的值将(2)中获得的每个训练子集随机抽取一半作为训练集tr,另一半作为验证集te,用来训练多任务关联学习器,得到3个二分类器CL1,CL2和CL3,分别对应原始数据集中的类别“1”“2”“3”。通过试验的方法在λ1∈{10-1,10-2,10-3,10-4,10-5}和λ2∈{10-2,10-3,10-4,10-5}中确定在验证集te上获得最高分类准确率的λ1和λ2值。步骤(5)、样本预测对于待预测的样本X,将X分别提交给分类器CL1,CL2和CL3,若只有一个分类器将该样本标记为正类(+1),则认为该样本属于该分类器所对应的类别。上述实施例并非是对于本专利技术的限制,本专利技术并非仅限于上述实施例,只要符合本专利技术要求,均属于本专利技术的保护范围。本文档来自技高网...

【技术保护点】
1.基于K‑means与多任务关联学习结合的多分类方法,其特征在于,该方法具体包括以下步骤:步骤(1)、构建数据集采用数据库中的任一数据集作为样本数据集,分别将样本数据集中n个类别样本中的一类样本作为正类,标记为+1,其余所有样本作为负类,标记为‑1,构建出n个训练子集Ci=1,2...n;步骤(2)、利用K‑means方法对数据集下采样对于步骤(1)中构造的每个训练子集Ci=1,2...n,指定每个子集中正类样本数Ci+为聚类中簇的个数k;对训练子集中的负类样本采用K‑means方法聚为Ci+个簇,并保留每个簇的聚类中心作为数据集中的负类,这样就获得了正负样本数相等的训练子集;步骤(3)、选择核函数多任务关联学习方法中使用核函数把特征映射到高维空间;步骤(4)、训练多任务关联学习器,确定正则化参数λ1和λ2的值将步骤(2)中下采样得到的每个训练子集作为一个分类任务用来训练多任务关联学习器;训练出n个二分类器CLi=1,2...n;在多任务关联学习方法中,需要指定两个优化参数λ1和λ2,在λ1∈{10‑1,10‑2,10‑3,10‑4,10‑5}和λ2∈{10‑2,10‑3,10‑4,10‑5}中确定使分类器获得最高分类准确率的λ1和λ2值;步骤(5)、样本预测将每个待测样本X同时提交给所有二分类器,获得n个预测结果,对这n个结果进行集成后给出该样本所属类别。...

【技术特征摘要】
1.基于K-means与多任务关联学习结合的多分类方法,其特征在于,该方法具体包括以下步骤:步骤(1)、构建数据集采用数据库中的任一数据集作为样本数据集,分别将样本数据集中n个类别样本中的一类样本作为正类,标记为+1,其余所有样本作为负类,标记为-1,构建出n个训练子集Ci=1,2...n;步骤(2)、利用K-means方法对数据集下采样对于步骤(1)中构造的每个训练子集Ci=1,2...n,指定每个子集中正类样本数Ci+为聚类中簇的个数k;对训练子集中的负类样本采用K-means方法聚为Ci+个簇,并保留每个簇的聚类中心作为数据集中的负类,这样就获得了正负样本数相等的训练子集;步骤(3)、选择核函数多任务关联学习方法中使用核函数把特征映射到高维空间;步骤(4)、训练多任务关联...

【专利技术属性】
技术研发人员:薛梦凡韩磊彭冬亮薛安克郭云飞陈志坤石义芳
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1