The invention discloses a multi-classification method based on the combination of K_means and multi-task Association learning, and combines the K_means method and multi-task association learning method for multi-classification. K_means downsampling is used to solve the problem of unbalanced training samples in multi-classification and reduce the amount of data in training set, which is helpful to accelerate the calculation speed and reduce the occupancy of computer system resources. The multi-task association learning algorithm has strong classification ability. The introduction of this algorithm as a classifier ensures the classification accuracy of the combination algorithm and makes the combination algorithm more universal.
【技术实现步骤摘要】
基于K-means与多任务关联学习结合的多分类方法
本专利技术属于机器学习及多分类领域,涉及一种基于K-means与多任务关联学习相结合的多分类方法。
技术介绍
多分类中一个经典的拆分策略是“一对其余”(Onevs.Rest,简称OvR):在一个N分类任务中,分别将其中一个类作为正类,其余所有类作为负类,训练N个二分类器。在预测阶段,将未知样本同时提交给所有二分类器,并将所有二分类器的结果进行集成,给出最终判断。在实际应用时,目前已有方法主要存在两大问题,一是在OvR中正负样本不均衡的问题,当样本分布不均衡时,常规分类器通常将少数类样本误认为噪声,从而导致分类结果偏向于多数类,导致分类精度很低;二是训练每个二分类器时都会使用全部训练样本,这样会增加算法的时间复杂度。为了解决OvR中遇到的上述问题,并提高多分类的准确率。本专利技术首先采用K-means方法对数据集进行下采样,获得平衡数据集的同时减少训练样本。接着采用多任务关联学习的方法对下采样后的数据进行分类,充分利用训练集包含的信息。本专利技术采用的K-means与多任务关联学习器相结合的方法能有效提高多分类正确率。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提出一种基于K-means与多任务关联学习结合的多分类方法。本专利技术方法包括以下步骤:步骤(1)、构建数据集采用数据库中的任一数据集作为样本数据集,分别将样本数据集中n个类别样本中的一类样本作为正类,标记为+1,其余所有样本作为负类,标记为-1,构建出n个训练子集Ci=1,2...n。步骤(2)、利用K-means方法对数据集下采样对于步骤 ...
【技术保护点】
1.基于K‑means与多任务关联学习结合的多分类方法,其特征在于,该方法具体包括以下步骤:步骤(1)、构建数据集采用数据库中的任一数据集作为样本数据集,分别将样本数据集中n个类别样本中的一类样本作为正类,标记为+1,其余所有样本作为负类,标记为‑1,构建出n个训练子集Ci=1,2...n;步骤(2)、利用K‑means方法对数据集下采样对于步骤(1)中构造的每个训练子集Ci=1,2...n,指定每个子集中正类样本数Ci+为聚类中簇的个数k;对训练子集中的负类样本采用K‑means方法聚为Ci+个簇,并保留每个簇的聚类中心作为数据集中的负类,这样就获得了正负样本数相等的训练子集;步骤(3)、选择核函数多任务关联学习方法中使用核函数把特征映射到高维空间;步骤(4)、训练多任务关联学习器,确定正则化参数λ1和λ2的值将步骤(2)中下采样得到的每个训练子集作为一个分类任务用来训练多任务关联学习器;训练出n个二分类器CLi=1,2...n;在多任务关联学习方法中,需要指定两个优化参数λ1和λ2,在λ1∈{10‑1,10‑2,10‑3,10‑4,10‑5}和λ2∈{10‑2,10‑3,10‑4, ...
【技术特征摘要】
1.基于K-means与多任务关联学习结合的多分类方法,其特征在于,该方法具体包括以下步骤:步骤(1)、构建数据集采用数据库中的任一数据集作为样本数据集,分别将样本数据集中n个类别样本中的一类样本作为正类,标记为+1,其余所有样本作为负类,标记为-1,构建出n个训练子集Ci=1,2...n;步骤(2)、利用K-means方法对数据集下采样对于步骤(1)中构造的每个训练子集Ci=1,2...n,指定每个子集中正类样本数Ci+为聚类中簇的个数k;对训练子集中的负类样本采用K-means方法聚为Ci+个簇,并保留每个簇的聚类中心作为数据集中的负类,这样就获得了正负样本数相等的训练子集;步骤(3)、选择核函数多任务关联学习方法中使用核函数把特征映射到高维空间;步骤(4)、训练多任务关联...
【专利技术属性】
技术研发人员:薛梦凡,韩磊,彭冬亮,薛安克,郭云飞,陈志坤,石义芳,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。