一种应用于生物信息学中类别不平衡分类方法技术

技术编号：17780379 阅读：25 留言：0更新日期：2018-04-22 09:14

本发明专利技术公开了一种应用于生物信息学中类别不平衡分类方法，首先利用有效的聚类融合方法对数据集进行多次聚类，产生多个聚类结果，称为聚类成员，并将各个聚类成员的簇标记进行匹配，接着计算各样本的“聚类一致性系数”，根据样本“聚类一致性系数”的高低找出处于少数类边界区域的样本和处于多数类中心区域的样本，并分别对少数类边界区域和多数类中心区域的样本进行过抽样和欠抽样处理，最后，利用传统的分类学习方法对重抽样后的数据集进行分类学习，生成相应的分类模型，能够有效发现少数类边界区域和多数类中心区域的样本，有针对性地进行过抽样和欠抽样处理，避免出现分类器过于拟合或丢失多数类中重要信息等现象。

全部详细技术资料下载

【技术实现步骤摘要】
一种应用于生物信息学中类别不平衡分类方法
本专利技术涉及生物信息学
，具体涉及一种应用于生物信息学中类别不平衡分类方法。
技术介绍
分类问题是机器学习领域研究的重要课题之一，目前主要的机器学习方法处理的数据大都是各类样本数目相差不悬殊，如果训练集中的正反例样本数目相差悬殊，则会使得分类器的性能下降，通常会出现把整个样本空间都划为大类的情况，因此类别不平衡学习正受到越来越广泛的关注；类别不平衡问题存在于许多领域，如金融欺诈检测、石油勘探、反垃圾邮件等，普通机器学习的分类方法无法直接应用于这些领域，在生物信息学研究中，存在大量类别不平衡的分类问题，由于大多数问题中的正例来自于实验验证，而反例通常不需要实验验证，因此获取反例的成本低、正例的成本高，从而在训练集中通常出现反例远远多于正例的情况，比如:非编码RNA基因挖掘，尤其是microRNA挖掘，此外，在SNP位点判别、microArray数据分析中也经常遇到这类问题。在处理类别不平衡学习问题上，最早是使用随机采样的办法来更改训练集的样本，从而使训练集达到平衡，最简单的两种方法是随机过采样(oversampling)和随机降采样(under-sampling)，前者通过复制一些小类别的样本使数据集达到平衡，后者则随机选取大类中的一个子集以达到同样的目的，研究表明随机过采样的方法通常会带来时间开销大、过拟合等问题，因此目前主要采取的都是降采样的办法，但是降采样方法只使用了大类的一个子集，并没有充分利用已有的信息，在经历随机采样方法之后，出现了许多人工采样的方法，SMOTE发展了过采样的思想，虽然也是增加小样...

【技术保护点】
一种应用于生物信息学中类别不平衡分类方法，其特征在于，首先利用有效的聚类融合方法对数据集进行多次聚类，产生多个聚类结果，称为聚类成员，并将各个聚类成员的簇标记进行匹配，接着计算各样本的“聚类一致性系数”，根据样本“聚类一致性系数”的高低找出处于少数类边界区域的样本和处于多数类中心区域的样本，并分别对少数类边界区域和多数类中心区域的样本进行过抽样和欠抽样处理，最后，利用传统的分类学习方法对重抽样后的数据集进行分类学习，生成相应的分类模型；其算法如下：定义训练集S={(x1，y1)，(x2，y2)，…，(xnum，ynum)}，num为训练集中样本的总个数，令X={x1，x2，…，xnum}，样本xi∈Xd，i=1，2，…，num是d维特征向量，类标记yi∈{P，N}，其中，P对应少数类，N对应多数类；输入训练集S，过抽样率n，欠抽样率m，最近邻个数k，聚类次数h，聚类一致性系数CI的阈值α；输出分类模型H。

【技术特征摘要】
1.一种应用于生物信息学中类别不平衡分类方法，其特征在于，首先利用有效的聚类融合方法对数据集进行多次聚类，产生多个聚类结果，称为聚类成员，并将各个聚类成员的簇标记进行匹配，接着计算各样本的“聚类一致性系数”，根据样本“聚类一致性系数”的高低找出处于少数类边界区域的样本和处于多数类中心区域的样本，并分别对少数类边界区域和多数类中心区域的样本进行过抽样和欠抽样处理，最后，利用传统的分类学习方法对重抽样后的数据集进行分类学习，生成相应的分类模型；其算法如下：定义训练集S={(x1，y1)，(x2，y2)，…，(xnum，ynum)}，num为训练集中样本的总个数，令X={x1，x2，…，xnum}，样本xi∈Xd，i=1，2，…，num是d维特征向量，类标记yi∈{P，N}，其中，P对应少数类，N对应多数类；输入训练集S，过抽样率n，欠抽样率m，最近邻个数k，聚类次数h，聚类一致性系数CI的阈值α；输出分类模型H。2.根据权利要求1所述的一种应用于生物信息学中类别不平衡分类方法，其特征在于，所述分类模型H的生成方法步骤如下：step1：fort=1toh//并行执行多次聚类；step1.1：在原特征空间中，随机选择第t次聚类的特征子空间Ft;step1.2：在数据集X中，随机选择k个初始簇中心;step1.3：更新初始簇中心，在特征子空间Ft下，利用k...

【专利技术属性】
技术研发人员：魏霖静，
申请(专利权)人：甘肃农业大学，
类型：发明
国别省市：甘肃,62

全部详细技术资料下载我是这个专利的主人