An ensemble classification method based on random greedy feature selection belongs to the field of bioinformatics and data mining, and classifies the gene expression data related to plant stress response. Includes the following steps: (1) the random greedy algorithm is introduced in the traditional feature selection; (2) used in complex network as a weighted local community discovery module function evaluation index as a randomized greedy algorithm of heuristic information; (3) using support vector machine algorithm training base classifier in each feature subset; (4) the base classifiers using affinity propagation clustering algorithm to cluster partition; (5) using the cluster as a representative point of the base classifier integration, integrated classification model is formed by a simple majority vote. The invention can identify whether the plant samples are stressed according to the gene expression data, greatly improves the classification accuracy of the microarray data, and has a strong generalization ability and a very good stability.
【技术实现步骤摘要】
基于随机化贪心特征选择的集成分类方法
本专利技术属于生物信息学和数据挖掘领域,特别是涉及对基因表达数据的重要基因的选择和选择性集成分类模型的构建。
技术介绍
高通量测序技术的发展,为研究者提供了海量的基因表达数据,从中提取出有价值的信息已经成为生物信息学的研究热点。植物在生长过程中经常会受到病虫害和环境因素的影响,如何预测并做好防治工作,对林业、农牧业、环境保护等多方面的发展将起到非常重要的作用。由于基因表达数据具有“高维度”、“小样本”和“高冗余”的特点,采用传统的单分类算法会出现分类稳定性差和准确率偏低等问题,因而对此类数据的分析需要处理能力较强的分类模型。由于基因表达数据的高维属性,需要选择出重要的特征用于分类。特征选择方法可以划分为三类:过滤式,包裹式和嵌入式。在对基因表达数据的分析中简单、高效的过滤式特征选择方法被广泛使用。过滤式特征选择算法分为特征排序和特征子集选择两种。目前大多数的排序方法忽略了特征之间的相互依赖关系,只是选择具有较强分类能力的个体特征。特征子集选择方法能够选择出具有较强分类能力的特征子集,并且考虑到特征集合整体的分类性能。因为找到最 ...
【技术保护点】
一种基于随机化贪心特征选择的集成分类方法,其特征在于,步骤如下:(1)在传统的贪心算法中引入随机性进行特征选择随机选取第一个特征,来扩大对特征的搜索空间;(2)将在复杂网络中作为社区发现评价指标的加权本地模块化函数,作为随机化贪心算法的启发信息复杂网络的特性有小世界、无标度和社区结构,本集成分类方法将数据挖掘技术与复杂网络相结合,使用复杂网络中社区发现的评价指标作为启发信息进行特征选择;加权本地模块化函数计算过程如下:1)构建加权无向图G(V,A),其中,基因微阵列数据集中的样本作为图中的顶点,对于任意两个顶点v1和v2,如果v1∈k‑NN(v2)或v2∈k‑NN(v1), ...
【技术特征摘要】
1.一种基于随机化贪心特征选择的集成分类方法,其特征在于,步骤如下:(1)在传统的贪心算法中引入随机性进行特征选择随机选取第一个特征,来扩大对特征的搜索空间;(2)将在复杂网络中作为社区发现评价指标的加权本地模块化函数,作为随机化贪心算法的启发信息复杂网络的特性有小世界、无标度和社区结构,本集成分类方法将数据挖掘技术与复杂网络相结合,使用复杂网络中社区发现的评价指标作为启发信息进行特征选择;加权本地模块化函数计算过程如下:1)构建加权无向图G(V,A),其中,基因微阵列数据集中的样本作为图中的顶点,对于任意两个顶点v1和v2,如果v1∈k-NN(v2)或v2∈k-NN(v1),则两个顶点之间存在权重为WE=exp(-d(v1,v2))的边;k-NN(v1)包含顶点v1的k近邻,d(v1,v2)为两个顶点之间的距离;2)依据样本的类别自然地对样本进行社区的划分3)对于每个特征子集,计算其基于加权本地模块化函数的重要度,表达式如下:其中:c为待分类基因微阵列数据集的类别数量;wi是在第i个社区中内部边权重的总和;Wi是社区i中内部边加上邻接边权重的总和;vi是社区i中所有顶点的度的总和,顶点的度代表与其邻接的边的权重总和;引入随机性的基于加权本地模块化函数的特征选择过程如下:1)设置当前的特征子集F={};2)随机选取一个特征加入到F中;3)对于每个不包含在F中的特征g,依据属性集合F+{g},计算其重要程度;4)找到使得步骤3)中的重要程度最大的特征g’,令F=F+{g’},重复该步骤直到特征子集F中的特征数量达到最大阈值;(3)在每个特征子集上使用支持向量机算法训练基分类器1)对于两类问题,如果将某一超平面两侧的样本点分为正类和负类,则用符号函数的方式推断样本x所对应类别的决策函数如下:f(x)=wTx+b(1-2)其中,w为超平面的法向量,决定超平面的方向;b为位移项,决定超平面与原点之间的距离;x为代表样本的向量;2)满足如下公式(1-3)的条件下,找到分类间隔最大的超平面:s.t.yj[(wTxj)+b]-1≥0,j=1,2,...,n其中,yj为样本xj的类别标签;3)将最大间隔法求解最优分类面的最优化问题转化为其对偶问题,通过求解相对简单的对偶问题来求解原分类问题,其公式如下:αp≥0,p=1,2,...,n其中,αp和αq为使用拉格朗日乘子法得到对偶问题的每个样本的拉格朗日乘子系数;4)通过引入松弛变量和惩罚因子来解决非线性分类问题,其优化目标为:s.t.yj[(wTxj+b)]≥1-ζj(j=1,2,...,n)其中,ζj为松弛变量,C是松弛变量的权重;5)SVM通过用内积函数定义的非线性变换,将输入空间变换到高维空间,然后再在高维空间中求最优分类面的分类方法,使得在低维空间中线性不可分的问题变换为在高维空间中线性可分的问题;令φ(x)表示将x映射后的特征向量,在特征空间中划分超平面对应的模型和相应的优化模型表示如下:f(x)=wTφ(x)+b(1-6)s.t.yj[(wTφ(...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。