【技术实现步骤摘要】
一种基于PLS多扰动集成基因选择及肿瘤特异基因子集的识别方法
本专利技术涉及计算科学与生命科学交叉
,特别是一种基于PLS多扰动集成基因选择及肿瘤特异基因子集的识别方法。
技术介绍
肿瘤是一种复杂的基因疾病,是由于某些染色体上DNA损伤而导致的细胞内基因异常表达,表现为细胞生长失控,缺乏分化和异常增生的一类复杂疾病。肿瘤基因微阵列(Microarray)能够从分子水平上探索和解释复杂多样的肿瘤疾病的发生与发展形成等过程。针对高通量基因表达谱数据,利用机器学习等技术能够识别出复杂的肿瘤疾病相关的特异基因及其功能,对研究肿瘤的疾病机理、预测肿瘤的疾病类型有着重要的意义。肿瘤特异基因挖掘是为了寻找肿瘤相关的基因,目前已有方法通常直接或间接使用生物实验结合统计分析方法,来确定一组肿瘤相关的差异表达基因集合。事实上,这种基于统计方法的差异表达基因,对肿瘤的复杂遗传机制的探索是不充分的,或者说,这种所谓差异表达基因子集还不能捕获复杂遗传机制的全貌。基于微阵列技术的生物学研究中,出现大规模、高通量的实验数据,首先,数据中包含成千上万的基因,表现为数据的维数非常高,相比较于 ...
【技术保护点】
1.一种基于PLS多扰动集成基因选择及肿瘤特异基因子集的识别方法,其特征在于:包括以下步骤:步骤S1:建立多响应变量PLS模型,使用SIMPLS算法求解多响应变量PLS模型,实现基于PLS多基因度量;步骤S2:利用基于PLS多基因度量方法,在多扰动集成的基因选择的框架下,对样本数据进行基于PLS集成基因选择,得到样本数据的基因列表;步骤S3:利用基分类器,从上述排序好的基因列表中识别出识别率最高的前k个基因,形成肿瘤特异基因子集。
【技术特征摘要】
1.一种基于PLS多扰动集成基因选择及肿瘤特异基因子集的识别方法,其特征在于:包括以下步骤:步骤S1:建立多响应变量PLS模型,使用SIMPLS算法求解多响应变量PLS模型,实现基于PLS多基因度量;步骤S2:利用基于PLS多基因度量方法,在多扰动集成的基因选择的框架下,对样本数据进行基于PLS集成基因选择,得到样本数据的基因列表;步骤S3:利用基分类器,从上述排序好的基因列表中识别出识别率最高的前k个基因,形成肿瘤特异基因子集。2.根据权利要求1所述的一种基于PLS多扰动集成基因选择及肿瘤特异基因子集的识别方法,其特征在于:所述步骤S1中,建立多响应变量PLS模型具体为:给定一个已知类别的样本数据集{(Xi,yi)|Xi∈Rp,yi∈YC,i=1,…,n},其中YC={c1,c2,…,cg}是类标签集合,g表示类别的个数,每个样本的yi对应样本可能所属的某个类别YC;对原始的样本类标签(y)n×1进行编码,定义模式分类PLS模型中的因变量为Y=(yij)n×g∈{0,1}n×g,其中包括n个观测样本,g个类别,则也即经编码后的因变量为矩阵Y=(yij)n×g;通过利用类编码扩展方法,将原始的样本类标签(y)n×1扩展成多响应变量矩阵Y=(yij)n×g,建立多响应变量PLS模型。3.根据权利要求1所述的一种基于PLS多扰动集成基因选择及肿瘤特异基因子集的识别方法,其特征在于:所述步骤S1中,使用SIMPLS算法求解多响应变量PLS模型时,设置PLS模型中成分个数等于类别数g,以实现基于PLS多基因度量,具体实现步骤为:步骤S11:输入n行p列的样本数据集Xn×p,以及对应的类标签列向量Yn×1;步骤S12:编码类标签列向量Yn×1生成矩阵ClsYn×g,其中g为类别数目;步骤S13:调用算法SIMPLS(X,ClsY,g),得到成分矩阵T和权重矩阵W,并计算方差解释量Rd;步骤S14:设定变量i=1,2,...p,由i=1开始进行计算;步骤S15:计算得到第i个基因的vip值,vip值即为该基因的权值,再令i=i+1后再次进行计算;步骤S16:所有计算完成后输出每个基因的权值。4.根据权利要求1所述的一种基于PLS多扰动集成基因选择及肿瘤特异基因子集的识别方法,其特征在于:所述步骤S2中,对样本数据进行基于PLS集成基因选择具体包括以下步骤:步骤S21:生成不同的数据子集:通过对样本数据集的随机扰动,生成B个不同的数据子集;步骤S22:计算局部的基因权值:使用多基因度量方法,在...
【专利技术属性】
技术研发人员:游文杰,甘胜进,
申请(专利权)人:福建师范大学福清分校,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。