基于基因大数据的小样本基因表达数据分类方法技术

技术编号:13459136 阅读:148 留言:0更新日期:2016-08-03 19:00
本发明专利技术公开了基于基因大数据的小样本基因表达数据分类方法,其技术步骤为:确定训练样本基因表达数据和类标签,构建矩阵;根据L阶频数统计结果和2阶频数统计结果,计算L+1阶估分,去除估分小于阈值的非频繁集;计算到最大阶数Lmax;计算不同类别差异化的缺失情况;对各阶评分表进行排序,建立决策表;根据决策表对测试样本进行判别并输出类别。本发明专利技术基于基因大数据的跨平台分类器训练模型,结合基因表达数据公共储存库中海量的数据与小规模基因表达样本混合训练,有效的提高了分类效果。同时,该方法解决了跨平台所带来的缺失值的影响。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,其技术步骤为:确定训练样本基因表达数据和类标签,构建矩阵;根据L阶频数统计结果和2阶频数统计结果,计算L+1阶估分,去除估分小于阈值的非频繁集;计算到最大阶数Lmax;计算不同类别差异化的缺失情况;对各阶评分表进行排序,建立决策表;根据决策表对测试样本进行判别并输出类别。本专利技术基于基因大数据的跨平台分类器训练模型,结合基因表达数据公共储存库中海量的数据与小规模基因表达样本混合训练,有效的提高了分类效果。同时,该方法解决了跨平台所带来的缺失值的影响。【专利说明】
本专利技术设及机器学习、数据挖掘、生物信息学等领域,特别设及一种根据小规模基 因表达数据样本改良的分类方法。
技术介绍
目前,随着基因微阵列技术的出现,通过检测基因表达可W发现研究基因的功能 或表现和不同基因间的相互关系,很快地成为生物学领域上一种重要的实验方法。关于基 因的应用研究已经在医疗、农业和环境等各个领域有着不错的成效,对基因表达谱的研究 具有一定的意义。因成本与技术等原因,基因表达数据往往样本数量少,但是基因数据的维 度高,运为基因表达数据分析带来一定的困难,针对基因表达数据的分析在国内外成为了 研究的热点。 针对基因表达数据的研究主要有分类和聚类,运里主要阐述分类。研究人员开始 将经典的分类算法应用到基因表达数据领域。如孔祥增专利技术一种基于模糊Κ-Γ^Ν算法的肿瘤 基因表达谱分类方法(专利申请号:201010234954.0),采用RFSC算法剔除无关基因,然后采 用模糊Κ-Γ^Ν算法对已剔除无关基因的基因表达谱数据进行分析。王文俊专利技术一种监督基因 表达数据分类方法(专利申请号:201410817036.9),先采用类别保留投影方法获得训练样 本的鉴别特征向量,再用最近邻分类器实现测试样本的分类识别。孙蠢等人专利技术用于肿瘤 检测的基因选择方法(专利申请号:201110319228.3 ),选择结束后,输出最优基因集合给分 类器。W上专利技术不可避免的是数据样本少,维度高,质量差等问题,都采取了一定的降低维 度的手段如剔除无关基因或提取特征变量等。 Geman等人提出的The Top Scoring PaiHTSP)分类器(论文Simple decision rules for cl曰ssifying hum曰n cancers from gene expression profiles)是一种基于 排序思想的分类模型,它主要通过比较样本内两两基因大小关系,根据评分选择最具'差异 化'的基因对进行分类。该方法是一种无参数、数据驱动的机器学习方法,能很好地避免过 拟合。与上文提到的专利技术不同的是,该方法没有对数据进行降维,但是在实验应用部分的数 据维度不高或者样本量不大。但是该方法采用样本内的基因比较,在基因表达数据上应用 具有一定的普适性。 降维手段会带来一定程度上的信息丢失,决不是解决基因表达数据样本少维度高 问题的最佳手段。构建一种通用的解决小规模基因表达样本分类问题的方法,具有研究的 价值与意义。近年来,检测实验已经累积产出了大量的基因表达数据,但由于测序平台的不 一,暂无国际标准,实验环境的不同,还有样本的差异等问题,导致基因数据的可比性差,质 量低。所W,现在的基因表达数储存库是大量的小规模基因表达样本的组合,带来了一定的 挑战与风险。
技术实现思路
本专利技术主要研究如何结合基因表达数据公共储存库中海量的数据与小规模基因 表达样本,提出一种基于基因大数据的跨平台分类方法。 为实现上述目的,本专利技术的技术方案包括W下步骤: (S1)构建矩阵:获取基因样本数据,并划分训练样本和测试样本;确定训练样本基 因表达数据和其类标签,给定N个基因表达样本,每个样本具有P个基因,构建一个N冲维的 矩阵R,矩阵R的最大阶数为Lmax,样本的类别为C= {C1,C2}; (S2)2阶"全捜索":对整个矩阵R进行捜索,每个训练样本的基因表达量两两形成 基因对,统计每个基因对的大小关系的频数,得到2阶频数统计结果,根据不同类别间的基 因大小关系频数的差值作为评分表的排序依据,得到2阶评分表;根据2阶评分表计算3阶组 合估分,设定阔值Smin,去掉估分小于阔值的非频繁集; (S3)多阶"剪枝":统计剩余频繁的3阶基因组合的大小关系的频数,得到3阶频数 统计结果,根据不同类别间的基因大小关系频数的差值作为评分表的排序依据,得到3阶评 分表;同样,可根据L阶频数统计结果和2阶频数统计结果计算L+1阶估分,去掉估分小于阔 值的非频繁集;阶数每增加1,重复步骤S3直至计算到最大阶数Lmax ; (S4)计算缺失:对基因表达数据缺失值情况做统计,记录存在的基因表达量与缺 失的基因表达量的频数,计算不同类别差异化的缺失情况; (S5)构建决策表:对各阶评分表按评分进行排序,当评分相同时根据基因对的缺 失情况调整,缺失率越低的基因组排名越靠前;从各阶评分表中选择前Z项不相关的基因有 序组合,加入到决策表; (S6)输出分类:根据决策表对测试样本进行判别,输出更接近的类别,如果程度相 等则根据缺失状态判别,输出对应的类别。 进一步地,步骤S2、S3中估分的计算方法为:1化1'〇13(1?1<扣<..瓜),口1'〇13(1?1<<化)} 得到:Prob(Ri<Rj<...Rk<Ri)e(a,0) 取上界与下界平均值可得到估分S二 其中,步骤S3中计算L+1阶估分时需在矩阵R上统计L+1阶的基因组合的频数,公式 化定义为: 计算L+1 阶的评分表为:Δ = |p(Ci)-p(C2) I。 其中,步骤S4中记录存在的基因表达量与缺失的基因表达量的频数,公式化定义 为: 缺失状态表的得分为Δ U= |pu(Ci)-pu(C2) I,选择评分最高为"特殊肿'。 其中,步骤S6中根据决策表对测试样本进行判别,输出更符合的类别,计算方法如 下: Xnew代表输入的新样本,Ri,new为输入的新样本在第i个基因表达量的值,ynew为最后 的输出集合,如果C1与C2程度相等则根据缺失值特殊对判别,输出对应的类别。 与现有技术对比,本专利技术具有W下优点: 1)基于基因大数据的跨平台分类器训练模型,结合基因表达数据公共储存库中海 量的数据与小规模基因表达样本混合训练,提高分类器的性能及分类效果。 2)本专利技术通过统计不同类的基因表达组合的差异化表现来进行判别,解决了跨平 台基因表达数据可比性差的问题。 3)能解决跨平台基因表达数据缺失值多的问题,分类正确识别率高。【附图说明】 图1为本专利技术的实现原理图; 图2为本专利技术的流程图。【具体实施方式】 为了使本领域的技术人员更好地理解本专利技术的技术方案,下面结合附图和具体实 施例对本专利技术作进一步详细的描述。 图1掲示了本专利技术的整体实现原理:首先从诸如GE0等基因表达数据公共储存库中 获取样本数据。对数据进行规整预处理,并统计样本的类标签集合,形成"强化集"。同时对 小规模基因表达样本对齐强化集基因分布序列,缺失的基因记为空值。从含有目标分类标 签的强化集,按比例与小规模基因样本测试集混合,加入到跨平台分类器模型组合训练,最 终判定输出分类结果。 本专利技术公开了分类器模型的分类方法本文档来自技高网
...

【技术保护点】
基于基因大数据的小样本基因表达分类方法,其特征在于,包括以下步骤:(S1)构建矩阵:获取基因样本数据,并划分训练样本和测试样本;确定训练样本基因表达数据和其类标签,给定N个基因表达样本,每个样本具有P个基因,构建一个N*P维的矩阵R,矩阵R的最大阶数为Lmax,样本的类别为C={C1,C2};(S2)2阶“全搜索”:对整个矩阵R进行搜索,每个训练样本的基因表达量两两形成基因对,统计每个基因对的大小关系的频数,得到2阶频数统计结果,根据不同类别间的基因大小关系频数的差值作为评分表的排序依据,得到2阶评分表;根据2阶评分表计算3阶组合估分,设定阈值Smin,去掉估分小于阈值的非频繁集;(S3)多阶“剪枝”:统计剩余频繁的3阶基因组合的大小关系的频数,得到3阶频数统计结果,根据不同类别间的基因大小关系频数的差值作为评分表的排序依据,得到3阶评分表;同样,可根据L阶频数统计结果和2阶频数统计结果计算L+1阶估分,去掉估分小于阈值的非频繁集;阶数每增加1,重复步骤S3直至计算到最大阶数Lmax;(S4)计算缺失:对基因表达数据缺失值情况做统计,记录存在的基因表达量与缺失的基因表达量的频数,计算不同类别差异化的缺失情况;(S5)构建决策表:对各阶评分表按评分进行排序,当评分相同时根据基因对的缺失情况调整,缺失率越低的基因组排名越靠前;从各阶评分表中选择前Z项不相关的基因有序组合,加入到决策表;(S6)输出分类:根据决策表对测试样本进行判别,输出更接近的类别,如果程度相等则根据缺失状态判别,输出对应的类别。...

【技术特征摘要】

【专利技术属性】
技术研发人员:郝志峰许柏炎蔡瑞初温雯张小文林殷娴王日宇陈炳丰
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1