当前位置: 首页 > 专利查询>李亦学专利>正文

确定差异表达基因的混合线性模型两步筛选法制造技术

技术编号:1755395 阅读:335 留言:0更新日期:2012-04-11 18:40
一种鉴别差异表达基因的方法,其特征在于,该方法通过两个步骤鉴定差异表达基因:先将芯片数据通过噪音过滤消除大的试验系统误差,然后通过单基因模型初步判断符合显著性标准A的差异表达基因;其次,用多基因模型分析这些初定的差异表达基因,选出符合显著性标准B的基因;其中显著性标准A和B之间的关系是A/B≥5,以便控制假阳性。采用Jackknife重复抽样技术估算检验统计量的显著性,在单基因模型中将处理考察因素的方差作为初定差异表达基因的具体指标,在多基因模型中将基因和考察因素的互作效应作为鉴定差异表达基因的具体指标。本发明专利技术的方法能够提供可靠的分析结果,大大降低分析结果的假阳性概率,并大幅度提高大规模基因表达数据分析的效率。

【技术实现步骤摘要】

本专利技术属于大规模基因表达数据处理
,特别涉及一种高效准确鉴别差异表达基因的方法。
技术介绍
在患病人群中,某些基因发生突变和功能失调等原因会导致其本身基因表达水平的变异,这样,通过基因芯片技术分析和比较患病人群和正常人群中基因表达谱,就有可能发现在两种人群中一些表达不一致(即有差异)的基因。这些基因可能与某特定疾病有关,因此,可用来做进一步功能分析、药物设计和临床诊断等应用。同样,也可通过基因芯片技术分析和比较服药人群和正常人群以鉴别某特定药物的药效等等。随着基因芯片制作技术的提高和基因芯片价格的下降,该技术在基因功能分析、致病机制研究、药物毒性分析、中药药理机制和药效成分研究及医疗诊断等方面得到了广泛应用。准确分析基因芯片测定结果的需求大增。然而,现有的分析基因芯片测定结果的数据处理方法所获得的结果不很可靠,因为基于基因芯片技术的大规模基因表达谱测定过程中存在多种误差来源,如芯片制作点样差异,探针标记杂交温度和湿度变化,不能准确地鉴别真正由于考察因素如药物处理或疾病等引起差异表达的基因,难以辨别真实的基因表达变化和随机的实验误差,容易导致假阴性和假阳性。根据包含大量假阴性和假阳性的基因得到的聚类分析难以得到具有实际生物学意义的科学结论。因此,本领域中迫切需要开发出一种能克服上述缺陷,降低分析结果的假阳性概率的方法。
技术实现思路
为解决上述问题,本专利技术提供了一种鉴别差异表达基因的方法,其特征在于,该方法通过两个步骤鉴定差异表达基因先将芯片数据通过噪音过滤消除大的试验系统误差,然后通过单基因模型初步判断符合显著性标准A的差异表达基因;其次,用多基因模型分析这些初定的差异表达基因,选出符合显著性标准B的基因;其中显著性标准A和B之间的关系是A/B≥5,以便控制假阳性。在一个较佳的实施方案中,在所述用多基因模型分析差异表达基因的步骤中,剖分出基因主效应及基因与各项考察因素的互作效应,用MINQUE法估计各项效应的方差和协方差分量,用AUP法预测随机效应,在较严格的标准下鉴定差异表达基因控制假阳性。在另一方案中,在单基因模型分析步骤中,用MINQUE法估计各项变异来源的方差分量σu(l)2,用Jackknife抽样法估算方差分量估计值的抽样方差;针对每个基因检验该基因的处理效应的方差是否为0;如果拒绝第l基因的H0,则该基因被初步判定为可能的差异表达基因,对应的该基因的观察值将进入多基因模型进一步分析。在另一方案中,在多基因模型中用MINQUE法估计模型的各项方差分量,用AUP法预测随机效应大小;Jackknife抽样技术结合t检验用来检验多基因模型包括的可能的差异表达基因是否真正为处理引起的差异表达,也就是基因与处理的互作效应是否与0有显著差异;对于第l个基因至少有一个基因与处理互作效应不为0,则将基因l作为差异表达基因。具体而言,本专利技术的方法包括以下步骤1)通过噪音过滤消除大的试验系统误差;2)通过单基因模型检测考察因素方差变异的大小在一个比较宽松的标准下初步筛选差异表达基因;3)用多基因模型分析这些数目相对较少的初定的差异表达基因,可以剖分出基因主效应及基因与各项考察因素的互作效应,用MINQUE法估计各项效应的方差和协方差分量,用AUP法预测随机效应,在较严格的标准下鉴定差异表达基因控制假阳性;4)采用Jacknife重复抽样技术估算检验统计量的显著性;5)将基因和考察因素的互作效作为鉴定差异表达基因的具体指标;6)对基因主效应的无偏估计值和基因与处理因素互作效应的无偏预测值进行进一步的聚类分析,得到相对真实的具有生物学意义的科学结论。本专利技术通过对大规模基因芯片表达谱数据,首先应用本专利技术所提出的单基因模型完成差异表达基因鉴别的初筛选,然后再对初选到的基因用多基因模型进行分析,根据基因和考察因素的互作效应这个指标判定差异表达基因。实验证明,该方法的分析结果非常可靠,能大大降低分析结果的假阳性概率,大幅度提高大规模基因表达数据分析的效率。本专利技术的经济效益和社会效益分析,基因芯片分析发现的差异表达基因可进一步用于基因功能分析和药物设计等领域,经济效益和社会效益非常显著。在实际应用过程中,必须尽量确保这些发现的基因是具有真实的差异表达(即不是假阳性的基因)。对假阳性的基因进行功能分析会造成资源的浪费,同样也会导致药物设计的失败和临床诊断的错误等。在一般基因芯片试验中,通常能发现与研究目标(如寻找某种癌症致病机理或某种药物药效等)有关的差异表达基因约200个,本专利技术能在大多情形下有效降低假阳性的基因至少5%至10%(即10至20个基因),这样一次应用试验可节省费用=10~20个×10万元/基因=100~200万元。同时,本专利技术能更有效地发现新的传统方法未能发现的基因2~5%(即4至10个基因),这样一次应用试验可增加经济效益=4~10×20万元/基因=80~200万元。累计节省费用和经济效益随着基因芯片技术的推广和应用而不断增加。附图简述附图说明图1.三种方法鉴定差异表达基因的判错率(FDR)及功效(power)比较,图中虚线表示判错率,实线表示功效,三种方法为混合线性模型(圆圈),无过滤的t-检验(三角)及变异倍数过滤加t-检验(方块)。VGT/VP为基因与处理的互作方差占总表型变异的比例,其值从0.1变化到0.9。EQUAL为效应A,D,T,GA,GD和ε的方差相同,即VA∶VD∶VT∶VGA∶VGD∶Vε=1∶1∶1∶1∶1∶1;ARRAYDOM表示效应A和GA在剩余的表型变异中占绝对优势,即(VA+VGA)/(VP-VGT)=0.9,VD∶VT∶VGD∶Vε=1∶1∶1∶1;DYEDOM表示效应D和GD在剩余的表型变异中占绝对优势,即(VD+VGD)/(VP-VGT)=0.9,VA∶VT∶VGA∶Vε=1∶1∶1∶1;TREATDOM表示效应T在剩余的表型变异中占绝对优势,即VT/(VP-VGT)=0.9,VA∶VD∶VGA∶VGD∶Vε=1∶1∶1∶1∶1。图2显示了三种方法鉴定差异表达基因的判错的基因个数(FN)比较。图中三种方法为混合线性模型(圆圈),无过滤的t-检验(三角)及变异倍数过滤加t-检验(方块)。图3示意性地显示了本专利技术整个方法的分析流程。具体实施例方式本专利技术克服了现有分析数据处理方法的缺点,设计了一种基于混合线性模型的两步法分析基因芯片数据的方法。该方法可以有效地将基因表达水平根据变异来源的不同剖分为几个组成部分。其中根据不同的研究试验设计,模型可以做适当的调整。通过两个步骤鉴定差异表达基因首先,将经过数据标准化的芯片数据通过噪音过滤消除大的试验系统误差,然后在一个比较宽松的标准下通过单基因模型初步判断差异表达基因;其次,用多基因模型分析这些初定的差异表达基因以便在较严的标准下控制假阳性。用最小范数二次无偏估计方法(MINQUE法)估计各项效应的方差和协方差分量,用调整预测方法(AUP法)预测随机效应。例如对于一个不同药物处理对基因表达影响的研究,噪音过滤模型为yijkl=μ+Ai+Tj+Dk+εijkl,其中yijkl是实验获得的第i张芯片上的第j种药物处理的标记为第k种荧光的第l个基因的表达量;μ是所有基因的平均表达量;Ai是芯片效应,Ai~(0,σA2);本文档来自技高网...

【技术保护点】
一种鉴别差异表达基因的方法,其特征在于,该方法包括:先将芯片数据通过噪音过滤消除大的试验系统误差,然后通过单基因模型初步判断符合显著性标准A的差异表达基因;其次,用多基因模型分析这些初定的差异表达基因,选出符合显著性标准B的基因;其中显著性标准A和B之间的关系是A/B≥5,以便控制假阳性;采用Jackknife重复抽样技术估算检验统计量的显著性,在单基因模型中将处理考察因素的方差作为初定差异表达基因的具体指标,在多基因模型中将基因和考察因素的互作效应作为具体指标来鉴定差异表达基因。

【技术特征摘要】

【专利技术属性】
技术研发人员:朱军陆燕李亦学
申请(专利权)人:李亦学朱军陆燕
类型:发明
国别省市:31[中国|上海]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1