一种计算寡核苷酸基因芯片的UniGene表达量的算法制造技术

技术编号:5947355 阅读:338 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种计算寡核苷酸基因芯片的UniGene表达量的算法,属于生物技术领域,涉及基因芯片方面。本发明专利技术主要包括如下流程:步骤1,获得探针水平的表达值数据;步骤2,将探针集归入不同的UniGene;步骤3,以UniGene为单位,合并同一个UniGene下的探针集;步骤4,分别对每个UniGene下的所有探针进行层次聚类分析;步骤5,寻找层次聚类结果中的最大探针子集,作为该UniGene的代表探针集;步骤6,将代表探针集转化为UniGene水平的最终表达值。本发明专利技术的优点在于:该方法将多个探针集合并为一个UniGene来报告最终的表达值,综合了多个探针集的信息,相比于常规方法中单独使用一个探针集,结果更为可靠。

【技术实现步骤摘要】

本专利技术属于生物
,涉及基因芯片方面。技术背景Affymetrix公司(Santa Clara, USA)是高密度寡核苷酸基因 芯片全球最大的提供商。该公司在制造微阵列的生产过程中结合了化 学和半导体技术,使Affymetrix在单个阵列1.25/5.25cm2的硅片上 原位合成上百万种寡核苷酸探针。基因芯片与荧光标记的RNA样本杂交后,使用芯片扫描仪可以 读取杂交信号。随后使用GeneChip Operating software (GCOS) 等软件可以做探针水平的背景扣除和归一化处理。然后使用相应的概 要算法,即求每个探针集内所有探针的某种平均值,作为最终探针集 的表达值。常用的概要算法有RMA ( Bolstad, BM. (2004) Low Level Analysis of High-density oligonucleotide array data: Background, normalization and summarization . Department of Statistics, University of California at Berkeley) , GCRMA (Wu, Z. et.al. (2004) A model-based background adjustment for oligonucleotide expression arrays.丄Am. Stef. Assoc., 99, 909-917) , PLIER (Affymetrix, Inc. (2005) Technical note: guide to probe logarithmic intensity error (PIJER) estimation ) , MBEI ( Li, C. and Wong, H.W. (2001a) Mode卜based analysis of oligonucleotide arrays: expression index computation and outlier detection. Proc. Waf. Acad Sc/" 98, 31-36, U, C and Wong, H.W. (2001b) Model-based analysis of oligonucleotide arrays: model validation, design issues and standard error application. Genome 8/o/., 2, research0032.1-0032.")和FARMS ( Hochreiter, S. et al. (2006) A new summarization method for Affymetrix probe level data. S/o/Viformaf/cs, 22, 943-949)等。由于一个基因往往有2个以上的探针集,因此目前的概要算法计算出来的结果,将是一个基因对应多个表达值。这虽然为研究者提供 了更为丰富的信息,但同时也使在基因芯片后续的对单个基因的分析 过程中让人无所适从。有人将一个基因的不同探针集的表达值取平均值,作为该基因的最终表达值(Breslin T. et al. (2005) Signal transduction pathway profiling of individual tumor samples. BMC Bioinformatics, 6:163)。也有人发现, 一个基因的不同探针 集的表达值的一致性并不好,使用平均值显得不够合理,于是选择绝 对表达值最高的探针集作为一个基因的表达值(Subramanian A. et al. (2005) Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad SciUSA,102(43):15545-50)。但是,这种方法对 基因水平表达值的估计仍是不够准确的。这里,我们提出一种新的方 法,从探针而不是探针集水平入手,采用合适的概要算法,直接求得 UniGene的表达值,从而减少了误差。在我们的方法中,基因是根据UniGene数据库(Pontius JU. et al. (2003) UniGene: a unified view of the transcriptome. In: The NCBI Handbook. Bethesda (MD): National Center for Biotechnology Information.)来定义的。UniGene数据库是一个 无冗余的核酸凄t据库。UniGene试图通过计算^L程序对GeneBank 中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列搜集 到一起,以便研究基因的转录图语。UniGene除了包括人的基因夕卜, 也包括小鼠、大鼠等其它模式生物的基因。我们的方法最终针对每个 UniGene给出了表达值数据。
技术实现思路
本专利技术的目的是提供一种适用于寡核苷酸(oligo)基因芯片的 UniGene表达量的新算法,适用于Affymetrix公司生产的高密度寡 核苷酸基因表达谱芯片的实验设计。本专利技术是这样实现的,主要包括如下流程步骤l,获得探针水 平的表达值数据;步骤2,将探针集归入不同的UniGene;步骤3, 以UniGene为单位,合并同一个UniGene下的探针集;步骤4,分别 对每个UniGene下的所有探针进行层次聚类分析;步骤5,寻找层次聚类结果中的最大探针子集,作为该UniGene的代表探针集;步骤6, 将代表探针集转化为一个表达值,即为UniGene水平的最终表达值。 本专利技术的优点在于该方法将多个探针集合并为一个UniGene来 报告最终的表达值,综合了多个探针集的信息,相比于常规方法中单 独使用一个探针集,结果更为可靠。附图说明图l是本专利技术所述的一种计算寡核苷酸基因芯片UniGene表达量 算法的流程图。图2中举例说明了 Mouse Genome 430 2. 0芯片每个UniGene所 对应的探针集数。图3中举例说明了 33条探针在15张芯片中的表达值的层次聚 类分析结果。具体实施方式参图1所示,本专利技术所述的方法中,主要流程为 步骤l,获得探针水平的表达值数据; 步骤2,将探针集归入不同的UniGene;步骤3,以UniGene为单位,合并同一个UniGene下的探针集; 步骤4,分别对每个UniGene下的所有探针进行层次聚类分析; 步骤5,寻找层次聚类结果中的最大探针子集,作为该UniGene 的代表探针集;步骤6,将代表探针集转化为一个表达值,即为UniGene水平的 最终表达值。下面做具体的说明步骤1.首先使用芯片扫描图像分析軟件获得探针水平的表达值 数据,同时进行背景扣除和归一化。我们将此探针水平的表达值数据 作为分析的基础,来进行分析。步骤2.将探针集归入不同的UniGene。利用已有探针集注释 (af本文档来自技高网
...

【技术保护点】
一种计算寡核苷酸基因芯片的UniGene表达量的算法,其特征在于该方法包括有如下步骤:    步骤1,获得探针水平的表达值数据;    步骤2,将探针集归入不同的UniGene;    步骤3,以UniGene为单位,合并同一个UniGene下的探针集;    步骤4,分别对每个UniGene下的所有探针进行层次聚类分析;    步骤5,寻找层次聚类结果中的最大探针子集,作为该UniGene的代表探针集;    步骤6,将代表探针集转化为一个表达值,即为UniGene水平的最终表达值。

【技术特征摘要】

【专利技术属性】
技术研发人员:曾华宗刘极龙
申请(专利权)人:上海敏芯信息科技有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1