评价化学和生物学分析的方法技术

技术编号:2600225 阅读:145 留言:0更新日期:2012-04-11 18:40
公开一种分析过程,用于鉴别从带有重叠分布的样本得到的数据,并用于改进和评估测定阵列中的杂交信号的统计有效性。该过程包括把数据转换到二个或更多的代表信号和非信号的分立概率密度函数、各离散荧光或其它转接后的独立变量的方法。该系统利用概率密度函数客观地把杂交信号分配到建好模型的多个分布中的一个分布。相继的过程评估阵列固有的变异性,并利用评估的偏差为整个杂交阵列以及为阵列内的离散杂交测定建立可靠性评分和置信界限。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及对从杂交阵列中得到的数据进行客观化分析的评价方法。在一个方面上本专利技术是一种用于推断由少量数据点构成的重复基因组样本中存在的随机误差的程度的方法,而在另一个方面上本专利技术是一种用于区分不同类别的探针强度(例如,有信号和无信号)。基于阵列的遗传分析从在基片上固定大的cDNA或寡核苷酸库(探针)着手。用单个标记的序列或用从组织或细胞系信使RNA(靶标)而来的标记的复杂混合物杂交探针。如本文中所使用的那样,术语“探针”应理解成表示固定在该阵列中的材料,而术语“靶标”表示施加到阵列上的各探针的材料,从而会出现杂交。存在二种类型的测量误差即随机的和系统的。通过对相同过程或属性进行反复测量可检测出随机误差,并通过统计方法予以处理。低随机误差对应于高精度。不能通过重复测量检测系统误差(漂移或偏差)。低系统误差和高准确度对应。背景修正涉及从探针中减去探针外某区域的强度。用于计算背景的区域可以接近探针(例如绕探针的一个圆周),或者离开一个距离。例如,可以建立“空白”单元(即,不带有探针材料的单元),这些单元的值可用于背景估算。归一化处理涉及通过某基准强度划分探针。最常用地,该基准是从一组探针或从所有探针的均值得到的。一旦通过背景消除和归一化处理(或若需要时其它处理)去掉系统误差,任何剩下的测量误差在理论上是随机误差。随机误差反映测量值中的期待统计偏差。测量值例如可包括单个值、多个值的累计(均值,中值)、单个值和累计值之间的差或差值之间的差。为了把二个值可靠地看成是彼此不同,它们的差必须超过一个阈值,该阈值是由与该差相关的测量误差以及错误地得出这二个值不同的规定概率(类型Ⅰ出错率)联立定义的。主要的兴趣在于二个或多个典型地在不同条件下(例如,有病的对无病的细胞系、加药的和不加药的)量化值之间的差。理想地应从相同量的重复测量值显示出的偏差得到所想要的期待随机误差的估计。这是常规地在其它科学领域中使用这样的估计的原因。但是,在杂交研究中,趋向于使用很少数量的重复(例如,二或三个)。基于如此少的样本的随机误差估计本身是很易变的,这使得对于几乎很大的差值利用标准统计测试进行不同条件间的比较是不准确的和不实用的。Bassett、Eisen和Boguski在“Gene expression informaticsIt’s all in your mine”,Nature Genetics,21,51-55(1999)一文中认识到这种困难,他们论述提供基因表达数据的最大挑战性涉及各表达值的量化和鉴定而且鉴定应包括标准的统计显著性检验和置信区间。他们还提出“理想地,重复足够次数的试验从而可以给出和每个转录本水平相关的偏差在经济上是可行的”(P.54)。上述引用中的短语“足够次数”是问题的中心。基于阵列的研究的现有技术状态使得不可能得到标准的统计指数(例如,置信区间、局外描述)并且不可能进行其它科学领域中为例行的标准统计检验(例如t-检验、方差分析),因为该研究中典型出现的重复次数普遍被认为对于这些目的是不充分的。本专利技术的关键是克服该困难。需要统计指数以及统计检验以便可以对不同条件下所观测的探针/靶标交互作用之间差异的可靠性作出评估。这类比较的关键问题是测量值中观测到的差异是否可能只反映随机误差或反映和处理效果相结合的随机误差(即,“真实的不同”)?在缺少用于在这些供选用方案之间作出决定的正式统计处理下,非正式的处理已在现有技术中得到进展。下面概述这些处理方法1.任意阈值。通过一个任意阈值区分不同条件下的观测差异。例如,大于2倍或3倍的差异判定成反映“真正的”差异。2.建立与阵列单元的子集相关的阈值。为感兴趣的比率把“基准”基因子集作为比较点。例如,对于基准基因,在时间1测量时某基因可能示出2∶1的表达比率,而在时间2测量时示出2.8∶1的比率。3.根据背景中的观测偏差建立的阈值。背景值的标准偏差充当和感兴趣的探针值相关的测量误差标准偏差的代表。若某探针强度超过背景标准偏差一规定值(例如,2.5),该探针看成是“重要的”。上述各处理方法都不是最优的,因为每一种都依赖于用于导出推断规则的相对少的观测次数。而且,置信评定是主观的并且不能针对“机会”统计模型评定。对于这种批评方法1和2尤其是脆弱的。它们不满足在其它科学领域普遍接收的统计推断标准,因为正式概率模型在决策处理中不起作用。方法3受到后一种批评较少,因为测量误差的代表是从背景得到的,尽管如此该方法不是最优的,因为测量误差不是从感兴趣的测量值(即各探针)直接得到的,而且这不会是背景值上的误差必然和探针值上误差幅度相同和/或模型相同的情况。其它非正式方法也是可能的。例如在上面2中说明的方法可修改成估计多次探测过的基准基因的对数变换测量下的标准偏差。由于等式,从而测量误差的这些代表估计可以用来为感兴趣的对数变换探针的差异比率导出置信区间。尽管如此,该方法是差于最优的,因为误差基于代表值并且基于相对少的重复次数。Chen等(chen,Dougherty和Bittner)在“Ratio-based decisionsand the quantitative analysis of cDNA microarray images”,Journal of Biomedical Optics,2,364-374(1997)提出一种分析数学方法,其在零(null)假设下估计非重复的差异比率的分布。类似于本专利技术,该办法导出一种用于为不同条件下的探针强度差异得到置信区间和概率估计的方法。然而,在如何得到这些估计上它和本专利技术不同。不象本专利技术,Chen等的方法不从重复的探针值得到测量误差估计。替代地,与不同条件下的探针强度比率相关的测量误差是通过比率的零假设散布的数学推导得到的。即,Chen等推导出若不同条件的探针示出的测量值上的差异都不大于会期待为“机会”的差异下比率的散布应是怎样的。基于这种推导,他们建立二个条件下的探针强度可靠统计比率的阈值。如其推导那样,该方法只可应用于在二个条件下估计差异。另外,它假定和探针强度相关的测量误差是正态分布的。如其推导那样,该方法不容纳其它测量误差模型(例如,对数正态)。它还假定所有测量值是“真实”探针强度的不偏移的和可靠的估计。即,它假定所有的探针强度都不是应从分析中排除的“局外”值。事实上,Chen等说明的方法不能进行局外检测。上面说明的各种方法试图解决和不同条件下差异应该多么大然后才能对于保证“真实的”差异结论把它们看成是足够可靠的有关问题。区分代表着信号的探针值和不代表信号的探针值是一个和阵列内的而不是不同条件下的探针值的鉴定有关的另一个论题。已提出二种方法,Piétu等(Piétu,Alibert,Guichand和Lamy)在他们的研究中观察到探针强度的直方图呈现双峰分布,见“Novelgene ttanscripts preferentially expressed in human musclesrevealed by quantitative hybridization of high density cDNAarray”,Genome Research,6,492-503(1996)。他们还观察到所出现的较小值的分布遵循高斯分本文档来自技高网...

【技术保护点】
一种用于对从阵列杂交研究得到的数据做出统计上有效论断的方法,该方法利用大量的基因组样本,每种样本由少量的不足做出准确和有效的统计论断的重复构成,该方法包括通过对从大量样本上得到的各误差估计取平均值对一个样本估计误差的步骤。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:彼得拉姆罗伯特纳栋
申请(专利权)人:图像研究公司
类型:发明
国别省市:CA[加拿大]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1