一种测量生物过程的方法,该方法包括以下步骤:(a)确定用于生物过程的一系列重复测量结果的概率密度函数;(b)利用参数公式逼近所述概率密度函数;(c)确定用于所述概率密度函数的参数公式化的最大似然估计量;和(d)将所述最大似然估计量用于所述生物过程的随后测量结果。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及生物过程(biological process)的参数估计,并且特别是公开了更准确地测量生物过程例如CpG甲基化或类似生物过程的方法。
技术介绍
在生物过程的准确测量中,测量值的近似和不精确的记录产生误差。已发展多种技术来最小化或减小测量中误差的影响。一种流行的技术是“最小二乘”法,其通常用于使测量数据符合预定模型。如果作出正确推断,最小二乘法依赖于正态频率分布或高斯频率分布的关键假设。在基础分布为非正态的情况下,参数估计可能是无效的并且所得推断是误导的。因此在此类情况中利用最小二乘法可能导致不正确的结果。例如,在分子水平发生的生物过程的测量结果服从非线性效应,例如阈值或多平衡态(multiple equilibria),并且就此产生通常跟正态差得远的频率分布。在这些情形中,经典的最小二乘法分析可能并不合适,并且需要依赖“似然分析”的替代方法。然而,基于似然的方法需要详细了解支配所感兴趣的方法的概率密度。基因表达的动态调节代表通过多种机制发生的分子水平生物过程。希望获得形成诊断预测的基础的准确测量结果的一种特定的感兴趣的生物过程是生物物质的CpG甲基化程度的测量。正常情况下,利用适当的机器进行该测量。例如,熟知的Sequenom机器适于测量生物材料的甲基化程度。在通过仪器如Sequenom机器测量的细胞样品中,细胞类型可以是固定的。如果在一种细胞类型中代表的CpG位点是甲基化的,而在其他细胞类型中不是甲基化的,那么这会导致机器在这个位点读取甲基化程度的比例测量结果。可选地,在相同类型的细胞中,在给定CpG位点的甲基化可能不是普遍的,并因此代表了关于任何相关性状的表达的又一个问题。在遗传性状确定中利用甲基化测量结果正变得越来越流行。例如,题目为“Phenotype Prediction”(表型预测)的美国专利公布第2009/0104615号公开了利用甲基化来确定表达的生物性状的倾向。通过交叉引用并入上述申请的内容。甲基化测量结果可能不具有正态分布或高斯分布的误差。因此提供测量结果的逼近或参数化的替代形式是重要的。专利技术概述本专利技术的一个目的是提供生物过程的测量的替代形式。根据本专利技术的第一方面,提供了测量生物过程的方法,该方法包括以下步骤(a)确定用于生物过程的一系列重复测量结果的概率密度函数;(b)利用参数公式逼近所述概率密度函数;(c)确定用于概率密度函数的参数公式化的最大似然估计量;和((1)将该最大似然估计量用于生物过程的随后测量结果。在一个实施方式中,生物过程包括CpG甲基化测量。优选地,该方法包括将参数指数衰减公式拟合到概率密度函数,并且在拟合参数指数衰减公式后还将参数埃尔米特(Hermite)多项式拟合到残差。优选地,概率密度函数是以下形式f (z) = Q_1pe_p|z| [l+qH3 (I z |)]其中|x|是CpG甲基化的绝对值,P和q是参数,H3(Z)是z3_3z形式的3阶埃尔米特多项式,并且Q是规范化常数。可利用最大似然方法获得参数P和q。附图简述现在将参考附图描述本专利技术的优选形式,在附图中附图说明图1展示了在来自相同样品的相同CpG的两次甲基化测量之间的1440个重复测量结果的偏差的直方图。尽管不明显,约3%的值大于绝对值O. 2 ;图2展示了 CpG 2的甲基化比例的直方图。图3展示了 SGA和AGA个体的H19基因的CpG 4的甲基化比例的箱图。图4展示了在优选实施方式中提供的一系列步骤。优选的和其他的实施方式的描述在优选实施方式中,对甲基化测量中的潜在误差测量结果进行了广泛分析。从该广泛分析获取许多因子并且定义了可选的、更有效的概率密度函数。在进行对CpG甲基化测量结果的频率分布的大规模测量以后,获取优选实施方式的初始概率密度函数。经检查,发现CpG甲基化测量结果的频率分布包括适合的概率密度需要描述的两个重要特征频率分布具有高偏斜度(degree ofskew),具有高频极值。频率分布被界定在的值之间,代表了如下情况在测量的细胞群体中测量结果不能是小于零或大于100%的甲基化。这两个特征意味着描述由诸如Sequenom机器测量的CpG甲基化的概率密度跟正态频率分布差得远。从经验测量获取的实例显示在图1中。图1展示了在来自相同样品的相同CpG的两次甲基化测量之间的1440个重复测量结果的偏差的直方图。约3%的值大于绝对值O. 2。如所展示的,该分布可视为是非高斯分布。在这些情况下,应用最小二乘法程序的基于甲基化测量结果的估计和推断可能是无效的且可能是误导的。优选实施方式提供了基于在Sequenom机器上进行的对相同样品的大量重复测量、在给定基因的启动子中、在给定CpG位点测量的甲基化比例的概率密度。确定了基于这种概率密度的最大似然估计量,并将其应用于使CpG甲基化的比例与多种表型测量相关联。优选实施方式的方法提供了改进的估计值可靠性。为了获取适当的概率密度函数,对1440份人髓组织(cord tissue)样品进行了两次Sequenom测量并且记录了测量结果之间的差异。这种差异代表在CpG甲基化测量中归因于环境因子的偏差。在优选实施方式中,提供了适于描述CpG甲基化测量中的测量偏差的适合的概率密度描述的新形式。概率密度函数逼近涉及关于“关键”或基础参数概率密度扩展埃尔米特多项式系。基础概率密度函数是指数概率密度。实际上,埃尔米特多项式系添加到“关键”概率密度调整了更高的矩(moment),尤其是偏斜度(经3阶埃尔米特多项式)和峰度(经4阶埃尔米特多项式)。根据对图1中直方图的检查,确定选择拉普拉斯(Laplace)概率密度作为关键函数。这种分布也称为二重指数分布,实际上是以零为中心的背靠背指数概率密度(back toback exponential probability density)。该分布适于描述可采取正值或负值的随机变量,每个域具有指数概率密度。拉普拉斯概率密度是2个随机变量之间的差的结果,且每个所述随机变量来自指数分布。指数概率密度具有“无记忆性”的特性。还描述了其中在极端事件之间存在时间的常概率的随机过程。也就是说,指数概率密度描述了如下情况:具有明显偏离的CpG甲基化特征的细胞被发现具有常概率。如果样品包含与该样品中的细胞主体作用不同的细胞的话将是这样的情况,不管是因为该作用不同的细胞具有不同类型还是因为某种其他原因。然而,发现将指数分布直接拟合到甲基化数据是不良的,尤其是不能正确地描述这种频率分布的尾。为了解决这个问题,通过添加埃尔米特多项式,使用与Buckland, S.T, “Maximum Likelihood fitting of Hermite and simple polynomialdensities (埃尔米特和简单多项式密度的最大似然拟合)”,Applied Statistics41: (1)241-266, (Buckland(1992b))中描述的算法类似的算法,调整拉普拉斯概率密度。这种计算显示加上3阶埃尔米特多项式更准确地描述图1中显示的CpG甲基化频率分布。因而,描述CpG甲基化数据的概率密度可被描述为:本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】2009.11.18 NZ 5812711.一种测量生物过程的方法,该方法包括以下步骤: (a)确定用于生物过程的一系列重复测量结果的概率密度函数; (b)利用参数公式逼近所述概率密度函数; (C)确定用于所述概率密度函数的参数公式化的最大似然估计量; (d)将所述最大似然估计量用于所述生物过程的随后测量结果。2.如权利要求1所述的方法,其中所述生物过程包括Cp甲基化测量。3.如任一前述权利要求所述的方法,所述方法包括将参数指数衰减公式拟合到所述概率密度函数。4.如权利要求3所述的方法,其中...
【专利技术属性】
技术研发人员:安东尼·布莱恩·普莱曾茨,卡梅伦·安格斯·麦克莱因,格雷姆·查尔斯·韦克,艾伦·迈克尔·谢泼德,皮特·大卫·格卢克曼,
申请(专利权)人:奥克兰联合服务有限公司,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。