识别统计线性数据制造技术

技术编号:3080926 阅读:180 留言:0更新日期:2012-04-11 18:40
提供了用于处理具有噪声的数据集以判定该数据集是否呈现统计线性品质的方法、装置和系统。基于数据的局部特性计算真实数据信号,而根据真实数据信号对数据中的噪声进行估算。然后,将估算噪声的量度与数据集的线性拟合特性进行比较。

【技术实现步骤摘要】
【国外来华专利技术】识别统计线性数据相关申请的交叉引用本申请要求2005年5月13日提交的题为SYSTEMS AND METHODS FOR IDENTIFYING STATISTICALLY FLAT DATA IN A DATA SET (用于识别数据 集中的统计平坦(flat)数据的系统和方法)的美国临时申请60/681,182,以及 与其相关且同时提交的题为DETERMINATION OF BASELINE END CYCLE IN REAL TIME PCR USING DERIVATIVE PEAK ANALYSIS (使用导数峰值分 析确定实时PCR中的基线末端周期)(律师案号002558-072200US)的序 列号No. 60/680,765的美国临时申请的优先权,这些申请的公开通过引用全部 结合于此。本申请还涉及以下共同受让、同时提交的题为BASELININGAMPLIFICATION DATA (扩增数据的基线设定)的美国专利申请No._(律师案号002558-072210US)。这些申请的各自公开通过一般引用全部结 合于此。
技术介绍
本专利技术一般涉及数据处理系统和方法,尤其涉及用于识别诸如聚合 酶链式反应(PCR)的扩增过程的数据集内统计线性数据的系统和方法。许多试验过程呈现数量的扩增。例如,在PCR中,数量可对应于DNA链中 已被复制部分的数目,在扩增阶段或扩增区的期间,该数量显著增加。其它呈现扩 增的试验过程包括细菌生长过程。通过试验设备经由数据信号来检测该数量,并分 析其数据点以确定关于扩增的信息。作为数据分析的一部分,获知扩增是否可能发 生是重要的;否则,工作将浪费在分析非扩增数据上。如果数据是统计线性的,则 未发生扩增。理想情况下,来自扩增检测设备的数据可能是单调且连续的信号,因此很容 易识别数据或其部分是否具有统计线性品质。然而,来自扩增设备的信号通常包含 噪声,因而使信号品质难以识别。噪声本身出现在来自设备的信号的各个数据点中, 并具有在例如DNA链的实际数目的真实信号上发生的随机波动。因而,数据需要 进行处理以便能识别线性品质。一种用于处理数据以判定其是否为统计线性的典型现有方法是通过线性最小二乘方(LSQ)拟合。LSQ拟合的相关值可用于判定是否充分拟合。通过标准约定, 相关值0与不良拟合相关,因此数据不是线性,而值l表示良好线性拟合。问题在 于,存在噪声时,对于看起来统计线性的数据,相关值可能接近0或1。此外,相 关值并不对应于可提供额外理解和效能的物理值。因而,相关值不是可以接受的标 准,尤其对于噪声极大的数据而言。因此,期望提供用于处理具有噪声的数据集、以及用于识别该数据集是否为 统计线性并且克服了上述及其它问题的系统和方法。
技术实现思路
因此,本专利技术的实施例提供了针对处理数据以判定数据是否呈现统计线性品 质的方法和系统。统计线性数据表示数据一般不向下或向上弯曲或者以其它方式显 示扩增。这种数据通常呈大致线性,其中较大噪声信号叠加其上。可从实时PCR 过程或呈现扩增或生长的其它过程接收该数据。根据本专利技术的一个示例性实施例,提供了处理数据的方法。该方法通常包括 接收具有信号分量和噪声分量的原始数据点集。原始数据集被拟合到线性函数。在一个方面中,该拟合通过对数据集计算线性最小二乘方拟合来实现。该方法还包括 计算原始数据集与线性拟合之间的残差,以及计算原始数据集与线性拟合之间的残 差量度。在一个方面中,该量度是标准偏差。该方法还通常包括通过计算经平滑的数据集以及计算经平滑的数据集与原始 数据集之间的残差来估算数据集中存在的噪声分量。经平滑的数据点基于该经平滑 数据点局部的原始数据点的值。在一个方面中,低通滤波器用于计算经平滑的数据 集。示例性低通滤波器包括Savitzy-Golay滤波器、数字滤波器或数字平滑多项式 滤波器。在另一个方面中,经平滑的数据点的值是落在包围该经平滑数据点的窗口 内的原始数据点的平均值。该方法通常还包括计算所估算噪声的残差的量度,以及比较量度以便判定原 始数据集是否呈现统计线性品质。比较可包括计算第一与第二量度的比值,以便判 定比值小于还是大于预定值。在一个方面中,预定值在l的量级上。在较佳方面中,在诸如独立计算机、网络附连计算机的处理器或诸如实时PCR 机器的数据采集设备中实现该方法。实时PCR机器的一个示例是由 Bio-RadLaboratories提供的iCycler iQ系统。根据本专利技术的另一个示例性实施例,提供了具有适于引导信息处理设备执行 处理数据以判定曲线是否呈现线性品质的操作的多个指令的信息存储介质。在一个方面中,信息存储介质是RAM或ROM单元、硬盘、CD、 DVD或其它便携式介质。根据本专利技术的另一个示例性实施例,提供了PCR检测系统。该PCR检测系统 包括用于产生具有信号分量和噪声分量的原始数据点集的检测器,并且包括用于处 理数据以判定该数据是否呈现线性品质的逻辑。对包括附图和权利要求的本说明书剩余部分的参考将实现本专利技术的其它特征 和优点。以下将参照附图详细描述本专利技术的其它特征和优点以及本专利技术各个实施例 的结构和操作。在附图中,相似的附图标记表示相同或功能相似的要素。附图说明图1示出了PCR扩增曲线的一个示例。图2示出了呈现噪声和统计线性品质的实时PCR数据集。图3示出了呈现噪声和扩增的实时PCR数据集。图4示出了根据本专利技术的一个实施例的处理数据集以判定该数据集是否呈现 统计线性品质的方法。图5A示出了对呈现统计线性品质的数据集进行的线性拟合。图5B示出了对呈现扩增品质的数据集进行的线性拟合。图6A示出了根据本专利技术的一个实施例的实时PCR数据的经平滑数据集。图6B示出了根据本专利技术的一个实施例的实时PCR数据的估算噪声。图7示出了根据本专利技术的一个实施例的处理实时PCR数据的系统。具体实施例方式本专利技术提供了用于处理数据集并识别该数据集是否为统计线性、以及将这种 线性数据集与包含扩增信号的数据集区别开的技术。在较佳方面中,对于处理来自 PCR生长或扩增过程的数据以便在进一步分析该数据之前识别和移除统计线性数 据,本专利技术尤其有用。然而,应该理解,本专利技术的技术适于处理可能包括噪声的任 何数据集或曲线,尤其是除此之外可能呈现诸如细菌生长过程的生长或扩增的曲 线。图1示出了 PCR曲线100的一个示例,其中绘制了典型PCR过程的强度值110相对于周期数120。值110可以是任意感兴趣的任意物理量,而周期数可以是 与该过程的时间或步骤数相关联的任意单位。这些扩增曲线通常具有线性区域 130、紧随其后的扩增区域140以及之后的渐近区域150,如图1所示。可能还存 在诸如向下弯曲数据的附加类型的品质。扩增区域可具有指数、反曲(sigmoidal)、 高阶多项式或其它类型的逻辑函数或模拟生长的逻辑曲线。为了理解所涉及的试验过程,识别扩增区域140的位置和形状是很重要的。 例如,在PCR过程中,可能期望识别扩增的开始,它发生在基线区域(线性区域 130)末端。识别位置的步骤是识别可能的扩增区域是否确实存在,因为PCR过程 可能不呈现任何扩增。然而,由于实时PCR数据具有噪声,所以可能难以识别数 据集是否可能呈现扩增或等价于它是否不是统计线性。例如,图2示本文档来自技高网
...

【技术保护点】
一种处理数据集以判定所述数据集是否呈现统计线性品质的方法,所述方法包括:    接收具有信号分量和噪声分量的原始数据点集;    将所述原始数据集拟合到线性函数;    计算所述原始数据集与所述经拟合的线性函数之间的残差;    计算所述原始数据集与所述经拟合的线性函数之间的所述残差的第一量度;    估算所述原始数据集中存在的所述噪声分量,通过:    i)通过确定一组经平滑的数据点来计算经平滑的数据集,其中经平滑的数据点的值是基于所述经平滑的数据点局部的多个原始数据点的值;以及    ii)计算所述经平滑的数据集与所述原始数据集之间的残差;    计算所述经平滑的数据集与所述原始数据集之间的所述残差的第二量度;以及    将所述第一量度与所述第二量度进行比较以判定所述原始数据集是否呈现线性品质。

【技术特征摘要】
【国外来华专利技术】US 2005-5-13 60/681,182;US 2006-5-11 11/432,8561.一种处理数据集以判定所述数据集是否呈现统计线性品质的方法,所述方法包括接收具有信号分量和噪声分量的原始数据点集;将所述原始数据集拟合到线性函数;计算所述原始数据集与所述经拟合的线性函数之间的残差;计算所述原始数据集与所述经拟合的线性函数之间的所述残差的第一量度;估算所述原始数据集中存在的所述噪声分量,通过i)通过确定一组经平滑的数据点来计算经平滑的数据集,其中经平滑的数据点的值是基于所述经平滑的数据点局部的多个原始数据点的值;以及ii)计算所述经平滑的数据集与所述原始数据集之间的残差;计算所述经平滑的数据集与所述原始数据集之间的所述残差的第二量度;以及将所述第一量度与所述第二量度进行比较以判定所述原始数据集是否呈现线性品质。2. 如权利要求1所述的方法,其特征在于,拟合所述原始数据集包括使用最 小二乘方拟合。3. 如权利要求1所述的方法,其特征在于,计算所述经平滑的数据集包括使 用低通滤波器。4. 如权利要求l所述的方法,其特征在于,经平滑的数据点的值是落在包围 所述经平滑的数据点窗口内的所述原始数据点的平均值。5. 如权利要求4所述的方法,其特征在于,所述窗口为5个单位。6. 如权利要求1所述的方法,其特征在于,所述第一量度与所述第二量度各 自为标准偏差。7. 如权利要求1所述的方法,其特征在于,比较包括计算所述第一与第二量 度的比值以便判定所述比值是小于还是大于预定值。8. 如权利要求7所述的方法,其特征在于,所述预定值在l的量级上。9. 如权利要求l所述的方法,其特征在于,所述数据表示PCR扩增曲线。10. 如权利要求l所述的方法,其特征在于,所述方法在处理器中实现。11. 如权利要求io所述的方法,其特征在于,所述处理器结合在独立计算机 系统、网络化计算机系统或实时PCR机器之一中。12. —种具有适于引导信息处理设备执行处理数据以判定所述数据是否呈现线性品质的操作的多个指令的信息存储介质,所述操作包括步骤接收具有信号分量和噪声分量的原始数据点集; 将所述原始数据集拟合到线性函数;计算所述原始数据集与所述经拟合的线性函数之间的残差; 计算所述原始数据集与所述经拟合的线性函数之间的所述残差的第一量度; 估算所述原始数据集中存在的所述噪声分量,通过i) 通过确定一组经平滑的数据点来计算经平滑的数据集,其中经平滑的数据点...

【专利技术属性】
技术研发人员:J雷纳
申请(专利权)人:生物辐射实验室股份有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利