用于分析物水平的自适应归一化的方法、装置和计算机可读介质制造方法及图纸

技术编号:33702146 阅读:15 留言:0更新日期:2022-06-06 08:14
一种用于一个或多个样品中的分析物水平的自适应归一化的方法、装置和计算机可读介质,所述方法包括:接收对应于在所述一个或多个样品中检测到的一种或多种分析物的一种或多种分析物水平;以及通过一次或多次迭代来迭代地将比例因子应用于所述一种或多种分析物水平,直到连续迭代之间的所述比例因子的变化小于或等于预定变化阈值或者直到所述一次或多次迭代的量超过最大迭代值;至少部分地基于在其对应参考分布的预定距离内的分析物水平来确定所述比例因子;以及通过应用所述比例因子来归一化所述一种或多种分析物水平。子来归一化所述一种或多种分析物水平。子来归一化所述一种或多种分析物水平。

【技术实现步骤摘要】
【国外来华专利技术】用于分析物水平的自适应归一化的方法、装置和计算机可读介质
[0001]相关申请的交叉引用
[0002]本申请要求于2019年7月31日提交的美国临时申请号62/880,791的优先权,其全部内容通过引用并入本文。

技术介绍

[0003]开发中值归一化是为了在分析之前从数据集中去除某些测定伪影。这种归一化可去除样品或测定偏差,所述样品或测定偏差可能是由于样品之间总蛋白质浓度的差异(例如,由于水合状态)、移液误差、试剂浓度的变化、测定时间和单次测定中系统可变性的其他来源造成的。另外,已观察到蛋白质组测定(例如,基于适体的蛋白质组测定)可产生相关噪声,并且归一化过程在很大程度上减轻了这些人为的相关性。
[0004]中值归一化依赖于真正的生物标志物(与潜在生理学相关)相对罕见的概念,因此高度多重蛋白质组测定中的大多数蛋白质测量在感兴趣的群体中没有变化。因此,可以认为样品内和感兴趣群体中的大多数蛋白质测量是从具有明确定义的中心和比例的分析物的普通群体分布中取样的。当这些假设不成立时,中值归一化可能将伪影引入数据中,使真实的生物信号静默并且将系统性差异引入在样品集内没有差异表达的分析物中。
[0005]已观察到与样品收集和处理相关的某些预分析变量违反了中值归一化的假设,因为大量分析物可能会受到样品旋转不足或在从大量流体中分离之前允许细胞裂解的影响。此外,来自患有慢性肾脏疾病的患者的蛋白质测量已显示数百种蛋白质水平受此状况影响,导致与肾脏功能正常的人相比,这些人的循环蛋白质浓度增加。
[0006]因此,需要对系统进行改进,以防止由于样品收集伪影或过量的疾病相关蛋白质组变化而在数据中引入伪影,同时适当地去除测定偏差和去相关测定噪声。
附图说明
[0007]图1示出了根据一个示例性实施例的流程图,该流程图用于至少部分地基于分析物水平来确定比例因子,该分析物水平在其对应的参考分布的预定距离内。
[0008]图2示出了根据分别包括参考分布1和参考分布2的示例性实施例的具有包括201A和202A的多个检测分析物的样品200的示例。
[0009]图3示出了根据示例性实施例的比例因子应用过程的每次迭代的过程。
[0010]图4A

4F示出了根据示例性实施例的用于一组样品数据的自适应归一化过程的示例。
[0011]图5A

5E示出了根据示例性实施例的需要一次以上迭代的自适应归一化过程的另一示例。
[0012]图6A

图6B示出了在本文所述的自适应归一化过程的一次迭代之后所有样品的分析物水平。
[0013]图7示出了根据示例性实施例的用于确定比例因子值的部件,该比例因子的值使
处于其对应参考分布的预定距离内的分析物水平成为其对应参考分布的一部分的概率最大化。
[0014]图8A

8C示出了将最大似然自适应归一化应用于图所示的样品4中的样品数据。
[0015]图9A

9F示出了根据示例性实施例的群体自适应归一化到图10A

10B中所示的数据的应用。
[0016]图9示出了根据示例性实施例的用于对一个或多个样品中的分析物水平进行自适应归一化的另一方法。
[0017]图10示出了根据示例性实施例的用于分析物水平的自适应归一化的专用计算环境。
[0018]图11示出了38次技术重复的所有基于适体的蛋白质组测定测量的中值变异系数。
[0019]图12示出了相对于最大允许迭代的样品的性别特异性生物标志物的Kolmogorov

Smirnov统计数据。
[0020]图13示出了分析中使用的血浆和血清的样品ID的QC样品数。
[0021]图14示出了使用中值归一化和ANML的QC样品比例因子的一致性。
[0022]图15示出了使用中值归一化和ANML的对照样品的CV分解。线表示板内(instra)、板间(inter)和总板(total)的每个对照样品的CV的经验累积分布函数。
[0023]图16示出了使用中值归一化和ANML的中值QC比率。
[0024]图17示出了使用中值归一化和ANML的尾部QC比率。
[0025]图18示出了使用SSAN和ANML的旋转时间样品的比例因子一致性。
[0026]图19示出了在不同的归一化方案下,18个供体在旋转时间内的中值分析物CV。
[0027]图20示出了使用SSAN和ANML得到的科文斯(Covance)(血浆)的比例因子之间的一致性图。
[0028]图21示出了ANML之前和之后Covance样品的所有成对分析物相关性的分布。
[0029]图22示出了从通过几种方法归一化的数据获得的分布的比较。
[0030]图23示出了使用SSAN和ANML归一化的数据的用于持续检验集的吸烟逻辑回归分类器模型的指标。
[0031]图24示出了用于在通过收集地点着色的血浆和血清样品中的c

Raf测量的经验CDF。
[0032]图25示出了在血浆(顶部)和血清(底部)中使用标准中值归一化与适应性中值归一化的比例因子的一致性图。
[0033]图26示出了不受标准归一化方案和自适应归一化的地点差异影响的分析物的地点CDF。
[0034]图27示出了通过稀释和Covance收集地点的血浆样品中值归一化比例因子。
[0035]图28显示了中值归一化比例因子的分布,用于增加自适应归一化中的严格性。
[0036]图29显示了分析物的典型行为,其显示了作为旋转时间函数的RFU的显著差异。
[0037]图30示出了稀释相对于旋转时间的中值归一化比例因子。
[0038]图31总结了自适应归一化对中值归一化比例因子相对于旋转时间的影响。
[0039]图32示出了通过稀释和由GFR值划分的疾病状态获得的标准中值归一化比例因子。
[0040]图33示出了通过稀释的中值归一化比例因子和通过标准中值归一化(顶部)的疾病状态以及通过截止的自适应归一化。
[0041]图34示出了对于各种归一化程序的所有分析物与GFR(log/log)的皮尔逊相关性的CDF。
[0042]图35示出对于非归一化数据、标准中值归一化和自适应归一化的CKD数据集的蛋白质间皮尔逊相关性的分布。
具体实施方式
[0043]虽然在本文中通过示例和实施例的方式描述了方法、装置和计算机可读介质,但本领域的技术人员认识到,用于分析物水平的自适应归一化的方法、装置和计算机可读介质不限于所描述的实施例或附图。应当理解,附图和描述并不旨在限于所公开的特定形式。相反,本专利技术旨在涵盖落入所附权利要求的精神和范围内的所有修改、等同物和替代物。本文所使用的任何标题都仅用于组织目的,并不意味着限制说明书或权利要求书的范围。如这里所使用的,单词“可以”以允许的意义(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个计算设备执行的用于一个或多个样品中的分析物水平的自适应归一化的方法,所述方法包括:由所述一个或多个计算设备中的至少一个计算设备接收对应于在所述一个或多个样品中检测到的一种或多种分析物的一种或多种分析物水平,每种分析物水平对应于在所述一个或多个样品中检测到的所述分析物的量;以及通过一次或多次迭代来归一化所述一种或多种分析物水平,对于每次迭代,去除所述一种或多种分析物水平中的任何异常分析物水平,至少部分地基于一种或多种分析物水平中的至少一种剩余分析物水平来计算比例因子,并将比例因子应用于所述一种或多种分析物水平;其中所述一种或多种分析物水平中的异常分析物水平至少部分地基于每种分析物水平与参考数据集中该分析物的对应参考分布之间的异常分析来确定。2.根据权利要求1所述的方法,其中所述异常分析包括基于距离的异常分析。3.根据权利要求1所述的方法,其中所述异常分析包括基于密度的异常分析。4.根据权利要求1

3中任一项所述的方法,其中在一次或多次迭代中归一化所述一种或多种分析物水平包括执行额外的迭代,直到连续迭代之间的所述比例因子的变化小于或等于预定变化阈值,或直到所述一次或多次迭代的量超过最大迭代值。5.一种用于对一个或多个样品中的分析物水平进行自适应归一化的计算机执行方法,所述方法包括:接收对应于在所述一个或多个样品中检测到的一种或多种分析物的一种或多种分析物水平,每种分析物水平对应于在所述一个或多个样品中检测到的所述分析物的量;以及通过一次或多次迭代来迭代地将比例因子应用于所述一种或多种分析物水平,直到连续迭代之间的所述比例因子的变化小于或等于预定变化阈值,或者直到所述一次或多次迭代的量超过最大迭代值,所述一次或多次迭代中的每次迭代包括:确定所述一种或多种分析物水平中的每种分析物水平和参考数据集中该分析物的对应参考分布之间的距离;至少部分地基于在其对应参考分布的预定距离内的分析物水平来确定所述比例因子;以及通过应用所述比例因子来归一化所述一种或多种分析物水平。6.根据权利要求5所述的方法,其中,确定所述一种或多种分析物水平中的每种分析物水平与参考数据集中该分析物的对应参考分布之间的距离包括:确定每种分析物水平与所述参考数据集中该分析物的对应参考分布之间的马氏距离的绝对值。7.根据权利要求5所述的方法,其中,确定所述一种或多种分析物水平中的每种分析物水平与参考数据集中该分析物的对应参考分布之间的距离包括:确定每种分析物水平与所述参考数据集中该分析物的对应参考分布的平均值或中值之间的标准偏差量。8.根据权利要求5

7中任一项所述的方法,其中,所述预定距离包括在0.5至6范围内的值,包括端点值。9.根据权利要求5

8中任一项所述的方法,其中,所述预定距离包括在1至4范围内的
值,包括端点值。10.根据权利要求5

9中任一项所述的方法,其中,所述预定距离包括在1.5至3.5范围内的值,包括端点值。11.根据权利要求5

10中任一项所述的方法,其中,所述预定距离包括在1.5至2.5范围内的值,包括端点值。12.根据权利要求5

11中任一项所述的方法,其中,所述预定距离包括在2.0至2.5范围内的值,包括端点值。13.根据权利要求5

12中任一项所述的方法,其中,至少部分地基于在其对应参考分布的预定距离内的分析物水平来确定所述比例因子包括:确定在所述对应参考分布的预定距离内的每种分析物水平的分析物比例因子,所述分析物比例因子是至少部分基于所述分析物水平和所述对应参考分布的平均值或中值而确定;通过计算对应于分析物水平的分析物比例因子的平均值或中值来确定所述比例因子,所述分析物水平在其对应的参考分布的预定距离内。14.根据权利要求5

12中任一项所述的方法,其中,至少部分地基于在其对应参考分布的预定距离内的分析物水平来确定所述比例因子包括:确定使在其对应参考分布的预定距离内的分析物水平是其对应参考分布的...

【专利技术属性】
技术研发人员:E
申请(专利权)人:细胞逻辑股份有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1