【技术实现步骤摘要】
使用无细胞DNA片段尺寸以确定拷贝数变异
[0001]相关申请的交叉引用
[0002]本申请是中国专利申请201680084307.1号的分案申请,并要求于2016年2月3日提交的题为:USING CELL
‑
FREE DNA FRAGMENT SIZE TO DETERMINE COPY NUMBER VARIATIONS的美国临时专利申请No.62/290,891,以及2016年12月16日提交的题为:USING CELL
‑
FREE DNA FRAGMENT SIZE TO DETERMINE COPY NUMBER VARIATIONS的美国专利申请No.15/382,508的权益,其出于所有目的通过引用整体并入本文。
技术介绍
[0003]人类医学研究的关键努力之一是发现产生不良健康后果的遗传异常。在许多情况下,在基因组的以异常拷贝存在的部分中已鉴定出特定基因和/或关键诊断标记物。例如,在产前诊断中,整个染色体的额外或缺失拷贝是经常发生的遗传病变。在癌症中,整个染色体或染色体区段的拷贝的缺失或倍增,以及基因组的特定区域的更高水平的扩增是常见的事件。
[0004]关于拷贝数变异(CNV)的大部分信息都是通过允许识别结构异常的细胞遗传学解析所提供的。用于遗传筛选和生物剂量测定的常规方法利用侵入性方法,例如羊膜穿刺术、脐带穿刺术或绒毛膜绒毛取样(CVS),以获得用于分析核型的细胞。认识到需要不需要细胞培养的更快速的测试方法,荧光原位杂交(FISH)、定量荧光PCR(QF
...
【技术保护点】
【技术特征摘要】
1.用于确定测试样品中的目标核酸序列的拷贝数变异(CNV)的系统,所述测试样品包括来源于两个或多个基因组的无细胞核酸片段,所述系统包括一个或多个处理器和系统存储器,所述一个或多个处理器被配置为:(a)接收通过对所述测试样品中的无细胞核酸片段进行测序而获得的序列读取;(b)将所述无细胞核酸片段的序列读取或含有所述序列读取的片段与包含目标序列的参考基因组的箱进行比对,从而提供测试序列标签,其中所述参考基因组被分为多个箱;(c)确定所述测试样品中存在的无细胞核酸片段的片段尺寸;(d)使用具有在第一尺寸域内的尺寸的无细胞核酸片段的序列标签,获得所述参数基因组的箱的序列标签第一覆盖率;(e)使用具有在第二尺寸域内的尺寸的无细胞核酸片段的序列标签,获得所述参数基因组的箱的序列标签第二覆盖率,其中所述第二尺寸域不同于所述第一尺寸域;(f)使用所述第一覆盖率和第二覆盖率,确定所述目标序列中的拷贝数变异。2.如权利要求1所述的系统,其中所述一个或多个处理器被配置为:使用(c)中确定的片段尺寸,计算所述参考基因组的箱的尺寸特征,其中使用所述尺寸特征、第一覆盖率和第二覆盖率,确定拷贝数变异。3.如权利要求1所述的系统,其中所述第一尺寸域包括所述样品中所有尺寸的无细胞核酸片段,并且所述第二尺寸域仅包括小于限定尺寸的无细胞核酸片段。4.如权利要求3所述的系统,其中所述第二尺寸域仅包括小于150bp的无细胞核酸片段。5.如权利要求1所述的系统,其中(f)包括从所述第一覆盖率和第二覆盖率计算倍性似然性,所述倍性似然性包括第一概率和第二概率,所述第一概率为所述第一覆盖率和第二覆盖率或从它们衍生的统计量来自具有非整倍体假设的模型的概率,所述第二概率为所述第一覆盖率和第二覆盖率或从它们衍生的统计量来自具有整倍体假设的模型的概率。6.如权利要求5所述的系统,其中所述统计量包括使用所述第一覆盖率计算的所述目标序列的第一t
‑
统计量和使用所述第二覆盖率计算的所述目标序列的第二t
‑
统计量。7.如权利要求6所述的系统,其中使用所述目标序列中的箱覆盖率和所述目标序列的参考区域中的箱覆盖率,计算所述目标序列的t
‑
统计量。8.如权利要求7所述的系统,其中所述倍性似然性包括第一概率和第二概率之间的似然比。9.如权利要求8所述的系统,其中除了所述第一t
‑
统计量和第二t
‑
统计量之外,还从胎儿分数的一个或多个值计算所述似然比。10.如权利要求9所述的系统,其中所述一个或多个处理器被配置为:使用所述无细胞核酸片段的片段尺寸,计算胎儿分数的一个或多个值。11.如权利要求9所述的系统,其中所述似然比包括:其中p1表示数据来自代表3拷贝或1拷贝模型的多元正态分布的似然性,p0表示数据来自代表2拷贝模型的多元正态分布的似然性,T
短
、T
所有
是由短片段和所有片段产生的染色体
覆盖率所计算的T评分,以及q(ff
总
)是胎儿分数的密度分布。12.如权利要求11所述的系统,其中计算X单体、X三体、13三体、18三体或21三体的似然比。13.如权利要求1所述的系统,其中(d)和/或(e)包括:(i)确定与所述箱比对的序列标签的数量,和(ii)基于由于拷贝数变异以外的因素所导致的箱间变异,将与所述箱比对的序列标签的数量归一化。14.如权利要求13所述的系统,其中将序列标签的数量归一化包括:针对所述样品的GC含量归一化,针对训练组的变异的全局波谱归一化,和/或针对从主组分分析获得的一个或多个组分归一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。