使用具有独特分子索引(UMI)的冗余读段在测序DNA片段中抑制误差制造技术

技术编号:31572762 阅读:20 留言:0更新日期:2021-12-25 11:13
公开的实施方案关注用于使用独特分子索引(UMI)序列来测定感兴趣的序列的方法、装置、系统和计算机程序产品,所述独特分子索引序列与单独的多核苷酸片段,包括具有低等位基因频率和长序列长度的序列独特可关联。在一些实施方案中,UMI包含例如使用Y型衔接子引入的物理(外源)UMI,和要测序的DNA片段中存在的虚拟(内源)UMI两者。在一些实施方案中,独特分子索引序列包括非随机序列。还提供了用于实施公开的方法来测定感兴趣的序列的系统、装置、和计算机程序产品。算机程序产品。算机程序产品。

【技术实现步骤摘要】
使用具有独特分子索引(UMI)的冗余读段在测序DNA片段中抑制误差
[0001]本申请是基于申请日为2016年4月20日,优先权日为2015年4月28日,申请号为201680036120.4,专利技术名称为:“使用具有独特分子索引(UMI)的冗余读段在测序DNA片段中抑制误差”的专利申请的分案申请。
[0002]对相关申请的交叉引用
[0003]本申请要求根据35U.S.C.第119(e)节,于2015年4月28日提交的美国临时专利申请号62/153,699,代理人案卷号ILMNP008P,于2015年7月16日提交的美国临时专利申请号62/193,469,代理人案卷号ILMNP008P2,以及于2015年12月18日提交的美国临时专利申请号62/269,485,代理人案号ILMNP008P3的权益,将其通过引用整体并入本文用于所有目的。
[0004]序列表
[0005]本申请含有序列表,其以ASCII格式电子提交并通过引用以其整体并入本文。创建于2016年4月20日的所述ASCII拷贝命名为ILMNP008WO_ST25.txt并且大小为1164字节。
[0006]专利技术背景
[0007]下一代测序技术正在提供越来越高的测序速度,允许更大的测序深度。然而,由于测序精确度和灵敏度受到各种来源(如样品缺陷、文库制备期间的PCR、富集、成簇和测序)的误差(error)和噪声的影响,单独增加测序的深度不能确保检测到非常低等位基因频率的序列,如母体血浆中的胎儿无细胞DNA(cfDNA)中的序列、循环肿瘤DNA(ctDNA)中的序列、病原体亚克隆突变中的序列。因此,期望开发在抑制由于各种误差来源所致的测序不精确性的情况下测定少量和/或低等位基因频率的DNA分子的序列的方法。
[0008]专利技术概述
[0009]公开的实施方案关注用于使用独特分子索引(UMI)序列来测定核酸片段序列的方法、装置、系统和计算机程序产品。在各种实施方案中,测序方法测定来自核酸片段的两条链的核酸片段的序列。在一些实施方案中,该方法采用位于测序衔接头的一条或两条链上的物理UMI。在一些实施方案中,该方法还采用位于核酸片段的两条链上的虚拟UMI。
[0010]本公开的一方面涉及使用独特分子索引(UMI)对来自样品的核酸分子测序的方法。每个独特分子索引(UMI)是能用于鉴定所述样品中双链DNA片段的单独分子的寡核苷酸序列。所述方法包括:(a)将衔接头应用于所述样品中双链DNA片段的两个末端,其中所述衔接头各自包含双链杂交区、单链5

臂、单链3

臂,和在所述衔接头的一条链或每条链上的物理UMI,从而获得DNA

衔接头产物;(b)扩增所述DNA

衔接头产物的两条链以获得多个扩增的多核苷酸;(c)对所述多个扩增的多核苷酸测序,从而获得多个读段,每个读段与物理UMI相关联;(d)鉴定与所述多个读段相关联的多个物理UMI;(e)鉴定与所述多个读段相关联的多个虚拟UMI,其中每个虚拟UMI是所述样品中DNA片段中发现的序列;以及(f)使用(c)中获得的所述多个读段、(d)中鉴定的所述多个物理UMI、和(e)中鉴定的所述多个虚拟UMI来测定所述样品中的所述双链DNA片段的序列。在一些实施方案中,所述方法包括操作(f),其包括:(i)对于所述样品中的一个或多个所述双链DNA片段中的每个,组合(1)在5

至3

方向上,具有第一物理UMI和至少一个虚拟UMI的读段和(2)在5

至3

方向上,具有第二物理UMI
和至少一个虚拟UMI的读段以测定共有核苷酸序列;和(ii)对于所述样品中的一个或多个所述双链DNA片段中的每个,使用共有核苷酸序列来测定序列。
[0011]在一些实施方案中,多个物理UMI包含随机UMI。在一些实施方案中,多个物理UMI包含非随机UMI。在一些实施方案中,每个非随机UMI与衔接头的每个其它非随机UMI相差所述非随机UMI的对应序列位置处的至少两个核苷酸(every nonrandom UMI differs from every other nonrandom UMI of the adapters by at least two nucleotides at corresponding sequence positions of the nonrandom UMIs)。在一些实施方案中,多个物理UMI包括不超过约10,000、约1,000、约500,或约100种独特非随机UMI。在一些实施方案中,多个物理UMI包括约96种独特非随机UMI。
[0012]在以上方法的一些实施方案中,将衔接头应用于双链DNA片段的两个末端包括将所述衔接头连接到所述双链DNA片段的两个末端。在一些实施方案中,操作(f)包括使用共享共同物理UMI和共同虚拟UMI的读段来测定所述样品的DNA片段的序列。
[0013]在以上方法的一些实施方案中,多个物理UMI包括少于12个核苷酸。在一些实施方案中,多个MUI包括不超过6个核苷酸。在一些实施方案中,所述多个UMI包括不超过4个核苷酸。
[0014]在一些实施方案中,衔接头各自包含所述双链杂交区中衔接头的每条链上的物理UMI。在一些实施方案中,物理UMI在双链杂交区的末端处,所述双链杂交区的末端与3'臂或5'臂相反,或距离所述双链杂交区的末端为一个核苷酸。在一些实施方案中,衔接头各自包含与物理UMI接近的双链杂交区上的5'

TGG

3'三核苷酸或者3'

ACC

5'三核苷酸。在一些实施方案中,衔接头各自包含双链杂交区的每条链上的读段引物序列(read primer sequence)。
[0015]在一些实施方案中,衔接头各自包含单链5

臂或单链3

臂上在衔接头的仅一条链上的物理UMI。在这些实施方案中的一些中,(f)包括:(i)将具有相同第一物理UMI的读段折拢(collapsing)成第一组以获得第一共有核苷酸序列;(ii)将具有相同第二物理UMI的读段折拢成第二组以获得第二共有核苷酸序列;以及(iii)使用第一和第二共有核苷酸序列来测定样品中双链DNA片段之一的序列。在一些实施方案中,(iii)包括:(1)使用第一和第二共有核苷酸序列的定位信息和序列信息来获得第三共有核苷酸序列,并(2)使用第三共有核苷酸序列来测定双链DNA片段之一的序列。在一些实施方案中,操作(e)包括鉴定多个虚拟UMI,其中衔接头各自包含仅在单链5

臂区或单链3

臂区中在衔接头的仅一条链上的物理UMI。在一些实施方案中,(f)包括:(i)将在5

至3

方向上具有第一物理UMI和至少一个虚拟UMI的读段与在5

至3

方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.使用独特分子索引(UMI)对来自样品的核酸分子测序的方法,其中每个独特分子索引(UMI)是能用于鉴定所述样品中双链DNA片段的单独分子的寡核苷酸序列,所述方法包括:(a)将衔接头应用于所述样品中双链DNA片段的两个末端,其中所述衔接头各自包含双链杂交区、单链5

臂、单链3

臂、和所述衔接头的一条链或每条链上的物理UMI,从而获得DNA

衔接头产物;(b)扩增所述DNA

衔接头产物的两条链以获得多个扩增的多核苷酸;(c)对所述多个扩增的多核苷酸测序,从而获得多个读段,每个读段与物理UMI相关联;(d)鉴定与所述多个读段相关联的多个物理UMI;(e)鉴定与所述多个读段相关联的多个虚拟UMI,其中每个虚拟UMI是所述样品中DNA片段中发现的序列;以及(f)对于一个或多个所述双链DNA片段中的每个,通过组合(i)具有第一物理UMI和至少一个虚拟UMI但不是第二物理UMI的读段和(ii)具有所述第二物理UMI和所述至少一个虚拟UMI但不是所述第一物理UMI的读段,测定共有核苷酸序列;以及(g)对于所述样品中的一个或多个所述双链DNA片段中的每个,使用所述共有核苷酸序列测定序列。2.权利要求1的方法,其中所述多个物理UMI包含随机UMI。3.权利要求1的方法,其中所述多个物理UMI包含非随机UMI。4.权利要求3的方法,其中每个非随机UMI与所述衔接头的每个其它(every other)非随机UMI相差所述非随机UMI的对应序列位置处的至少两个核苷酸。5.权利要求4的方法,其中所述多个物理UMI包括不超过10,000种独特非随机UMI。6.权利要求5的方法,其中所述多个物理UMI包括不超过1,000种独特非随机UMI。7.权利要求6的方法,其中所述多个物理UMI包括不超过500种独特非随机UMI。8.权利要求7的方法,其中所述多个物理UMI包括不超过约100种独特非随机UMI。9.权利要求8的方法,其中所述多个物理UMI包括约96种独特非随机UMI。10.权利要求1的方法,其中将衔接头应用于双链DNA片段的两个末端包括将所述衔接头连接到所述双链DNA片段的两个末端。11.权利要求1的方法,其中所述多个物理UMI包括少于12个核苷酸。12.权利要求11的方法,其中所述多个MUI包括不超过6个核苷酸。13.权利要求11的方法,其中所述多个UMI包括不超过4个核苷酸。14.权利要求1的方法,其中所述衔接头各自包含所述双链杂交区的每条链上的读段引物序列。15.权利要求1的方法,其中所述衔接头各自包含所述单链5

臂或所述单链3

臂上在所述衔接头的仅一条链上的物理UMI。16.权利要求15的方法,其中(f)包括:(i)将所述具有第一物理UMI和至少一个虚拟UMI但不是第二物理UMI的读段折拢(collapsing)成第一组以获得第一共有核苷酸序列;(ii)将所述具有第二物理UMI和至少一个虚拟UMI但不是第一物理UMI的读段折拢成第二组以获得第二共有核苷酸序列;以及
(iii)使用所述第一和第二共有核苷酸序列来测定(f)的共有核苷酸序列。17.权利要求16的方法,其中(iii)包括使用所述第一和第二共有核苷酸序列的定位信息和序列信息来获得(f)的共有核苷酸序列。18.权利要求1的方法,其中所述虚拟UMI中的至少一些源自所述样品中所述双链DNA片段的末端处或附近的亚序列。19.权利要求1的方法,其中一个或多个物理UMI和/或一个或多个虚拟UMI与所述样品中双链DNA片段独特地相关联。20.权利要求1的方法,其中所述样品中所述双链DNA片段包含超过约1,000个DNA片段。21.权利要求1的方法,其中所述多个虚拟UMI包含约6bp至约24bp的UMI。22.权利要求21的方法,其中所述多个虚拟UMI包含约6bp至约10bp的UMI。23.权利要求1的方法,其中操作(c)中获得所述多个读段包括:从每个扩增的多核苷酸中获得两个配对末端读段,其中所述两个配对末端读段包含长读段和短读段,所述长读段比所述短读段长。24.权利要求23的方法,其中(f)包括:将与第一物理UMI相关联的读段对组合成第一组并且将与第二物理UMI相关联的读段对组合成第二组,其中所述第一和所述第二物理UMI与所述样品中的双链片段独特地相关联;并且使用所述第一组中长读段的序列信息和所述第二组中长读段的序列信息来测定所述样品中所述双链片段的序列。25.权利要求23的方法,其中所述长读段具有约500bp或...

【专利技术属性】
技术研发人员:S内勒B郑E科斯特姆A阿拉瓦尼斯A索X蔡Z张
申请(专利权)人:亿明达股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1