一种降低深度测序错误的方法技术

技术编号:18604057 阅读:1205 留言:0更新日期:2018-08-04 21:45
本发明专利技术公开了一种降低深度测序错误的方法,所述方法通过为每个核苷酸链产生数字分子标识符得以实现。本发明专利技术通过基于DMI(数字分子标识符)的单链错误校正(DSSEC)和双链错误校正(DDSEC)来识别PCR扩增或测序中发生的错误,优点是它具有设计的简洁性和灵活性,可进行适当调整。

A method to reduce the error of depth sequencing

The invention discloses a method for reducing depth sequencing errors, which is realized by generating digital molecular identifiers for each nucleotide chain. The invention identifies errors in PCR amplification or sequencing by using single chain error correction (DSSEC) and double stranded error correction (DDSEC) based on DMI (Digital molecular identifier). The advantage is that it has the simplicity and flexibility of design and can be adjusted properly.

【技术实现步骤摘要】
一种降低深度测序错误的方法
本专利技术涉及基因测序
,特别涉及一种降低深度测序错误的方法。
技术介绍
深度测序已广泛应用于研究宏基因组学、人类遗传学以及肿瘤基因组学等复杂生物样本中的亚群。例如在肿瘤的早期检测和监测中,科学家们对基于核苷酸的血清生物标志物(例如循环肿瘤DNA或RNA)的治疗开发了临床应用。并且,通过下一代测序对肿瘤异质性进行了研究,已经鉴定出许多具有重要治疗意义的低频耐药变体。然而,深度测序技术仍有很大的局限性,主要是在样品制备和测序过程中易引入错误信息。异质混合物的PCR扩增可导致群体数目不稳定和特定突变体的过度和不足,群体数目的不稳定性是由于随机和非随机扩增的碱基偏向性导致的。预扩增期间聚合酶错误产生点突变是由模板转换引起的碱基错配和重排所致。依据特定的平台和序列,结合扩增、循环测序和图像分析过程中出现的额外误差,大约1%的碱基被错误地识别。在这种人为异质性的背景水平建立的极限之下,真正的罕见突变体将会被掩盖。为了克服以上问题,科研工作者多通过在扩增之前独特地标记DNA片段来提高测序的灵敏度。例如,目前多采用将随机标签序列并加入PCR引物以产生用于DNA测序的文库。利用单链DNA产生PCR复制子,并比较复制子的序列。只有当它们存在于单个起始分子的多个重复中时,才对突变进行评价。这种方法会在一定程度上提高标准测序的准确性,但由于受限于其基于单链DNA的扩增和测序,因此不能克服由于单链DNA损伤事件而导致的灵敏度限制。原因在于下一代测序平台通常依赖于从单链DNA产生序列数据,在最初一轮PCR扩增期间引入的突变错误,即使使用标记技术也不可检测到,基础改变会被传播到所有后续的PCR重复。为了克服单链纠错方法的不足,Schmitt等人(WO2013142389A1,MethodsofloweringtheerrorrateofmassivelyparallelDNAsequencingusingduplexconsensussequencing)专利技术了利用存储在复合双链DNA中的冗余信息的方法。该方法使用SMI(单分子标识符)来识别源自DNA的每条链的reads,然后使用双链共有序列(DCS)分析产生的测序reads以去除错误。虽然理论上双链测序可以大大减少错误,但是具有如下几个缺点:首先,最终的SMI是一个双链随机序列,使用单链随机化序列作为SMI模板以获得双链SMI,并且双链SMI接头的质量控制需要放射性标记和PAGE,这对于临床实验室来说合成非常复杂,难以控制;其次,由于难以制作高质量的SMI接头,连接效率可能将会受到很大的影响,因此可能需要大量的输入DNA,在Schmitt等人开发的方法中,需使用高达750ngDNA作为起始材料;另外,随机序列通常在标记中是优先选择的,但几乎没有办法控制退化序列的质量,并且无法识别在随机化barcode的扩增或测序中发生的错误。
技术实现思路
为了克服SMI方法的不足,本专利技术提供了一种降低深度测序错误的方法,通过基于DMI(数字分子标识符)的单链错误校正(DSSEC)和双链错误校正(DDSEC)来识别PCR扩增或测序过程所引入的错误。DMI的优点是它具有设计的简洁性和灵活性,可进行适当调整。本专利技术解决其技术问题所采用的技术方案是:一种降低深度测序错误的方法,所述方法通过为每个核苷酸链产生数字分子标识符得以实现,包括如下步骤:1)制备标签核苷酸;2)将标签核苷酸随机连接至靶标核苷酸获得标签-靶标核苷酸复合物;3)扩增标签-靶标核苷酸复合物,产生一组扩增的标签-靶标核苷酸产物;4)对扩增的标签-靶标核苷酸产物进行测序;5)对测序得到的每个标签-靶标核苷酸产物产生一个基于标签-靶标核苷酸复合物信息的数字分子标识符;6)把测序产物按相同的数字分子标识符,聚类成相应的单链类别,在每个单链类别里面通过生物信息学比对去除错误位点,得到单链共有序列,从而降低深度测序错误。由同一条链经扩增后产生的一组单链序列,这组单链序列具有相同的数字分子标识符,通过识别数字分子标识符就可以将来自同一条核苷酸链的重复序列聚类成一组单链序列,通过单链序列之间的比较,可以区分突变的位点是由于扩增或测序过程引起的还是本身具有的突变位点,从而实现纠错。作为优选,所述标签核苷酸包含:至少两个PCR引物结合位点;或至少两个测序引物结合位点;或同时包含至少两个PCR引物结合位点和至少两个测序引物结合位点。作为优选,所述标签核苷酸是含有不同barcode序列的接头序列,该接头序列为T突出端、A突出端、CG突出端或平端。作为优选,所述barcode序列为双链分子或单链分子。作为优选,所述含有不同barcode序列的接头序列为:正链:AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCNNNNNNNNNNNNGATCT;负链:/5phos/GATCNNNNNNNNNNNNGGAAGAGCACACGTCTGAACTCCAGTCAC;其中,NNNNNNNNNNNN是长度为3~15nt的barcode序列;N为A、G、C或T;负链中的barcode序列与正链中的barcode序列反向互补配对。作为优选,所述靶标核苷酸为双链DNA或RNA。作为优选,所述靶标核苷酸分子为双链循环肿瘤DNA或逆转录循环肿瘤RNA片段。作为优选,所述数字分子标识符包括标签核苷酸序列信息、靶标核苷酸序列信息、靶标核苷酸长度及靶标核苷酸在参考基因组上的位置信息。作为优选,步骤6)中,通过生物信息学比对去除错误位点具体为:通过生物信息学分析除去靶标核苷酸上一个或多个错配的核苷酸位点(由同一条链经扩增后产生的一组单链序列,通过序列之间的比较,如果某个位点仅在部分的PCR产物中出现,则判定该位点为错配,可在生物信息学分析中去除),或者选择性地从靶标核苷酸上去除单链核苷酸没有的特定的核苷酸位点(由同一条链经扩增后产生的一组单链序列,这些序列理论上应该是一样的,如果某条链上的某个位点出现了不一样的序列,则该位点为测序引起的突变,不是序列本身的突变,可去除)。作为优选,所述方法进一步包括以下步骤:按双链匹配的数字分子标识符,把单链共有序列再聚类为双链类别,通过双链互补配对信息去除错误位点,从而进一步降低深度测序错误。DNA分子经扩增后两条链均产生一组单链共有序列,将两组单链共有序列比对分析,去除错误位点即得双链共有序列。本步骤能进一步验证步骤6)的测序结果是否准确。作为优选,通过双链互补配对信息去除错误位点具体为:根据双链互补配对信息通过生物信息学分析除去靶标核苷酸上一个或多个错配的核苷酸位点,或者选择性地从靶标核苷酸上去除单链核苷酸没有的特定的核苷酸位点。本专利技术的有益效果是:通过基于DMI的单链错误校正(DSSEC)和双链错误校正(DDSEC)来识别PCR扩增或测序过程中引入的错误,优点是它具有设计的简洁性和灵活性,可进行适当调整。附图说明图1数字分子标识符(DMI)示意图。DMI包括信息为标签核苷酸序列信息、靶标核苷酸序列信息、靶标核苷酸长度及靶标核苷酸在参考基因组上的位置信息,还包括标签核苷酸库信息。通过生物信息学计算以上信息获得DMI。图2是使用DMI的双链误差校正的示意图。本文档来自技高网
...

【技术保护点】
1.一种降低深度测序错误的方法,其特征在于,所述方法通过为每个核苷酸链产生数字分子标识符得以实现,包括如下步骤:1)制备标签核苷酸链;2)将标签核苷酸链随机连接至靶标核苷酸链获得标签‑靶标核苷酸复合物;3)扩增标签‑靶标核苷酸复合物,产生一组扩增的标签‑靶标核苷酸产物;4)对扩增的标签‑靶标核苷酸产物进行测序;5)对测序得到的每个标签‑靶标核苷酸产物产生一个基于标签‑靶标核苷酸复合物信息的数字分子标识符;6)把测序产物按相同的数字分子标识符,聚类成相应的单链类别,在每个单链类别里面通过生物信息学比对去除错误位点,得到单链共有序列,从而降低深度测序错误。

【技术特征摘要】
1.一种降低深度测序错误的方法,其特征在于,所述方法通过为每个核苷酸链产生数字分子标识符得以实现,包括如下步骤:1)制备标签核苷酸链;2)将标签核苷酸链随机连接至靶标核苷酸链获得标签-靶标核苷酸复合物;3)扩增标签-靶标核苷酸复合物,产生一组扩增的标签-靶标核苷酸产物;4)对扩增的标签-靶标核苷酸产物进行测序;5)对测序得到的每个标签-靶标核苷酸产物产生一个基于标签-靶标核苷酸复合物信息的数字分子标识符;6)把测序产物按相同的数字分子标识符,聚类成相应的单链类别,在每个单链类别里面通过生物信息学比对去除错误位点,得到单链共有序列,从而降低深度测序错误。2.根据权利要求1所述的方法,其特征在于,所述标签核苷酸链包含:至少两个PCR引物结合位点;或至少两个测序引物结合位点;或同时包含至少两个PCR引物结合位点和至少两个测序引物结合位点。3.根据权利要求1所述的方法,其特征在于,所述标签核苷酸链是含有不同barcode序列的接头序列,该接头序列为T突出端、A突出端、CG突出端或平端。4.根据权利要求3所述的方法,其特征在于,所述barcode序列为双链分子或单链分子。5.根据权利要求3所述的方法,其特征在于,所述含有不同barcode序列的接头序列为:正链:AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCNNNNNNNNNNNNGATCT;负链:/5phos/GATC...

【专利技术属性】
技术研发人员:童云广王华印赵楠
申请(专利权)人:奥明杭州基因科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1