一种校正测序信息错误的方法技术

技术编号:38205772 阅读:7 留言:0更新日期:2023-07-21 16:52
本发明专利技术提供了一种校正测序信息错误的方法。本发明专利技术利用次级超前校正测序结果中超前量。待测的核酸序列进行测序,检测测序产生的对应于核酸序列的信号;测序结果中,通过次级超前校正该信号。本发明专利技术同时考虑初级超前、次级超前和滞后现象,将衰减、失相、整体偏移等问题所造成的信号偏差作为一个整体用于校正测序序列信息。序序列信息。序序列信息。

【技术实现步骤摘要】
一种校正测序信息错误的方法
[0001]本申请是申请日为2016年11月16日,申请号为201680079417.9,专利技术名称为“获得和校正生物序列信息的方法”的申请的分案申请。


[0002]本专利技术涉及一种校正测序信息错误的方法,属于基因测序领域。

技术介绍

[0003]高通量测序仪是近几年高速发展的技术。相较于传统桑格测序(Sanger sequencing),高通量测序最大的优势是可以同时读出海量的序列信息。虽然准确性不如传统测序方法,但由于海量数据分析,便可得出超出序列本身的信息,如基因表达量、拷贝数变化。
[0004]当今主流测序仪均使用SBS(边合成边测序)方法,如Solexa/Illumina、454、Ion Torrent等。这些测序仪的结构相似,都包括流体系统、光学系统和芯片系统。测序反应在芯片内发生。测序过程也很类似,都包括:将反应液通入芯片,发生SBS反应,采集信号,洗涤。接下来,进行新的一轮测序。这是一个循环过程。随着循环的增多,测出连续的单碱基非兼并序列信息(如ACTGACTG)。然而,高通量测序仪无法彻底消除测序错误。测序错误可能来源于:反应偶然错误或累积错误、信号采集错误、信号校正带来的误差等等。现有测序仪中,这些化学或光学、软件上的错误可成为噪声,在单个读出位点无法被识别,只能通过深度测序,利用同一序列在不同位点的多次读出进行消除。更准确的读出是高通量测序发展的重要方向。然而,现有技术对准确性的优化多集中在优化化学反应本身以及后续图像信号处理上,没有从测序逻辑上进行革新。因此存在改进的测序方法的需要。

技术实现思路

[0005]本申请要求以下中国专利申请的优先权:2015年11月19日提交的申请号为CN201510822361.9、标题为“一种磷酸修饰荧光团的核苷酸分子测序方法”的中国专利申请、2015年11月19日提交的申请号为CN201510815685.X、标题为“利用具有荧光切换性质荧光团的核苷酸底物分子进行测序的方法”的中国专利申请、2015年12月12日提交的申请号为CN201510944878.5、标题为“测序结果中序列数据错误的检测和校正方法”的中国专利申请以及2016年10月14日提交的申请号为CN201610899880.X、标题为“一种从高通量DNA测序的原始信号中读取序列信息的方法”的中国专利申请,所述中国专利申请的全部内容均通过引用整体并入本文。
[0006]
技术实现思路
并非意图用于限制所要求保护的主题的范围。所要求保护的主题的其他特征、细节、效用和优点将从包括在附图和所附权利要求中公开的那些方面的详细描述中显现。
[0007]一方面,本文提供了校正测序信息错误的方法,其包括:(a)根据在测序反应期间来自一种或多种参考多核苷酸的测序信号以及参考多核苷酸的已知核酸序列进行参数估
计,使用所述参数估计获得测序反应的超前的和/或滞后的失相现象的信息;(b)获得在测序反应期间来自目标多核苷酸的测序信号;(c)根据从步骤(a)获得的信息和从步骤(b)获得的测序信号,计算目标多核苷酸的次级超前量;(d)根据从步骤(b)获得的测序信号以及步骤(c)的次级超前量,计算目标多核苷酸的失相量;(e)使用失相量校正从步骤(b)获得的测序信号,以生成目标多核苷酸的预测测序信号;(f)重复步骤(c)至(e)一轮或多轮,其中将来自第i轮的预测测序信号用于计算第i+1轮中目标多核苷酸的次级超前量,直到来自第j轮的目标多核苷酸的预测测序信号在数学上是收敛的,其中i和j是整数并且1≤i<i+1≤j。在一个实施方案中,次级超前现象是指在测序期间,在目标多核苷酸的残基处发生非预期核苷酸延伸,并且非预期延伸被除下一个残基以外的核苷酸进一步延伸。在一个其他实施方案中,失相量包括由于测序期间的超前的和/或滞后的失相现象而导致的测序结果的改变。
[0008]在任何前述实施方案中,步骤(a)中的参数估计可包括获得衰减系数。在任何前述实施方案中,步骤(a)中的参数估计还可包括获得偏移量。在任何前述实施方案中,步骤(a)中的参数估计可包括获得单位信号信息。在任何前述实施方案中,步骤(a)中的参数估计可包括获得关于每种核苷酸或核苷酸组合的超前系数和/或滞后系数。
[0009]在任何前述实施方案中,方法包括当进行多轮测序反应时获得每轮测序反应的超前和/或滞后失相现象的信息。
[0010]另一方面,本文提供了校正测序信息错误的方法,其包括:(a)根据在测序反应期间来自一种或多种参考多核苷酸的测序信号以及参考多核苷酸的已知核酸序列,进行参数估计;(b)获得在测序反应期间来自目标多核苷酸的测序信号;(c)根据在步骤(a)中通过参数估计获得的超前的或滞后的失相获得的信息和从步骤(b)获得的测序信号,计算目标多核苷酸的次级超前量;(d)根据从步骤(b)获得的测序信号以及步骤(c)的次级超前量,计算目标多核苷酸的失相量;(e)使用失相量校正从步骤(b)获得的测序信号,以生成目标多核苷酸的预测测序信号;(f)重复步骤(c)至(e)一轮或多轮,其中将来自第i轮的预测测序信号用于计算第i+1轮中目标多核苷酸的次级超前量,直到来自第j轮的目标多核苷酸的预测测序信号在数学上是收敛的,其中i和j是整数并且1≤i<i+1≤j。一方面,参数估计包括根据来自参考多核苷酸的测序信号和参考多核苷酸的已知核酸序列,获得超前量、滞后量、衰减系数和/或偏移量。在另一方面,次级超前现象是指在测序期间,在目标多核苷酸的残基处发生非预期核苷酸延伸,并且非预期延伸被除下一个残基以外的核苷酸进一步延伸。在又一方面,失相量包括由于测序期间的超前的和/或滞后的失相现象而导致的测序结果的改变。
[0011]在任何前述实施方案中,测序可包括向反应液中加入一种或多种测序试剂,其中所述一种或多种测序试剂任选地包含核苷酸和/或酶。在任何前述实施方案中,在测序中,可在每次测序反应中加入一种、两种或三种类型的核苷酸。在任何前述实施方案中,测序反应涉及多核苷酸的开放或未封闭的3

端。在任何前述实施方案中,在测序中,加入的核苷酸可包含A、G、C和T中的一个或多个,或A、G、C和U中的一个或多个。在任何前述实施方案中,检测的测序信号可包括电信号、生物发光信号、化学发光信号,或其任何组合。
[0012]在任何前述实施方案中,参数估计可包括:根据参考多核苷酸的序列推断理想信号h,根据预设的参数计算失相信号(或相错配)s和预测的原始测序信号p,以及计算p和实
际原始测序信号f之间的相关系数c。一方面,方法还包括使用最优化方法找到一组参数,使得相关系数c达到最优值。在另一方面,该组参数包括超前系数或量、滞后系数或量、衰减系数、偏移量、单位信号,或其任何组合。
[0013]在任何前述实施方案中,在测序期间,可提供两组反应液,每组包含不同于另一组的一种或多种核苷酸,并且每次测序反应中提供一份反应液。一方面,将两组反应液以交替方式用于进行测序反应。在任何前述实施方案中,目标多核苷酸本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种校正测序信息错误的方法,其包括:(a)根据在所述测序反应期间来自一种或多种参考多核苷酸的测序信号以及所述参考多核苷酸的所述已知核酸序列进行参数估计,使用所述参数估计获得测序反应的超前的和/或滞后的失相现象的信息;(b)获得在测序反应期间来自目标多核苷酸的测序信号;(c)基于从步骤(a)获得的所述信息和从步骤(b)获得的所述测序信号,计算所述目标多核苷酸的次级超前量;(d)基于从步骤(b)获得的所述测序信号以及步骤(c)的所述次级超前量,计算所述目标多核苷酸的所述失相量;(e)使用所述失相量校正从步骤(b)获得的所述测序信号,以生成所述目标多核苷酸的预测测序信号;(f)重复步骤(c)至(e)一轮或多轮,其中将来自第i轮的所述预测测序信号用于计算第i+1轮中所述目标多核苷酸的所述次级超前量,直到来自第j轮的所述目标多核苷酸的所述预测测序信号在数学上是收敛的,其中i和j是整数并且1≤i<i+1≤j,其中所述次级超前现象是指在测序期间,在所述目标多核苷酸的残基处发生非预期核苷酸延伸,并且所述非预期延伸被除下一个残基以外的核苷酸进一步延伸,并且其中所述失相量包括由于测序期间的所述超前的和/或滞后的失相现象而导致的所述测序结果的改变。2.根据权利要求1所述的方法,其中步骤(a)中的所述参数估计包括获得衰减系数。3.根据权利要求1或2所述的方法,其中步骤(a)中的所述参数估计还包括获得偏移量。4.根据权利要求1

3中任一项所述的方法,其中步骤(a)中的所述参数估计还包括获得单位信号信息。5.根据权利要求1

4中任一项所述的方法,其中步骤(a)中的所述参数估计包括获得关于每种核苷酸或核苷酸组合的所述超前系数和/或滞后系数。6.根据权利要求1

5中任一项所述的方法,其包括当进行多轮测序反应时获得每轮测序反应的所述超前和/或滞后失相现象的所述信息。7.一种校正测序信息错误的方法,其包括:(a)根据在所述测序反应期间来自一种或多种参考多核苷酸的测序信号以及所述参考多核苷酸的所述已知核酸序列,进行参数估计;(b)获得在所述测序反应期间来自目标多核苷酸的测序信号;(c)根据通过步骤(a)中的参数估计获得的超前的或滞后的失相信息以及从步骤(b)获得的所述测序信号,计算所述目标多核苷酸的所述次级超前量;(d)基于从步骤(b)获得的所述测序信号以及步骤(c)的所述次级超前量,计算所述目标多核苷酸的所述失相量;(e)使用所述失相量校正从步骤(b)获得的所述测序信号,以生成所述目标多核苷酸的预测测序信号;(f)重复步骤(c)至(e)一轮或多轮,其中将来自第i轮的所述预测测序信号用于计算第i+1轮中所述目标多核苷酸的所述次级超前量,直到来自第j轮的所述目标多核苷酸的所述预测测序信号在数学上是收敛的,其中i和j是整数并且1≤i<i+1≤j,
其中所述参数估计包括根据来自所述参考多核苷酸的所述测序信号和所述参考多核苷酸的所述已知核酸序列,获得所述超前量、所述滞后量、所述衰减系数和/或所述偏移量,其中所述次级超前现象是指在测序期间,在所述目标多核苷酸的残基处发生非预期核苷酸延伸,并且所述非预期延伸被除下一个残基以...

【专利技术属性】
技术研发人员:黄岩谊陈子天周文雄段海峰康力乔朔
申请(专利权)人:赛纳生物科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1