一种校正测序信息错误的方法技术

技术编号：38205772 阅读：7 留言：0更新日期：2023-07-21 16:52

本发明专利技术提供了一种校正测序信息错误的方法。本发明专利技术利用次级超前校正测序结果中超前量。待测的核酸序列进行测序，检测测序产生的对应于核酸序列的信号；测序结果中，通过次级超前校正该信号。本发明专利技术同时考虑初级超前、次级超前和滞后现象，将衰减、失相、整体偏移等问题所造成的信号偏差作为一个整体用于校正测序序列信息。序序列信息。序序列信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种校正测序信息错误的方法
[0001]本申请是申请日为2016年11月16日，申请号为201680079417.9，专利技术名称为“获得和校正生物序列信息的方法”的申请的分案申请。

[0002]本专利技术涉及一种校正测序信息错误的方法，属于基因测序领域。

技术介绍

[0003]高通量测序仪是近几年高速发展的技术。相较于传统桑格测序(Sanger sequencing)，高通量测序最大的优势是可以同时读出海量的序列信息。虽然准确性不如传统测序方法，但由于海量数据分析，便可得出超出序列本身的信息，如基因表达量、拷贝数变化。
[0004]当今主流测序仪均使用SBS(边合成边测序)方法，如Solexa/Illumina、454、Ion Torrent等。这些测序仪的结构相似，都包括流体系统、光学系统和芯片系统。测序反应在芯片内发生。测序过程也很类似，都包括：将反应液通入芯片，发生SBS反应，采集信号，洗涤。接下来，进行新的一轮测序。这是一个循环过程。随着循环的增多，测出连续的单碱基非兼并序列信息(如ACTGACTG)。然而，高通量测序仪无法彻底消除测序错误。测序错误可能来源于：反应偶然错误或累积错误、信号采集错误、信号校正带来的误差等等。现有测序仪中，这些化学或光学、软件上的错误可成为噪声，在单个读出位点无法被识别，只能通过深度测序，利用同一序列在不同位点的多次读出进行消除。更准确的读出是高通量测序发展的重要方向。然而，现有技术对准确性的优化多集中在优化化学反应本身以及后续图像信号处理上，没有从测序逻辑上进...

【技术保护点】

【技术特征摘要】
1.一种校正测序信息错误的方法，其包括：(a)根据在所述测序反应期间来自一种或多种参考多核苷酸的测序信号以及所述参考多核苷酸的所述已知核酸序列进行参数估计，使用所述参数估计获得测序反应的超前的和/或滞后的失相现象的信息；(b)获得在测序反应期间来自目标多核苷酸的测序信号；(c)基于从步骤(a)获得的所述信息和从步骤(b)获得的所述测序信号，计算所述目标多核苷酸的次级超前量；(d)基于从步骤(b)获得的所述测序信号以及步骤(c)的所述次级超前量，计算所述目标多核苷酸的所述失相量；(e)使用所述失相量校正从步骤(b)获得的所述测序信号，以生成所述目标多核苷酸的预测测序信号；(f)重复步骤(c)至(e)一轮或多轮，其中将来自第i轮的所述预测测序信号用于计算第i+1轮中所述目标多核苷酸的所述次级超前量，直到来自第j轮的所述目标多核苷酸的所述预测测序信号在数学上是收敛的，其中i和j是整数并且1≤i<i+1≤j，其中所述次级超前现象是指在测序期间，在所述目标多核苷酸的残基处发生非预期核苷酸延伸，并且所述非预期延伸被除下一个残基以外的核苷酸进一步延伸，并且其中所述失相量包括由于测序期间的所述超前的和/或滞后的失相现象而导致的所述测序结果的改变。2.根据权利要求1所述的方法，其中步骤(a)中的所述参数估计包括获得衰减系数。3.根据权利要求1或2所述的方法，其中步骤(a)中的所述参数估计还包括获得偏移量。4.根据权利要求1
‑
3中任一项所述的方法，其中步骤(a)中的所述参数估计还包括获得单位信号信息。5.根据权利要求1
‑
4中任一项所述的方法，其中步骤(a)中的所述参数估计包括获得关于每种核苷酸或核苷酸组合的所述超前系数和/或滞后系数。6.根据权利要求1
‑
5中任一项所述的方法，其包括当进行多轮测序反应时获得每轮测序反应的所述超前和/或滞后失相现象的所述信息。7.一种校正测序信息错误的方法，其包括：(a)根据在所述测序反应期间来自一种或多种参考多核苷酸的测序信号以及所述参考多核苷酸的所述已知核酸序列，进行参数估计；(b)获得在所述测序反应期间来自目标多核苷酸的测序信号；(c)根据通过步骤(a)中的参数估计获得的超前的或滞后的失相信息以及从步骤(b)获得的所述测序信号，计算所述目标多核苷酸的所述次级超前量；(d)基于从步骤(b)获得的所述测序信号以及步骤(c)的所述次级超前量，计算所述目标多核苷酸的所述失相量；(e)使用所述失相量校正从步骤(b)获得的所述测序信号，以生成所述目标多核苷酸的预测测序信号；(f)重复步骤(c)至(e)一轮或多轮，其中将来自第i轮的所述预测测序信号用于计算第i+1轮中所述目标多核苷酸的所述次级超前量，直到来自第j轮的所述目标多核苷酸的所述预测测序信号在数学上是收敛的，其中i和j是整数并且1≤i<i+1≤j，
其中所述参数估计包括根据来自所述参考多核苷酸的所述测序信号和所述参考多核苷酸的所述已知核酸序列，获得所述超前量、所述滞后量、所述衰减系数和/或所述偏移量，其中所述次级超前现象是指在测序期间，在所述目标多核苷酸的残基处发生非预期核苷酸延伸，并且所述非预期延伸被除下一个残基以...

【专利技术属性】
技术研发人员：黄岩谊，陈子天，周文雄，段海峰，康力，乔朔，
申请(专利权)人：赛纳生物科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人