当前位置: 首页 > 专利查询>北京大学专利>正文

一种从高通量DNA测序的原始信号中读取序列信息的方法技术

技术编号:17796831 阅读:174 留言:0更新日期:2018-04-25 20:20
本发明专利技术提供了一种测序结果中序列信息错误校正的方法。本发明专利技术利用次级超前校正测序结果中超前量。待测的核酸序列进行测序,检测测序产生的对应于核酸序列的信号;测序结果中,通过次级超前校正该信号。本发明专利技术同时考虑初级超前、次级超前和滞后现象,将衰减、失相、整体偏移等问题所造成的信号偏差作为一个整体用于校正测序序列信息。

A method for reading sequence information from raw signals of high throughput DNA sequencing

The invention provides a method for error correction of sequence information in sequencing results. The invention uses secondary lead to correct the excess amount in the sequencing results. The nucleic acid sequences to be sequenced are sequenced to detect the signals corresponding to nucleic acid sequences generated by sequencing. In the sequencing results, the signal is corrected through secondary advance. The invention also takes into account the primary advance, the secondary advance and the lag, and the signal deviation caused by the attenuation, the phase loss and the overall migration as a whole is used as a whole to correct the sequence information of the sequencing.

【技术实现步骤摘要】
一种从高通量DNA测序的原始信号中读取序列信息的方法
本专利技术涉及一种从高通量DNA测序的原始信号中读取序列信息的方法;特别是从二代测序的原始信号中读取校正的序列信息的方法,属于基因测序领域。
技术介绍
在高通量DNA测序中,理想情况下,每一次测序反应所释放出的原始信号强度与被掺入DNA新生链的碱基个数成正比。而实际情况中,由于若干原因,该正比关系并不总是成立,例如:1.由于流体冲刷、DNA模板水解、碱基错配等原因,原始信号强度总体上呈衰减趋势;2.由于测序反应不完全、副反应、碱基错配等原因,DNA新生链的长度会随着测序反应的进行而逐渐变得不一致(失相现象),进而导致原始信号强度发生偏差;3.由于核苷酸自发水解、测序芯片本底荧光等原因,原始信号强度会整体偏高。这些因素导致无法根据正比关系从原始信号强度中直接读出待测DNA的序列信息。现有从原始测序信号中读取序列信息的方法均只考虑了上述部分原因,例如454的专利仅仅考虑了失相现象,并利用矩阵变换的方法来校正失相造成的信号偏差。而实际上,上述原因同时存在,如果仅仅考虑失相,或简单将失相和衰减、整体偏高等因素剥离开,将影响读取DNA序列信本文档来自技高网...
一种从高通量DNA测序的原始信号中读取序列信息的方法

【技术保护点】
一种校正从基因测序产生的序列信息误差的方法,其包括:A通过已知参考核酸序列在测序中所产生的核酸序列信号,利用参数估计的方法,获得反应的超前和滞后信息;B对待测的核酸序列进行测序,获得对应于核酸序列的信号;C利用步骤A的参数估计获得的超前和滞后信息,以及步骤B产生的核酸序列的信号,获得次级超前累积量;D利用步骤B产生的核酸序列的信号和次级超前累积获得相位失配量;E利用相位失配量修正步骤B产生的核酸序列的信号,推算待测的核酸序列信号;F步骤C到E循环,并且用上一轮推算产生的核酸序列信号替代步骤C到E中的核酸序列的信号,直到推算的待测核酸序列信号收敛为止,其中,所述的参数估计指的是根据参考核酸序列及...

【技术特征摘要】
1.一种校正从基因测序产生的序列信息误差的方法,其包括:A通过已知参考核酸序列在测序中所产生的核酸序列信号,利用参数估计的方法,获得反应的超前和滞后信息;B对待测的核酸序列进行测序,获得对应于核酸序列的信号;C利用步骤A的参数估计获得的超前和滞后信息,以及步骤B产生的核酸序列的信号,获得次级超前累积量;D利用步骤B产生的核酸序列的信号和次级超前累积获得相位失配量;E利用相位失配量修正步骤B产生的核酸序列的信号,推算待测的核酸序列信号;F步骤C到E循环,并且用上一轮推算产生的核酸序列信号替代步骤C到E中的核酸序列的信号,直到推算的待测核酸序列信号收敛为止,其中,所述的参数估计指的是根据参考核酸序列及其测序信号,推断出超前、滞后的方法;其中所述的次级超前指的是测序中,发生了与该待测的核酸序列位置非期望的延伸,在此非期望延伸的基础上,又继续发生了期望的延伸;相位失配量指的是,由于超前和滞后导致的测序结果的变化。2.根据权利要求1所述的方法,其特征在于,所述步骤A的参数估计中,还包括获得衰减系数信息。3.根据权利要求1所述的方法,其特征在于,所述步骤A的参数估计中,包括获得偏移量信息。4.根据权利要求1所述的方法,其特征在于,所述步骤A的参数估计中,包括获得单位信号信息。5.根据权利要求1所述的方法,其特征在于,所述步骤A中,所述参数估计获得超前和滞后信息指的是,利用参数估计的方法,获得对应于碱基的超前和滞后的常数。6.根据权利要求1所述的方法,其特征在于,步骤A中,所述参数估计获得超前和滞后信息指的是,利用参数估计的方法,获得包含每轮的超前和滞后信息。7.一种校正从基因测序产生的序列信息误差的方法,其包括:A通过已知参考核酸序列在测序中所产生的核酸序列信号,进行参数估计;B对待测的核酸序列进行测序,获得对应于核酸序列的信号;C利用参数估计获得的超前和滞后信息,以及步骤B产生的核酸序列的信号,获得次级超前累积量;D利用步骤B产生的核酸序列的信号和次级超前累积获得相位失配量;E利用相位失配量修正步骤B产生的核酸序列的信号,推算待测的核酸序列;F步骤C到E循环,并且用上一轮推算产生的核酸序列信号替代步骤C到E中的核酸序列的信号,直到推算的待测核酸序列收敛为止;其中,所述的参数估计指的是根据参考序列及其测序信号,推断出超前、滞后、衰减系数、偏移量的方法;其中所述的次级超前指的是测序中,发生了与该待测的核酸序列位置非期望的延伸,在此非期望延伸的基础上,又继续发生了期望的延伸;相位失配量指的是,由于超前和滞后导致的测序结果的变化。8.一种利用次级超前校正测序结果中超前量的方法,其特征在于,待测的核酸序列进行测序,检测测序产生的对应于核酸序列的信号;通过次级超前校正该信号;所述的次级超前指的是测序中,发生了与该待测的核酸序列位置非期望的延伸,在此非期望延伸的基础上,又继续发生了期望的延伸。9.根据权利要求8所述的方法,其特征在于,测序结果中,还包括初级超前;其中,所述的初级超前指的是测序中,与核苷酸测序底物不匹配的延伸。10.根据权利要求8所述...

【专利技术属性】
技术研发人员:周文雄陈子天康力乔朔段海峰黄岩谊
申请(专利权)人:北京大学赛纳生物科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1