一种基因序列的比对方法技术

技术编号:33633079 阅读:28 留言:0更新日期:2022-06-02 01:40
本发明专利技术公开一种基因序列的比对方法,对于简并测序得到的简并碱基序列进行快速准确的比对。通过将待测序列及其对应的参考序列用相同的编码方式表示为简并多聚物序列,再经过字典构建、备选序列筛选、计算罚分等,得到待测序列的比对结果。本发明专利技术的比对方法克服了现有方法不适应简并测序的诸多问题,大幅提升了对比对错误类型的判定效率以及比对准确率。对错误类型的判定效率以及比对准确率。对错误类型的判定效率以及比对准确率。

【技术实现步骤摘要】
一种基因序列的比对方法


[0001]本专利技术涉及一种基因序列的比对方法,属于生物信息


技术介绍

[0002]简并测序是边合成边测序技术的一种新形式,它在每一个测序奇数轮中同时进样两种碱基底物组成的简并底物,偶数轮中进样另外两种碱基底物组成的简并底物,两种简并底物交替进样,除了第一轮进样外每轮可以有1至多个碱基反应,测序中没有空轮次(简称为2+2简并测序)。与其他测序方法不同,一次2+2简并测序并不直接得到精确的由4种碱基组成的序列,而是得到由2种简并碱基组成的简并序列。简并序列中所包含的信息略小于4碱基序列,但测序速度得到大幅提高。
[0003]现有的比对方法并不适用于2+2简并测序,存在以下缺陷:
[0004]首先,现有的以BWA为代表的序列比对方法是针对4碱基形式的序列开发的比对方法,无法直接使用在简并序列上,若要使用现有的比对方法需要对基因组进行简并处理。
[0005]其次,现有比对方法是适应Illumina公司的逐个碱基测序的方法进行优化的,对于2+2简并测序中按简并多聚物进行测序的数据有很多不适应之本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基因序列的比对方法,其特征在于,包括:A.通过简并测序获得对应于待测序列碱基的测序信号强度结果,将所述强度结果表示为简并多聚物序列,作为待比对序列;所述简并多聚物序列是由简并多聚物长度排列组成的序列;B.确定参考序列,将待测序列对应的参考序列表示为对应于待测序列的测序方法的理想简并多聚物序列;再从所述理想简并多聚物序列逐位提取长度为n的子序列进行字典构建;C.对于每条待比对序列,分别提取其前n位作为待比对子序列,将待比对子序列与所述字典遍历比较,找出备选字典项;D.找到所述备选字典项对应的理想简并多聚物序列,并从中截取与所述待比对序列长度相等的序列作为备选序列;E.构建罚函数,分别计算每条待比对序列与其对应的所有备选序列的比对罚分,并将计算得到的最小罚分值与预设的罚分阈值进行比较,如果所述最小罚分值小于所述罚分阈值,则所述待比对序列在所述最小罚分值对应的备选序列处比对成功;如果所述最小罚分值大于所述罚分阈值,则所述待比对序列比对失败。2.根据权利要求1所述的方法,其特征在于,先进行步骤B,再进行步骤A。3.根据权利要求1所述的方法,其特征在于,所述简并测序为3

端不封闭的测序反应,简并测序中,包括两种不同的测序试剂:第一测序试剂和第二测序试剂;两种测序试剂循环加入;其中所述第一测序试剂包含具有可检测标记的两种不同的核苷酸单体;所述第二测序试剂包含具有可检测标记的两种核苷酸单体,且所述两种核苷酸单体不同于所述第一测序试剂中存在的所述核苷酸单体,并且其中所述第二测序试剂是在提供了...

【专利技术属性】
技术研发人员:吴思彧陈子天乔朔
申请(专利权)人:赛纳生物科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1