第三代测序比对算法制造技术

技术编号：19245746 阅读：46 留言：0更新日期：2018-10-24 07:42

公开用于将读取序列与参考序列比对的方法、软件和系统。在某些实施例中，所述方法、软件和系统涉及确定在所述读取序列的区域和所述参考序列的区域之间的k‑聚体的分布的相似性以便确定所述读取序列的所述区域是否映射到所述参考序列的所述区域。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】第三代测序比对算法交叉引用本申请要求2016年2月11日提交的美国临时专利申请第62/294,205号的权益，所述申请以全文引用的方式并入本文中。关于联邦赞助的研究或开发的声明本专利技术是在政府支持下在由美国国家卫生研究院(NationalInstitutesofHealth)授予的合同R01HG007834下进行。政府对本专利技术拥有一定的权利。
技术介绍
全基因组测序已彻底改变生物和医学驱动的全面表征DNA序列变化、多种物种的重新测序、微生物群落的测序、检测基因组的甲基化区域、定量转录丰度、表征存在于给定样品中的基因的不同同工型、识别mRNA转录物有效地平移的程度等。实际上，药物基因组学领域由于患者基因组序列信息的增加的可获得性而以指数方式扩增。第一和第二代测序技术以相对低成本提供巨大吞吐量。第三代测序(TGS)技术为基于单分子测序(SMS)的测序方的下一种重要技术。与第一和第二代测序技术相比，TGS工具产生较长读段，但是测序其受主要呈插入和缺失(插入缺失)形式的较高错误率困扰。测序DNA的过程包含三个基本阶段，包括样品制备、物理测序和任选地比对，和/或重新组装。样品制备涉及使测序的基因组片段化和扩增片段。在测序期间，依次识别在每个片段中各个碱基，创建各个读段。然后利用包含算法的生物信息学软件以比对重叠的读段，这允许原始基因组组装成连续序列。目前，用于将各个长读段与参考序列或数据集比对的常用算法基于种子和延伸概念的修改型式。这类方法通常通过寻找在查询和参考序列之间的精确匹配起始，然后大量寻找理想种子链并且使用动态编程借助任选的急下降启发法将其延伸以避免在差区...

【技术保护点】
1.一种用于将读取序列与参考序列片段比对的方法，所述方法包括：a.创建用于所述读取序列的窗口和用于所述参考序列片段的窗口，其中所述窗口具有相同长度；b.计算在每个窗口内独特k‑聚体出现的数量，c.基于在每个窗口内独特k‑聚体出现的所述数量，计算k‑聚体计数相似性值；d.对于跨所述读取序列的多个窗口和跨所述参考序列片段的多个窗口迭代地执行步骤(a)到(c)，由此计算多个k‑聚体计数相似性值，其中在所述读取序列和所述参考序列片段中的每一个中的每个随后窗口的开始从在相应序列中的先前窗口的开始偏移距离d；e.通过求所述多个k‑聚体计数相似性值的平均值，计算相似性评分；和f.当所述相似性评分高于阈值时，将所述读取序列与所述参考序列片段比对，其中将在步骤(a)的第一次执行中创建的所述窗口放置在每个序列的起始处。

【技术特征摘要】
【国外来华专利技术】2016.02.11 US 62/294,2051.一种用于将读取序列与参考序列片段比对的方法，所述方法包括：a.创建用于所述读取序列的窗口和用于所述参考序列片段的窗口，其中所述窗口具有相同长度；b.计算在每个窗口内独特k-聚体出现的数量，c.基于在每个窗口内独特k-聚体出现的所述数量，计算k-聚体计数相似性值；d.对于跨所述读取序列的多个窗口和跨所述参考序列片段的多个窗口迭代地执行步骤(a)到(c)，由此计算多个k-聚体计数相似性值，其中在所述读取序列和所述参考序列片段中的每一个中的每个随后窗口的开始从在相应序列中的先前窗口的开始偏移距离d；e.通过求所述多个k-聚体计数相似性值的平均值，计算相似性评分；和f.当所述相似性评分高于阈值时，将所述读取序列与所述参考序列片段比对，其中将在步骤(a)的第一次执行中创建的所述窗口放置在每个序列的起始处。2.根据权利要求1所述的方法，其中对于所述读取序列和所述参考序列的不同片段重复步骤(a)到(f)。3.根据权利要求1或2中任一项所述的方法，其中所述参考序列片段为从基因组数据库获得的参考序列的区域。4.根据权利要求1或2中任一项所述的方法，其中所述参考序列为读取序列。5.根据权利要求4所述的方法，其中为读取序列的所述参考序列是根据测序同一样品而获得，根据权利要求1所述的读取序列的所述序列是从所述同一样品获得。6.根据权利要求1到5中任一项所述的方法，其中所述窗口中的每一个的所述长度为至少50个碱基。7.根据权利要求1到5中任一项所述的方法，其中所述窗口中的每一个的所述长度能够为在1-10,000个碱基范围内的任何整数值，其中所述长度保持恒定。8.根据权利要求1到7中任一项所述的方法，其中所述距离d为至少10个碱基长。9.根据权利要求1到7中任一项所述的方法，其中所述距离d的长度能够在1-500个碱基范围内，其中d保持恒定。10.根据权利要求1到9中任一项所述的方法，其中所述k-聚体的长度为2-10个碱基。11.根据权利要求10所述的方法，其中所述k-聚体的长度为3个碱基。12.根据权利要求10所述的方法，其中所述k-聚体的长度为4个碱基。13.一种可实行软件产品，其存储在含有用于将读取序列与参考序列片段比对的方法的程序指令的计算机可读媒体上，所述方法包括：a.创建用于所述读取序列的窗口和用于所述参考序列片段的窗口，其中所述窗口具有相同长度；b.计算在每个窗口内独特k-聚体出现的数量，c.基于在每个窗口内独特k-聚体出现的所述数量，计算k-聚体计数相似性值；d.对于跨所述读取序列的多个窗口和跨所述参考序列片段的多个窗口迭代地执行步骤(a)到(c)，由此计算多个k-聚体计数相似性值，其中在所述读取序列和所述参考序列片段中的每一个中的每个随后窗口的开始从在相应序列中的先前窗口的开始偏移距离d；e.通过求所述多个k-聚体计数相似性值的平均值，计算相似性评分；和f.当所述相似性评分高于阈值时，将所述读取序列与所述参考序列片段比对，其中将在步骤(a)的第一次执行中创建的所述窗口放置在每个序列的起始处。14.根据权利要求13所述的可实行软件产品，其中对于所述读取序列和所述参考序列的不同片段重复步骤(a)到(f)。15.根据权利要求13或14中任一项所述的可实行软件产品，其中所述参考序列片段为从基因组数据库获得的参考序列的区域。16.根据权利要求13或14中任一项所述的可实行软件产品，其中所述参考序列为读取序列。17.根据权利要求16所述的可实行软件产品，其中为读取序列的所述参考序列是根据测序同一样品而获得，根据权利要求13所述的读取序列的所述序列是从所述同一样品获得。18.根据权利要求13到17中任一项所述的可实行软件产品，其中所述窗口中的每一个的所述长度为至少50个碱基。19.根据权利要求13到17中任一项所述的可实行软件产品，其中所述窗口中的每一个的所述长度能够为在1-10,000个碱基范围内的任何整数值，其中所述长度保持恒定。20.根据权利要求13到19中任一项所述的可实行软件产品，其中所述距离d为至少10个碱基长。21.根据权利要求13到19中任一项所述的可实行软件产品，其中所述距离d的长度能够在1-500个碱基范围内，其中d保持恒定。22.根据权利要求13到21中任一项所述的可实行软件产品，其中所述k-聚体的长度为2-10个碱基。23.根据权利要求22所述的可实行软件产品，其中所述k-聚体的长度为3个碱基。24.根据权利要求22所述的可实行软件产品，...

【专利技术属性】
技术研发人员：W·H·王，P·T·阿夫沙尔，
申请(专利权)人：斯坦福大学托管董事会，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人