第三代测序比对算法制造技术

技术编号:19245746 阅读:46 留言:0更新日期:2018-10-24 07:42
公开用于将读取序列与参考序列比对的方法、软件和系统。在某些实施例中,所述方法、软件和系统涉及确定在所述读取序列的区域和所述参考序列的区域之间的k‑聚体的分布的相似性以便确定所述读取序列的所述区域是否映射到所述参考序列的所述区域。

【技术实现步骤摘要】
【国外来华专利技术】第三代测序比对算法交叉引用本申请要求2016年2月11日提交的美国临时专利申请第62/294,205号的权益,所述申请以全文引用的方式并入本文中。关于联邦赞助的研究或开发的声明本专利技术是在政府支持下在由美国国家卫生研究院(NationalInstitutesofHealth)授予的合同R01HG007834下进行。政府对本专利技术拥有一定的权利。
技术介绍
全基因组测序已彻底改变生物和医学驱动的全面表征DNA序列变化、多种物种的重新测序、微生物群落的测序、检测基因组的甲基化区域、定量转录丰度、表征存在于给定样品中的基因的不同同工型、识别mRNA转录物有效地平移的程度等。实际上,药物基因组学领域由于患者基因组序列信息的增加的可获得性而以指数方式扩增。第一和第二代测序技术以相对低成本提供巨大吞吐量。第三代测序(TGS)技术为基于单分子测序(SMS)的测序方的下一种重要技术。与第一和第二代测序技术相比,TGS工具产生较长读段,但是测序其受主要呈插入和缺失(插入缺失)形式的较高错误率困扰。测序DNA的过程包含三个基本阶段,包括样品制备、物理测序和任选地比对,和/或重新组装。样品制备涉及使测序的基因组片段化和扩增片段。在测序期间,依次识别在每个片段中各个碱基,创建各个读段。然后利用包含算法的生物信息学软件以比对重叠的读段,这允许原始基因组组装成连续序列。目前,用于将各个长读段与参考序列或数据集比对的常用算法基于种子和延伸概念的修改型式。这类方法通常通过寻找在查询和参考序列之间的精确匹配起始,然后大量寻找理想种子链并且使用动态编程借助任选的急下降启发法将其延伸以避免在差区域上延伸。在本公开中提供的方法、软件和系统提供鲁棒的定位读段的测序位置的方法,从而实现比对和组装可包含畸变(如插入和/或缺失)的序列读段。
技术实现思路
本公开提供用于将读取序列与参考序列比对的方法、系统、可实行软件产品和存储装置。在某些实施例中,公开用于将读取序列与参考序列片段比对的方法。方法可包含创建用于读取序列的窗口和用于参考序列片段的,其中窗口具有相同长度;计算在每个窗口内独特k-聚体出现的数量,基于在每个窗口内独特k-聚体出现的数量,计算k-聚体计数相似性值;对于跨读取序列的多个窗口和跨参考序列片段的多个窗口迭代地执行步骤(a)到(c),由此计算多个k-聚体计数相似性值,其中在读取序列和参考序列片段中的每一个中的每个随后窗口的开始从在相应序列中的先前窗口的开始偏移距离d;通过求多个k-聚体计数相似性值的平均值,计算相似性评分;和当相似性评分高于阈值时,将读取序列与参考序列片段比对,其中将在步骤(a)的第一次执行中创建的窗口放置在每个序列的起始处。在某些实施例中,方法可包含对于读取序列和参考序列的不同片段重复步骤(a)到(f)。在某些实施例中,参考序列片段可为从基因组数据库获得的参考序列的区域。在某些实施例中,参考序列可为读取序列。在某些实施例中,参考序列可为从测序与获得读取序列的序列相同样品获得的读取序列。在某些实施例中,窗口中的每一个的长度可为至少50个碱基。在某些实施例中,窗口中的每一个的长度可为在1-10,000个碱基范围内的任何整数值,其中长度保持恒定。在某些实施例中,距离d可为至少10个碱基长。在某些实施例中,距离d的长度可在1-500个碱基范围内,其中d保持恒定。在某些实施例中,k-聚体的长度可为2-10碱基。在某些实施例中,k-聚体的长度可为3个碱基。在某些实施例中,k-聚体的长度可为4个碱基。此外本文公开存储在计算机可读媒体上的可实行软件产品。在某些实施例中,存储在计算机可读媒体上的可实行软件产品可含有用于进行上文所公开方法的程序指令。还提供被配置成实行指令以进行上文所公开方法的系统。系统可包含具有进行上文所公开方法的存储的指令的存储器和耦合到存储器并且被配置成实行在存储器中的指令的处理器。在某些实施例中,公开存储可实行用于执行上文所公开方法的指令的存储装置。附图说明图1描绘参考序列的参考序列片段和用于参考序列片段和用于读取序列的例示性窗口。图2描绘用于在参考序列片段的窗口内和在读取序列的对应的窗口内计数k-聚体的实施例。图3描绘在参考序列片段和读取序列中的多个窗口。图4描绘用于将读取序列与参考序列的多个片段比较的示意图。图5描绘跨参考序列比对读取序列的计算的相似性评分。图6说明用于进行所公开方法的计算机的一个实施例。图7描绘在大肠杆菌(E.coli)基因组中随机位置之间在其突变(仅替代)型式的情况下的余弦距离的分布,使用k=3。图8为图7的续图。图9描绘在大肠杆菌基因组中随机位置之间和在其突变(仅替代)型式的情况下的余弦距离的分布,使用k=4。图10为图9的续图。图11描绘来自大肠杆菌基因组的长度5000个碱基的1000个随机序列之间和相对于其突变型式(替代和插入缺失)的余弦距离的分布,使用k=3。图12描绘来自大肠杆菌基因组的长度5000bps的1000个随机序列之间和相对于其突变型式(替代和插入缺失)的余弦距离的分布,使用k=4。图13描绘跨全基因组比较的来自大肠杆菌基因组的长度5000个碱基的读取序列的余弦相似性评分,其中模拟错误率为15%和35%,其中k=3并且d=10。图14集中在来自图13的预期比对位置(竖直点线)附近并且缩放,描绘与取样位置附近的大肠杆菌基因组相比,来自大肠杆菌基因组的长度5000个碱基的读取序列的余弦相似性评分,其中模拟错误率为15%和35%,其中k=3并且d=10。定义本文中(不论上文或下文)所列举的所有出版物、专利和专利申请都以全文引用的方式并入在此。在描述本专利技术时,将采用以下术语并旨在如下文所指示定义。必须注意,除非上下文另有清楚地规定,否则如在本说明书和所附权利要求书中所用,单数形式“一(a/an)”和“所述(the)”包含多个指示物。还要注意,权利要求书可经起草而排除任何任选的元件。因而,此陈述旨在与对所要求保护的元件的引述结合而充当使用如“仅仅(solely)”、“仅(only)”等这类排他性术语或使用“负性”限制的前提基础。如本文所用,术语“比对”或其语法等效物是指将读取序列映射到在参考序列中的区域。如本文所用,术语“读取序列”是指通过测序仪器从样品核酸的单个片段确定的连续核苷酸的序列。单个片段可为通过扩增待测序的基因组或基因组的一部分产生的扩增产物。来自样品核酸的单个片段的连续核苷酸的序列可表示为通过测序技术产生的数据流,数据例如借助于与测序技术相关联的碱基呼叫软件产生。例如,来自DNA测序平台的商业供应商的碱基呼叫软件。读取序列还可被称作“查询序列”或“序列读段”。如本文所用,术语“参考序列”是指生物体的基因组或基因组的一部分的连续核苷酸的已知序列。参考序列可用作读取序列与其比对的输入序列。待使用的参考序列取决于读取序列的来源。参考序列可为来自与获得读取序列的物种相同的物种的核酸的序列。如果来自相同物种的序列生物体不可用,那么与其基因组正在被测序的生物体最紧密相关的生物体的序列可用作参考序列。参考序列可通过测序技术确定或可从序列数据库(如从美国国家生物技术信息中心(NationalCenterforBiotechnologyInformation)的基因组文库获得的生物体本文档来自技高网
...

【技术保护点】
1.一种用于将读取序列与参考序列片段比对的方法,所述方法包括:a.创建用于所述读取序列的窗口和用于所述参考序列片段的窗口,其中所述窗口具有相同长度;b.计算在每个窗口内独特k‑聚体出现的数量,c.基于在每个窗口内独特k‑聚体出现的所述数量,计算k‑聚体计数相似性值;d.对于跨所述读取序列的多个窗口和跨所述参考序列片段的多个窗口迭代地执行步骤(a)到(c),由此计算多个k‑聚体计数相似性值,其中在所述读取序列和所述参考序列片段中的每一个中的每个随后窗口的开始从在相应序列中的先前窗口的开始偏移距离d;e.通过求所述多个k‑聚体计数相似性值的平均值,计算相似性评分;和f.当所述相似性评分高于阈值时,将所述读取序列与所述参考序列片段比对,其中将在步骤(a)的第一次执行中创建的所述窗口放置在每个序列的起始处。

【技术特征摘要】
【国外来华专利技术】2016.02.11 US 62/294,2051.一种用于将读取序列与参考序列片段比对的方法,所述方法包括:a.创建用于所述读取序列的窗口和用于所述参考序列片段的窗口,其中所述窗口具有相同长度;b.计算在每个窗口内独特k-聚体出现的数量,c.基于在每个窗口内独特k-聚体出现的所述数量,计算k-聚体计数相似性值;d.对于跨所述读取序列的多个窗口和跨所述参考序列片段的多个窗口迭代地执行步骤(a)到(c),由此计算多个k-聚体计数相似性值,其中在所述读取序列和所述参考序列片段中的每一个中的每个随后窗口的开始从在相应序列中的先前窗口的开始偏移距离d;e.通过求所述多个k-聚体计数相似性值的平均值,计算相似性评分;和f.当所述相似性评分高于阈值时,将所述读取序列与所述参考序列片段比对,其中将在步骤(a)的第一次执行中创建的所述窗口放置在每个序列的起始处。2.根据权利要求1所述的方法,其中对于所述读取序列和所述参考序列的不同片段重复步骤(a)到(f)。3.根据权利要求1或2中任一项所述的方法,其中所述参考序列片段为从基因组数据库获得的参考序列的区域。4.根据权利要求1或2中任一项所述的方法,其中所述参考序列为读取序列。5.根据权利要求4所述的方法,其中为读取序列的所述参考序列是根据测序同一样品而获得,根据权利要求1所述的读取序列的所述序列是从所述同一样品获得。6.根据权利要求1到5中任一项所述的方法,其中所述窗口中的每一个的所述长度为至少50个碱基。7.根据权利要求1到5中任一项所述的方法,其中所述窗口中的每一个的所述长度能够为在1-10,000个碱基范围内的任何整数值,其中所述长度保持恒定。8.根据权利要求1到7中任一项所述的方法,其中所述距离d为至少10个碱基长。9.根据权利要求1到7中任一项所述的方法,其中所述距离d的长度能够在1-500个碱基范围内,其中d保持恒定。10.根据权利要求1到9中任一项所述的方法,其中所述k-聚体的长度为2-10个碱基。11.根据权利要求10所述的方法,其中所述k-聚体的长度为3个碱基。12.根据权利要求10所述的方法,其中所述k-聚体的长度为4个碱基。13.一种可实行软件产品,其存储在含有用于将读取序列与参考序列片段比对的方法的程序指令的计算机可读媒体上,所述方法包括:a.创建用于所述读取序列的窗口和用于所述参考序列片段的窗口,其中所述窗口具有相同长度;b.计算在每个窗口内独特k-聚体出现的数量,c.基于在每个窗口内独特k-聚体出现的所述数量,计算k-聚体计数相似性值;d.对于跨所述读取序列的多个窗口和跨所述参考序列片段的多个窗口迭代地执行步骤(a)到(c),由此计算多个k-聚体计数相似性值,其中在所述读取序列和所述参考序列片段中的每一个中的每个随后窗口的开始从在相应序列中的先前窗口的开始偏移距离d;e.通过求所述多个k-聚体计数相似性值的平均值,计算相似性评分;和f.当所述相似性评分高于阈值时,将所述读取序列与所述参考序列片段比对,其中将在步骤(a)的第一次执行中创建的所述窗口放置在每个序列的起始处。14.根据权利要求13所述的可实行软件产品,其中对于所述读取序列和所述参考序列的不同片段重复步骤(a)到(f)。15.根据权利要求13或14中任一项所述的可实行软件产品,其中所述参考序列片段为从基因组数据库获得的参考序列的区域。16.根据权利要求13或14中任一项所述的可实行软件产品,其中所述参考序列为读取序列。17.根据权利要求16所述的可实行软件产品,其中为读取序列的所述参考序列是根据测序同一样品而获得,根据权利要求13所述的读取序列的所述序列是从所述同一样品获得。18.根据权利要求13到17中任一项所述的可实行软件产品,其中所述窗口中的每一个的所述长度为至少50个碱基。19.根据权利要求13到17中任一项所述的可实行软件产品,其中所述窗口中的每一个的所述长度能够为在1-10,000个碱基范围内的任何整数值,其中所述长度保持恒定。20.根据权利要求13到19中任一项所述的可实行软件产品,其中所述距离d为至少10个碱基长。21.根据权利要求13到19中任一项所述的可实行软件产品,其中所述距离d的长度能够在1-500个碱基范围内,其中d保持恒定。22.根据权利要求13到21中任一项所述的可实行软件产品,其中所述k-聚体的长度为2-10个碱基。23.根据权利要求22所述的可实行软件产品,其中所述k-聚体的长度为3个碱基。24.根据权利要求22所述的可实行软件产品,...

【专利技术属性】
技术研发人员:W·H·王P·T·阿夫沙尔
申请(专利权)人:斯坦福大学托管董事会
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1