碱基序列比对系统及方法技术方案

技术编号:10052848 阅读:221 留言:0更新日期:2014-05-16 00:51
本发明专利技术公开一种碱基序列比对系统及方法。本发明专利技术一实施例提供的碱基序列比对系统包括:片段序列生成单元,从短片段序列生成多个片段序列;过滤单元,从所生成的多个片段序列构成候补片段序列集合;片段序列扩张单元,计算各个候补片段序列的在对象序列的映射位置的数量,选择所计算的映射位置的数量超过设定的值的片段序列,并对所选择的片段序列的大小进行扩张,直至在对象序列的映射位置的数量变成设定的值以下为止;映射长度计算单元,将对象序列分割为多个区间,并按照各区间分别计算候补片段序列的总映射长度;比对单元,选择所计算的总映射长度为基准值以上的区间,并对所选择的区间执行针对短片段序列的全局比对。

【技术实现步骤摘要】
【专利摘要】本专利技术公开一种。本专利技术一实施例提供的碱基序列比对系统包括:片段序列生成单元,从短片段序列生成多个片段序列;过滤单元,从所生成的多个片段序列构成候补片段序列集合;片段序列扩张单元,计算各个候补片段序列的在对象序列的映射位置的数量,选择所计算的映射位置的数量超过设定的值的片段序列,并对所选择的片段序列的大小进行扩张,直至在对象序列的映射位置的数量变成设定的值以下为止;映射长度计算单元,将对象序列分割为多个区间,并按照各区间分别计算候补片段序列的总映射长度;比对单元,选择所计算的总映射长度为基准值以上的区间,并对所选择的区间执行针对短片段序列的全局比对。【专利说明】
本专利技术的实施例涉及用于分析基因组的碱基序列的技术
技术介绍
由于低廉的费用和快速的数据生产,生产大容量的短序列的下一代测序(next-generation sequencing ;NGS)正在快速地代替传统的桑格(sanger)测序方式。而且,多种NGS序列再组合程序是将焦点聚焦到准确度的情形下被开发出来的。但是,最近随着下一代测序技术的发展,制造片段序列的费用变为以前的一半以下,随此能够使用的数据的量变多,因此需要能够在较快的时间内准确地处理大容量的短序列的技术。序列再组合的第一个步骤为通过碱基序列比对(alignment)算法将短片段(read)映射(mapping)到参考序列的准确位置。在此存在的问题是,即使是相同种的个体也会因为各种遗传变异而有可能在基因组序列上存在差异。而且,由于测序过程中的误差,碱基序列也可能会产生差异。因此,碱基序列比对算法不得不有效地考虑这种差异和变异,以提高映射准确度。得到的结论是,为了进行基因组信息的分析,需要尽可能多的数量的准确的整个基因组信息数据。而且,为此,需要先行开发出具有无比出色的准确度和大处理量的碱基序列比对算法。但是,以往的方法在满足这种要求条件上存在限制。
技术实现思路
本专利技术的实施例的目的在于提供一种在确保映射准确度的同时,改善映射时的复杂度,由此能够提高处理速度的碱基序列比对手段。用于解决上述问题的本专利技术的一实施例提供的碱基序列比对系统为用于将短片段(read)序列比对到对象序列的系统,包括:片段序列生成单元,从所述短片段序列生成多个片段序列(fragment);过滤单元,从所生成的所述多个片段序列构成候补片段序列集合;片段序列扩张单元,计算各个所述候补片段序列的在所述对象序列的映射位置的数量,选择所计算的所述映射位置的数量超过设定的值的片段序列,并对所选择的片段序列的大小进行扩张,直至在所述对象序列的映射位置的数量变成所述设定的值以下为止;映射长度计算单元,将所述对象序列分割为多个区间,并按照所述各区间分别计算所述候补片段序列的总映射长度;比对单元,选择所计算的所述总映射长度为基准值以上的区间,并对所选择的区间执行针对所述短片段序列的全局比对(global alignment)。用于解决上述问题的本专利技术的一实施例提供的用于将短片段序列比对到对象序列的方法包括如下步骤:由片段序列生成单元从短片段序列生成多个片段序列;由过滤单元从所生成的所述多个片段序列构成候补片段序列集合;由片段序列扩张单元计算所生成的各个所述候补片段序列的在所述对象序列的映射位置的数量;由所述片段序列扩张单元选择所计算的所述映射位置的数量超过设定的值的片段序列;由所述片段序列扩张单元对所选择的片段序列的大小进行扩张,直至在所述对象序列的映射位置的数量变成所述设定的值以下为止;由映射长度计算单元将所述对象序列分割为多个区间,并按照所述各区间分别计算所述候补片段序列的总映射长度;由比对单元选择所计算的所述总映射长度为基准值以上的区间,并对所选择的区间执行针对所述短片段序列的全局比对。另外,用于解决上述问题的本专利技术的另一实施例提供的碱基序列比对系统为用于将短片段(read)序列比对到对象序列的系统,包括:片段序列生成单元,从短片段序列生成多个片段序列;过滤单元,从所生成的所述多个片段序列构成候补片段序列集合;映射长度计算单元,将所述对象序列分割为多个区间,并按照所述各区间计算所述候补片段序列的总映射长度;比对单元,选择所计算的所述总映射长度为基准值以上的区间,并对所选择的区间执行针对所述短片段序列的全局比对。根据本专利技术的实施例,在对短片段序列进行比对时,并不是仅考虑短片段序列的特定区域,而是考虑整个短片段,由此选在种子片段(片段序列),因此相比于仅考虑短片段的一部分的算法,可提高准确度。另外,按照短片段序列分别对在对象碱基序列内的重复数进行限制,对于超过此的种子片段确定种子片段的长度,由此提高映射的准确度,同时还具有能够提高映射的速度的效果。而且,利用映射柱状图选择短片段映射到对象碱基序列内的可能性高的特定区域,并仅在该区域内执行全局比对,由此可大幅度地减少全局比对时间。进而,对构成组合的可能性高的片段序列直接执行全局比对,以代替对从短片段导出的片段序列的映射位置和组合进行查找的复杂过程,由此可进一步提高全局比对速度,而且构成为记住全局比对位置之后,不在该位置周边重复执行全局比对,因此具有能够减少不必要的全局比对次数的优点。【专利附图】【附图说明】图1为用于说明本专利技术一实施例提供的碱基序列比对方法100的图。图2为用于例示出本专利技术一实施例提供的碱基序列比对方法100的108步骤中的mEB计算过程的图。图3为用于说明本专利技术一实施例提供的碱基序列比对方法100的112步骤中的片段序列生成过程的图。图4为例示出利用本专利技术一实施例提供的映射柱状图的映射对象区间选择过程的图。图5为用于说明本专利技术的一实施例提供的在进行全局比对时用于减少不必要的全局比对次数的方法的示例图。图6为示出本专利技术的一实施例提供的碱基序列比对系统600的方块图。符号说明600:碱基序列比对系统602:片段序列生成单元604:过滤单元606:映射长度计算单元608:比对单元610:片段序列扩张单元【具体实施方式】以下,参照【专利附图】【附图说明】本专利技术的具体的实施方式。但是,这只不过是示例,本专利技术并不局限于此。在说明本专利技术时,当判断为对于与本专利技术相关的公知技术的具体说明有可能混淆本专利技术的要旨时,省略对其的详细说明。而且,后述的术语是考虑到在本专利技术中的功能而进行定义的,其根据用户、应用者的意图或惯例等而可能不同。因此,其定义应当以整个本说明中的内容来定义。本专利技术的技术思想由权利要求书来确定,以下的实施例只不过是用于向本专利技术所属
的具有通常的知识的技术人员有效率地说明本专利技术的技术思想的一种手段。在详细说明本专利技术的实施例之前,首先对在本专利技术中所使用的术语进行说明为如下。首先,所谓“短片段(read)序列”(或者简称为“短片段”)是从基因组测序仪输出的长度短的碱基序列数据。短片段序列的长度根据基因组测序仪的种类而通常以35?500bp (碱基对,base pair)左右构成为多种,通常,DNA碱基用A、C、G、T的字母文字表示。所谓“对象碱基序列”是指从所述短片段序列生成整个碱基序列时作为参考的碱基序列(reference sequence)。即,在碱基序列分析中,对于从基因组测序仪输出的大量的短片段,参考对象喊基序列进行映射,由此本文档来自技高网
...

【技术保护点】
一种碱基序列比对系统,其中,包括:片段序列生成单元,从短片段序列生成多个片段序列;过滤单元,从所生成的所述多个片段序列构成候补片段序列集合;片段序列扩张单元,计算各个所述候补片段序列的在所述对象序列的映射位置的数量,选择所计算的所述映射位置的数量超过设定的值的片段序列,并对所选择的片段序列的大小进行扩张,直至在所述对象序列的映射位置的数量变成所述设定的值以下为止;映射长度计算单元,将所述对象序列分割为多个区间,并按照所述各区间分别计算所述候补片段序列的总映射长度;比对单元,选择所计算的所述总映射长度为基准值以上的区间,并对所选择的区间执行针对所述短片段序列的全局比对。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:朴旻胥朴商贤吕润九
申请(专利权)人:三星SDS株式会社延世大学校产学协力团
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1