用于下一代测序的序列重组方法及装置制造方法及图纸

技术编号:10249711 阅读:225 留言:0更新日期:2014-07-24 04:50
本发明专利技术涉及一种用于下一代测序(NGS)的序列重组方法及装置。在本发明专利技术的一优选实施例中是将序列长度为n的短序列六等分之后只将前3个片段利用为种子,并检索以参考序列为基础生成的哈希表而检索映射候选位置。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】本专利技术涉及一种用于下一代测序(NGS)的序列重组方法及装置。在本专利技术的一优选实施例中是将序列长度为n的短序列六等分之后只将前3个片段利用为种子,并检索以参考序列为基础生成的哈希表而检索映射候选位置。【专利说明】用于下一代测序的序列重组方法及装置
本专利技术涉及一种用于完成生物个体的整个遗传序列的测序领域,具体而言涉及一种为用于NGS(Next Generation Sequencing,下一代测序)而重组短序列的标引和检索技术。
技术介绍
DNA碱 基序列信息的解读即基因组测序(genome sequencing)的核心为掌握个人差异以及民族特性,或者是探明与基因异常有关的疾患中包含染色体异常在内的先天性原因以及寻找糖尿病、高血压之类复合疾病的基因缺陷。并且,序列数据(Sequencing Data)可将基因表达、基因多样性、遗传性变异、遗传性疾病原因及其相互作用等信息广泛地应用于分子诊断及治疗领域,因此非常重要。在遗传研究中传统使用的用于生产长序列的桑格(Sanger)测序方法正在被实验过程中所需的时间或费用及其应用性方面优良的用于生产短序列的NGS(Next GenerationSequencing,下一代测序)技术迅速地取代。而且还开发出着眼于准确率的多种NGS序列重组程序。近来由于NGS费用相比以往的HGP降低为1/1,520, 000左右,因此可以使用为短序列的数据的量增加。作为用于处理大量数据的方法已开发出S0AP2之类的方法,然而对于S0AP2而言,存在着针对特定长度时虽能表现出较快的速度却无法保证品质的问题。因此,对于保证短小的大容量短序列的品质的同时又能快速处理的方案的需求正在高涨。
技术实现思路
技术问题本专利技术用于解决以上技术问题,其目的在于提供一种在保证从序列中获取的短小的短序列的品质的同时进行重组而生成一个完整的碱基序列的标引技术方法和搜索技术方法。技术方案作为本专利技术的一种优选实施例,用于下一代测序(NGS)的序列重组方法包括如下步骤:将序列长度为η的短序列六等分;针对参考序列以η/6大小的子序列(sub-string)单位生成哈希值而构成哈希表;在将所述短序列六等分的片段中,将位于所述短序列的前部的3个片段分别利用为种子;计算所述3个种子的哈希值;从所述哈希表中检索与所述3个种子的哈希值一致的哈希值而检索映射候选位置。作为本专利技术的另一种优选实施例,包括:分割部,将序列长度为η的短序列六等分;种子生成部,将六等分所述短序列的片段当中位于所述短序列前部的3个片段分别使用为种子;哈希值生成部,计算所述3个种子的哈希值;哈希表生成部,针对参考序列以η/6大小的子序列(sub-string)单位生成哈希值而构成哈希表;检索部,从所述哈希表中检索与所述3个种子的哈希值一致的哈希值而检索映射候选位置。有益效果本专利技术在将从序列中获得的短小的短序列进行重组而制作一个碱基序列时,具有保证品质的同时改善速度的效果。通过本专利技术所公开的用于下一代测序(NGS)的序列重组方法及装置,可以缩短从验血到完成整个基因组序列的时间,且在诊断疾病时能够快速地分析基因组,从而可以缩短解明遗传性疾病原因的时间。【专利附图】【附图说明】图1表示重组序列数据而完成基因组序列的流程图。图2表示基因组分析方案的一般构成图。图3表不现有的MAQ的标引方法的一实施例。图4表示在本专利技术的一优选实施例中以基因组参考序列为基础而生成哈希表的示例。图5为本专利技术的一优选实施例,其表示用于下一代测序的序列重组方法。图6为本专利技术的一优选实施例,其表示用于下一代测序的序列重组装置的构成图。最优实施方式用于下一代测序(NGS)的序列重组装置包括:分割部,将序列长度为η的短序列六等分;种子生成部,将六等分所述短序列的片段当中位于所述短序列前部的3个片段分别使用为种子;哈希值生成部,计算所述3个种子的哈希值;哈希表生成部,针对参考序列以η/6大小的子序列(sub-string)单位生成哈希值而构成哈希表;检索部,从所述哈希表中检索与所述3个种子的哈希值一致的哈希值而检索映射候选位置。【具体实施方式】以下,参照附图详细说明本专利技术的实施例。需要注意的是在附图中同一构成要素虽然可能出现于其他图中,然而已尽量用同一附图标记及符号进行了表示。下面在对本专利技术进行说明时,如果认为对相关公知功能或构成部分的具体说明可能使本专利技术的主旨不清楚,则省略其详细说明。而且,为了进一步忠实于本专利技术,需要提醒在不脱离本专利技术主旨的范围内可存在本领域技术人员层次的变更或变形。图1表示重组序列数据而完成基因组序列的流程图。制作关于基因组参考序列的索引(SllO)。为了制作索弓丨,在本专利技术的优选实施例中,针对基因组参考序列以η/6大小的子序列(sub-string)单位生成哈希值而构成哈希表。在此,η表示输入的序列数据100的长度。针对基因组参考序列以η/6大小的子序列(sub-string)单位生成哈希值的例将参考图4。在本专利技术的一种优选实施例中,序列数据100表示作为IOObp长度以内的A、G、C、T所构成的字符串的序列集合。然后,将序列数据100六等分之后将六等分的片段当中位于序列数据100的前部的3个片段利用为种子,并针对3个种子(Seed)生成哈希值。如果生成了种子的哈希值,则在哈希表内检索匹配的哈希值而检索候选映射的位置(SllO)。生成哈希值的方法以及生成哈希表的实施例将参考图4。如果检索出候选映射的位置,便将序列数据100与参考序列的对应位置排列为没有空隙(gap)并测定相似度(S120)。针对检索到的所有候选映射的位置执行此项作业之后将相似度最高的位置选择为最优位置(S130)。然后寻找成对的两个序列的序列对,并执行错误检查以及位置校正而完成基因组序列(S140、S150)。图2表示基因组分析方案的一般构成图。基因组分析方案是所有生物/医疗信息学(Bio/Medical informatics)的所有研究以及执行中所必要的过程,被应用于得知生物个体的整个遗传序列的测序领域、分析遗传性变异(Variation)之间的关系的领域、解明遗传性疾病原因的遗传序列的医疗领域、解明生命现象原因的遗传序列的医疗领域、以及解明特定化学物质起反应的蛋白质和遗传序列的医疗领域。 在本专利技术的一种优选实施例中,在相当于基因组分析方案的前处理过程的映射步骤(210)和配对步骤(220)中将现有的MAQ的标引(indexing)方法改善而利用。现有的MAQ(Mapping and Assembly with Quality,高品质映射与配位)为不仅可以利用基因组分析仪(Genome Analyzer)而且还可以处理SOLiD短序列的工具(Tools),其以短序列单位执行了映射。而且,在映射时使用6个种子,并将2个种子配对而执行了映射。图3表不现有的MAQ的标引方法的一实施例。参考图3,如果现有的MAQ中允许k个失配(Mismatch),则MAQ将各短序列分为k个以上的短片段(fragment)。例如,如果对于长度为28的短序列允许2个失配,则分为4 Ok = 2)个短片段之后将种子两两组合而生成组合种子(Combination Seed),并以此为基础而对每一个短片段本文档来自技高网
...

【技术保护点】
一种用于下一代测序的序列重组方法,其特征在于,包括如下步骤:将序列长度为n的短序列六等分;针对参考序列以n/6大小的子序列单位生成哈希值而构成哈希表;在将所述短序列六等分的片段中,将位于所述短序列的前部的3个片段分别利用为种子;计算所述3个种子的哈希值;从所述哈希表中检索与所述3个种子的哈希值一致的哈希值而检索映射候选位置。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:朴旻胥金判奎
申请(专利权)人:三星SDS株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1