基于二代测序数据检测目标基因结构变异的方法技术

技术编号:18050317 阅读:41 留言:0更新日期:2018-05-26 08:14
本发明专利技术公开基于二代测序数据检测目标基因结构变异的方法。本发明专利技术的方法直接从原始测序数据出发,通过快速简单的比对可进行基因结构变异的检测,省去了复杂比对算法的参数设置,不仅检测时间上有很明显的提升,并且只需要单端测序亦可完成分析检测,降低了数据量,从而进一步减少了测序成本,在检出结果上也有了更高的灵敏度和特异性。

【技术实现步骤摘要】
基于二代测序数据检测目标基因结构变异的方法
本专利技术通常涉及基因检测领域,特别地涉及基于二代测序数据检测目标基因结构变异的方法。
技术介绍
随着测序成本越来越低,运用二代测序技术预测基因组DNA水平结构变异(SVs:Structurevariations)的方法和技术越来越多,目前基于二代测序数据检测结构变异的方法主要有四种:第一种是依靠测序覆盖深度的方法(Readdepth)。对于单样本,其为通过检测该样本在一个参考基因组上的短序列(reads)的深度分布情况来检测;对于配对样本(Case-Control),则是通过和识别出比较两个样本中所存在的丢失和重复倍增区,其缺点是受实验环节的扩增偏向性和测序偏向性影响较大,结果往往不是很准确。第二种是配对双末端测序方法(Paired-endsequencing)。这种方法可以检测到大片段的插入、缺失、倒位、易位等结构变异,但受限于测序的插入片段长度的标准差(测序的拆入片段指的是测序之前在构建DNA测序文库阶段所打断的DNA片段长度),且绝大多数方法过分依赖于比对算法,参数设置对结果的影响非常大。第三种是序列读长分割的方法(Splitreads)。这种方法可以通过比对上的Soft-clipreads来精确的发现结构变异的断点位置,但除了基因组上的重复序列对结果影响较大以外,同样的也过分的依赖于比对算法及其参数的设置。第四种是组装的方法(Denovoassembly)。这种方法虽然可以更直接的检测结构变异,但基于二代测序的短序列的组装由于受到基因组上重复区域的影响仍然比较困难,且在成本上也会大大增加。综上所述,基于二代测序技术预测基因组DNA水平结构变异的方法仍需更高的速度和更高的灵敏度和特异性。
技术实现思路
为了解决现有技术中的至少部分技术问题,本专利技术提供基于二代测序数据检测目标基因结构变异的方法。通过本专利技术的方法可以简单快速的进行基因结构变异的分析,并且分析结果可靠、灵敏度高,特异性强。具体地,本专利技术包括以下内容。本专利技术的第一方面,提供一种基于二代测序数据检测目标基因结构变异的方法,其包括以下步骤:(1)在由多个原始测序序列组成的集合中,针对各原始测序序列从5’端和3’端分别截取掉m个碱基,然后取截取后序列的5’端和3’端各n个碱基,构成待比对序列A和待比对序列B,其中m为0-20之间的整数,n为27-50之间的整数;(2)由多个候选目标基因的序列组成第一参考序列库,将全基因组序列作为第二参考序列库,其中所述第一参考序列库中各序列长度之和小于所述第二参考序列库的序列长度之和;(3)将所述待比对序列A和B分别与所述第一参考序列库中的序列进行第一比对,如果待比对序列A和B分别与第一参考序列库中不同目标基因的序列完全匹配,则将所述待比对序列A和B作为第一比对序列对,如果待比对序列A和B与第一参考序列库中的序列不能完全匹配,或者待比对序列A和B均与第一参考序列库中同一基因中的序列完全匹配,则终止比对,并去除待比对序列A和B;(4)将所述第一比对序列对与所述第二参考序列库中的序列进行第二比对,如果所述第一比对序列对中各序列分别与第二参考序列库中的序列完全匹配,并且能够完全匹配的序列对为唯一比对序列对,则将所述第一比对序列对作为第二比对序列对,如果所述第二比对结果中错配数为1以上,或者错配数为0的序列对不为唯一比对序列对,则终止比对,并去除所述第一比对序列对。本专利技术的第二方面,提供另一种基于二代测序数据检测目标基因结构变异的方法,其包括以下步骤:(1)在由多个原始测序序列组成的集合中,针对各原始测序序列从5’端和3’端分别截取掉m个碱基,然后取截取后序列的5’端和3’端各n个碱基,构成待比对序列A和待比对序列B,其中m为0-20之间的整数,n为27-50之间的整数;(2)由多个候选目标基因的序列组成第一参考序列库,将全基因组序列作为第二参考序列库,其中所述第一参考序列库中各序列长度之和小于所述第二参考序列库的序列长度之和;(3)将所述待比对序列A和B分别与所述第二参考序列库中的序列进行第一比对,如果待比对序列A和B分别与第二参考序列库中的序列完全匹配,并且能够完全匹配的序列对为唯一比对序列对,则将待比对序列A和B作为第一比对序列对,如果所述第一比对结果中错配数为1以上,或者错配数为0的序列对不为唯一比对序列对,则终止比对,并去除待比对序列A和B;(4)将所述第一比对序列对与所述第一参考序列库中的序列进行第二比对,如果第一比对序列对分别与所述第一参考序列库的不同目标基因的序列完全匹配,则将所述第一比对序列对作为第二比对序列对,如果第一比对序列对与所述第一参考序列库中对应的序列不能完全匹配,或者与第一参考序列库中同一基因中的序列完全匹配,则终止比对,并去除第一比对序列对。根据本专利技术所述第一方面和第二方面的方法,其中包括重复进行步骤(3)、(4)。优选地,进一步包括当所述第二比对序列对的数量为2以上时,则判定存在所述目标基因结构变异,否则判定不存在所述目标基因结构变异。根据本专利技术所述第一方面和第二方面的方法,其中所述目标基因结构变异包括基因融合、基因倒位和基因移位中的至少一种。根据本专利技术所述第一方面和第二方面的方法,其中在由多个原始测序序列组成的集合中各原始测序序列的长度p为75-350bp,且p>(n+m)×2。根据本专利技术所述第一方面和第二方面的方法,其中所述候选目标基因的数量为2-100。根据本专利技术的第一方面的方法,其中所述第一比对采用BLAST算法,且所述第二比对采用SOAP算法。根据本专利技术的第二方面的方法,其中所述第一比对采用SOAP算法,且所述第二比对采用BLAST算法。根据本专利技术所述第一方面和第二方面的方法,其中所述多个原始测序序列为双端测序序列的数据合并序列或单端测序序列。本专利技术的方法直接从原始测序数据出发,通过快速简单的比对可进行基因结构变异的检测,省去了复杂比对算法的参数设置,不仅检测时间上有很明显的提升,并且只需要单端测序亦可完成分析检测,降低了数据量,从而进一步的减少了测序成本,在检出结果上也有了较高的灵敏度和特异性。具体实施方式现详细说明本专利技术的多种示例性实施方式,该详细说明不应认为是对本专利技术的限制,而应理解为是对本专利技术的某些方面、特性和实施方案的更详细的描述。应理解本专利技术中所述的术语仅仅是为描述特别的实施方式,并非用于限制本专利技术。另外,对于本专利技术中的数值范围,应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本专利技术内。这些较小范围的上限和下限可独立地包括或排除在范围内。除非另有说明,否则本文使用的所有技术和科学术语具有本专利技术所述领域的常规技术人员通常理解的相同含义。虽然本专利技术仅描述了优选的方法和材料,但是在本专利技术的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。关于本文中所使用本文档来自技高网
...

【技术保护点】
一种基于二代测序数据检测目标基因结构变异的方法,其包括以下步骤:(1)在由多个原始测序序列组成的集合中,针对各原始测序序列从5’端和3’端分别截取掉m个碱基,然后取截取后序列的5’端和3’端各n个碱基,构成待比对序列A和待比对序列B,其中m为0‑20之间的整数,n为27‑50之间的整数;(2)由多个候选目标基因的序列组成第一参考序列库,将全基因组序列作为第二参考序列库,其中所述第一参考序列库中各序列长度之和小于所述第二参考序列库的序列长度之和;(3)将所述待比对序列A和B分别与所述第一参考序列库中的序列进行第一比对,如果待比对序列A和B分别与第一参考序列库中不同目标基因的序列完全匹配,则将所述待比对序列A和B作为第一比对序列对,如果待比对序列A和B与第一参考序列库中的序列不能完全匹配,或者待比对序列A和B均与第一参考序列库中同一基因中的序列完全匹配,则终止比对,并去除待比对序列A和B;(4)将所述第一比对序列对与所述第二参考序列库中的序列进行第二比对,如果所述第一比对序列对中各序列分别与第二参考序列库中对应的序列完全匹配,并且能够完全匹配的序列对为唯一比对序列对,则将所述第一比对序列对作为第二比对序列对,如果所述第二比对结果中错配数为1以上,或者错配数为0的序列对不为唯一比对序列对,则终止比对,并去除所述第一比对序列对。...

【技术特征摘要】
1.一种基于二代测序数据检测目标基因结构变异的方法,其包括以下步骤:(1)在由多个原始测序序列组成的集合中,针对各原始测序序列从5’端和3’端分别截取掉m个碱基,然后取截取后序列的5’端和3’端各n个碱基,构成待比对序列A和待比对序列B,其中m为0-20之间的整数,n为27-50之间的整数;(2)由多个候选目标基因的序列组成第一参考序列库,将全基因组序列作为第二参考序列库,其中所述第一参考序列库中各序列长度之和小于所述第二参考序列库的序列长度之和;(3)将所述待比对序列A和B分别与所述第一参考序列库中的序列进行第一比对,如果待比对序列A和B分别与第一参考序列库中不同目标基因的序列完全匹配,则将所述待比对序列A和B作为第一比对序列对,如果待比对序列A和B与第一参考序列库中的序列不能完全匹配,或者待比对序列A和B均与第一参考序列库中同一基因中的序列完全匹配,则终止比对,并去除待比对序列A和B;(4)将所述第一比对序列对与所述第二参考序列库中的序列进行第二比对,如果所述第一比对序列对中各序列分别与第二参考序列库中对应的序列完全匹配,并且能够完全匹配的序列对为唯一比对序列对,则将所述第一比对序列对作为第二比对序列对,如果所述第二比对结果中错配数为1以上,或者错配数为0的序列对不为唯一比对序列对,则终止比对,并去除所述第一比对序列对。2.一种基于二代测序数据检测目标基因结构变异的方法,其包括以下步骤:(1)在由多个原始测序序列组成的集合中,针对各原始测序序列从5’端和3’端分别截取掉m个碱基,然后取截取后序列的5’端和3’端各n个碱基,构成待比对序列A和待比对序列B,其中m为0-20之间的整数,n为27-50之间的整数;(2)由多个候选目标基因的序列组成第一参考序列库,将全基因组序列作为第二参考序列库,其中所述第一参考序列库中各序...

【专利技术属性】
技术研发人员:郎继东田埂
申请(专利权)人:元码基因科技北京股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1