一种用于结构变异检测的方法、装置和存储介质制造方法及图纸

技术编号:34130577 阅读:43 留言:0更新日期:2022-07-14 15:19
本申请公开了一种用于结构变异检测的方法、装置和存储介质。本申请方法包括,获取比对文件,从比对文件中按照设定长度提取区间内reads,将异常reads分成DP信号、SR信号和SU信号;对DP信号进行聚类,每个簇作为一结构变异候选,对每个簇进行局部组装和重比对;从SR信号中寻找嵌合比对,进行组装和重比对;对两个重比对结果进行融合断点左右两侧突变深度计算、结构变异类型识别。本申请方法利用DP信号聚类和组装重比对,降低簇内假阳性信号;利用SR信号分析进行补充,使整体结果检出率和精度更高。本申请方法可识别缺失、倒位、重复、染色体内易位、染色体间易位等结构变异,并提供断点附近微同源序列和短模板序列输出。点附近微同源序列和短模板序列输出。点附近微同源序列和短模板序列输出。

【技术实现步骤摘要】
一种用于结构变异检测的方法、装置和存储介质


[0001]本申请涉及生物信息学
,特别是涉及一种用于结构变异检测的方法、装置和存储介质。

技术介绍

[0002]结构变异(Structural Variation,SV)包括基因组内部的缺失、插入、倒位、重复、易位,以及这些简单类型组成的复杂结构变异。基于二代测序(the Next

generation Sequence technology)数据的结构变异检测方法研究经过十多年的发展,已越来越趋于成熟,但有一些难题仍然无法彻底攻克;这其中就包括精确断点、较大尺寸及染色体间结构变异的识别问题等。经过近几年生物信息领域的飞速发展,针对这些问题的各种检测方法也被广泛提出,例如改用三代长读长方法、改用其他识别逻辑或更为精确的测序数据等,这些方法的共同点是从另外的角度切入以避开短读长和短插入片段带来的局限性问题;并没有真正解决基于二代测序数据的结构变异检测存在的问题。所以,目前基于二代测序的传统检测算法,仍然没有能够适应较广的方法。
[0003]各种癌症一直是医学界难以攻克的难题,近年来生物信息技术的发展,使我们能够从基因层面了解各癌种的序列及作用原理。癌症一般伴随着基因序列的改变,所以结构变异的精确识别,特别是发生在大型结构变异以及高重复区域的变异,是攻克癌症难关的一个重要基础。而目前的检测方法虽然众多,但在检测较大型结构变异的策略上不够灵敏,且二代测序的固有特点给识别这些变异带来了诸多困难。
[0004]测序技术的发展虽然极大地促进了检测方法的发展,但仍然存在一些至今都没有很好解决办法的难题。例如,测序结果中N序列的存在、测序错误、高重复区域等使得结构变异检测的难度大大增加。基于二代测序的检测方法局限性一是在于测序read的长度,二是模板的长度;许多方法受到这些限制而只能检测模板长度以内的变异,往往在几百bp以内,更大的变异则需从头组装等消耗资源巨大的策略,而组装结果的多样性也使这些方法难以确定序列原始内容。另外一个比较难以解决的问题是测序深度,全基因组测序的深度一般在100
×
以内,这样的深度无法保证聚簇型方法的准确性。
[0005]基于二代测序的结构变异检测一般基于以下几种策略:基于双端比对信息的方法(Paired End Mapping,PEM,又称DP)、基于剪切读数的方法(Split Read,SR)、基于深度策略的方法(Depth of Coverage,DoC)以及基于组装的方法(Assembly)。目前主流的几种检测方法大多都基于其中一种或几种策略的结合。例如检测融合断点时,许多方法都采用聚类SR信号的策略,例如BreakSeek,一种基于贝叶斯模型的Indel断点检测算法,深度高则迭代时间较长,深度低则精确性受到较大影响。
[0006]传统的基于二代测序的结构变异检测方法最大的缺陷便是识别大型乃至超大型结构变异的表现较差,大多数方法只能检测几千bp以内的结构变异,其中超过insert size尺寸的结构变异检测能力变差。例如基于深度差异的检测方法inGap

sv,通过DP、SR和SU及正常read pair数量来识别结构变异,并用深度信息对结果进行校正,无法识别较为复杂或
者跨染色体的结构变异;manta、SV

aba这类组装类方法,难以在高重复区域发挥作用,且耗时较长;Pindel、Delly等经典方法在检测小indel有较好的效果,一旦检测超出模板片段长度的结构变异,则表现不佳。另外一个传统方法较为难以攻克的难题就是,要想获得比较精确的融合断点,一般需要进行聚类或者局部组装,这是一个容易出现差异性的地方。
[0007]二代测序技术目前并且在此后可以预料到的很长时间内都仍将占据市场主导位置;因此,如何解决基于二代测序数据难以进行精确断点检测,难以进行较大尺寸及染色体间结构变异识别的问题,仍然是本领域的研究重点和难点。

技术实现思路

[0008]本申请的目的是提供一种新的用于结构变异检测的方法、装置和存储介质。
[0009]为了实现上述目的,本申请采用了以下技术方案:
[0010]本申请的第一方面公开了一种用于结构变异检测的方法,包括以下步骤:
[0011]数据获取步骤,包括获取待测对象二代测序数据的比对文件及其基本信息,基本信息包括insert size均值和标准差、insert size max、reads长度;
[0012]信号分类步骤,包括从比对文件中按照设定长度提取区间内的reads,并将异常reads分成DP信号、SR信号和SU信号;DP信号是指insert size>insert size max或者两个配对read落在两个不同的染色体上的reads,SR信号是指发生软剪切的reads,SU信号是指read pair中只有一条匹配到参考序列的reads;
[0013]DP信号聚类分析步骤,包括对信号分类步骤获得的DP信号进行聚类,将位置相近、方向相同的reads作为一个DP信号簇,每个簇作为一个结构变异的候选;其中,位置相近,即距离在insert size max范围内,也就是在正常insert size范围内;
[0014]融合断点分析步骤,包括从DP信号聚类分析步骤获得的每个簇的insert size max范围内提取SR信号和SU信号,再加上相应的DP信号进行组装,对组装结果进行重比对,获得融合断点、微同源序列和/或短模板插入序列;
[0015]其中,从每个簇的insert size max范围内提取SR信号和SU信号,主要是考虑,在DP聚类结果中会记录每一簇初步分析的断点信息,如果簇中有SR信号开头或者结尾,则将其置为left或者right断点,如果不存在SR信号,则将DP簇的开始和结尾位置作为left和right断点;在提取SR和SU信号阶段,如果DP簇的断点是通过DP簇的左右结尾确定的,则这个方向flank的范围为inert size max
‑2×
read length,可以最大程度保证fetch到SR和SU信号又不至于fetch到冗余信号;如果DP簇的某侧断点是通过SR确定的,则flank置为10bp,原因是在进行SR过滤的时候,小于5bp的SR认为不可信;
[0016]SR信号分析步骤,包括从信号分类步骤获得的SR信号中寻找嵌合比对(SA信号),获得不包含DP信号的变异,在变异发生的区域附近提取相对应得DP信号和SU信号,加入该区域附近对应的参考序列进行组装,对组装结果进行重比对,获得融合断点、微同源序列和/或短模板插入序列;获得不包含DP信号的变异,有两层含义,一是获得因序列较短而不包含DP信号的变异,二是其他特殊的不包含DP信号的变异;因为有的短序列突变也包含DP信号,而长序列突变也不一定都包含DP信号,有的突变确实存在一定的特殊性;因此,本申请通过SR信号分析重找回以发现较小和特殊的结构变异;
[0017本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于结构变异检测的方法,其特征在于:包括以下步骤,数据获取步骤,包括获取待测对象二代测序数据的比对文件及其基本信息,所述基本信息包括insert size均值和标准差、insert size max、reads长度;信号分类步骤,包括从所述比对文件中按照设定长度提取区间内的reads,并将异常reads分成DP信号、SR信号和SU信号;所述DP信号是指insert size>insert size max或者两个配对read落在两个不同的染色体上的reads,所述SR信号是指发生软剪切的reads,所述SU信号是指read pair中只有一条匹配到参考序列的reads;DP信号聚类分析步骤,包括对所述信号分类步骤获得的DP信号进行聚类,将距离在insert size max范围内、方向相同的reads作为一个DP信号簇,每个簇作为一个结构变异的候选;融合断点分析步骤,包括从所述DP信号聚类分析步骤获得的每个簇的insert size max范围内提取SR信号和SU信号,再加上相应的DP信号进行组装,对组装结果进行重比对,获得融合断点、微同源序列和/或短模板插入序列;SR信号分析步骤,包括从所述信号分类步骤获得的SR信号中寻找嵌合比对,获得不包含DP信号的变异,在变异发生的区域附件,即SR信号区间两侧insert size范围内,提取相对应得DP信号和SU信号,加入SR信号区间及其两侧至少10bp对应的参考序列进行组装,对组装结果进行重比对,获得融合断点、微同源序列和/或短模板插入序列;计算和注释步骤,包括对所述融合断点分析步骤和所述SR信号分析步骤的结果进行融合断点左右两侧的突变深度计算、结构变异类型识别,由左右两个断点left_bp和right_bp以及左右侧组装片段的比对方向对每一个结果进行注释;注释结果合并和输出步骤,包括对所述计算和注释步骤的注释结果进行合并,以合并因为DP信号和SR信号双重识别而产生的重合信息,将合并后的结果作为待测对象的结构变异检测结果。2.根据权利要求1所述的方法,其特征在于:所述数据获取步骤中,比对文件为bam文件;优选的,insert size max为insert size均值+3.96
×
insert size标准差。3.根据权利要求1所述的方法,其特征在于:所述信号分类步骤中,设定长度为75k。4.根据权利要求1

3任一项所述的方法,其特征在于:所述计算和注释步骤中,融合断点左右两侧是指,左断点的左侧和右断点的右侧,分别取左右两侧consensus序列中包含的DP信号、SR信号和SU信号的数量作为alt深度,取左右两侧两个深度中较大的一个作为突变深度,对应区间内DP信号、SR信号、SU信号和正常reads数量作为整体深度;优选的,所述计算和注释步骤中,对每一个结果进行注释,具体包括,根据这两个方向信息和断点1及断点2的相对位置信息判别结构变异类型;如果左右断点不在同一染色体,则为染色体间易位;其中,如果左右序列方向一致则为2型染色体间易位,若不一致则为1型染色体间易位;如果左右断点在同一染色体,且左右序列比对方向一致,则为染色体倒置;若断点1的位置在断点2之前并且断点1为反向比对,或断点1位置在断点2之后且断点2反向比对,则为染色体缺失;其余则为染色体重复。5.一种用于结构变异检测的装置,其特征在于:包括数据获取模块、信号分类模块、DP信号聚类分析模块、融合断点分析模块、SR信号分析模块、计算和注释模块以及注释结果合
并和输出模块;所述数据获取模块,包括用于获取待测对象二代测序数据的比对文件及其基本信息,所述基本信息包括insert size均值和标准差、i...

【专利技术属性】
技术研发人员:刘涛何俊义苏亚男李敏吴永鑫
申请(专利权)人:深圳吉因加医学检验实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1