【技术实现步骤摘要】
一种用于结构变异检测的方法、装置和存储介质
[0001]本申请涉及生物信息学
,特别是涉及一种用于结构变异检测的方法、装置和存储介质。
技术介绍
[0002]结构变异(Structural Variation,SV)包括基因组内部的缺失、插入、倒位、重复、易位,以及这些简单类型组成的复杂结构变异。基于二代测序(the Next
‑
generation Sequence technology)数据的结构变异检测方法研究经过十多年的发展,已越来越趋于成熟,但有一些难题仍然无法彻底攻克;这其中就包括精确断点、较大尺寸及染色体间结构变异的识别问题等。经过近几年生物信息领域的飞速发展,针对这些问题的各种检测方法也被广泛提出,例如改用三代长读长方法、改用其他识别逻辑或更为精确的测序数据等,这些方法的共同点是从另外的角度切入以避开短读长和短插入片段带来的局限性问题;并没有真正解决基于二代测序数据的结构变异检测存在的问题。所以,目前基于二代测序的传统检测算法,仍然没有能够适应较广的方法。
[0003]各种癌症一直是医学界难以攻克的难题,近年来生物信息技术的发展,使我们能够从基因层面了解各癌种的序列及作用原理。癌症一般伴随着基因序列的改变,所以结构变异的精确识别,特别是发生在大型结构变异以及高重复区域的变异,是攻克癌症难关的一个重要基础。而目前的检测方法虽然众多,但在检测较大型结构变异的策略上不够灵敏,且二代测序的固有特点给识别这些变异带来了诸多困难。
[0004]测序技术的发展虽然极大地促进了 ...
【技术保护点】
【技术特征摘要】
1.一种用于结构变异检测的方法,其特征在于:包括以下步骤,数据获取步骤,包括获取待测对象二代测序数据的比对文件及其基本信息,所述基本信息包括insert size均值和标准差、insert size max、reads长度;信号分类步骤,包括从所述比对文件中按照设定长度提取区间内的reads,并将异常reads分成DP信号、SR信号和SU信号;所述DP信号是指insert size>insert size max或者两个配对read落在两个不同的染色体上的reads,所述SR信号是指发生软剪切的reads,所述SU信号是指read pair中只有一条匹配到参考序列的reads;DP信号聚类分析步骤,包括对所述信号分类步骤获得的DP信号进行聚类,将距离在insert size max范围内、方向相同的reads作为一个DP信号簇,每个簇作为一个结构变异的候选;融合断点分析步骤,包括从所述DP信号聚类分析步骤获得的每个簇的insert size max范围内提取SR信号和SU信号,再加上相应的DP信号进行组装,对组装结果进行重比对,获得融合断点、微同源序列和/或短模板插入序列;SR信号分析步骤,包括从所述信号分类步骤获得的SR信号中寻找嵌合比对,获得不包含DP信号的变异,在变异发生的区域附件,即SR信号区间两侧insert size范围内,提取相对应得DP信号和SU信号,加入SR信号区间及其两侧至少10bp对应的参考序列进行组装,对组装结果进行重比对,获得融合断点、微同源序列和/或短模板插入序列;计算和注释步骤,包括对所述融合断点分析步骤和所述SR信号分析步骤的结果进行融合断点左右两侧的突变深度计算、结构变异类型识别,由左右两个断点left_bp和right_bp以及左右侧组装片段的比对方向对每一个结果进行注释;注释结果合并和输出步骤,包括对所述计算和注释步骤的注释结果进行合并,以合并因为DP信号和SR信号双重识别而产生的重合信息,将合并后的结果作为待测对象的结构变异检测结果。2.根据权利要求1所述的方法,其特征在于:所述数据获取步骤中,比对文件为bam文件;优选的,insert size max为insert size均值+3.96
×
insert size标准差。3.根据权利要求1所述的方法,其特征在于:所述信号分类步骤中,设定长度为75k。4.根据权利要求1
‑
3任一项所述的方法,其特征在于:所述计算和注释步骤中,融合断点左右两侧是指,左断点的左侧和右断点的右侧,分别取左右两侧consensus序列中包含的DP信号、SR信号和SU信号的数量作为alt深度,取左右两侧两个深度中较大的一个作为突变深度,对应区间内DP信号、SR信号、SU信号和正常reads数量作为整体深度;优选的,所述计算和注释步骤中,对每一个结果进行注释,具体包括,根据这两个方向信息和断点1及断点2的相对位置信息判别结构变异类型;如果左右断点不在同一染色体,则为染色体间易位;其中,如果左右序列方向一致则为2型染色体间易位,若不一致则为1型染色体间易位;如果左右断点在同一染色体,且左右序列比对方向一致,则为染色体倒置;若断点1的位置在断点2之前并且断点1为反向比对,或断点1位置在断点2之后且断点2反向比对,则为染色体缺失;其余则为染色体重复。5.一种用于结构变异检测的装置,其特征在于:包括数据获取模块、信号分类模块、DP信号聚类分析模块、融合断点分析模块、SR信号分析模块、计算和注释模块以及注释结果合
并和输出模块;所述数据获取模块,包括用于获取待测对象二代测序数据的比对文件及其基本信息,所述基本信息包括insert size均值和标准差、i...
【专利技术属性】
技术研发人员:刘涛,何俊义,苏亚男,李敏,吴永鑫,
申请(专利权)人:深圳吉因加医学检验实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。