System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种合并测序结果中相邻突变的方法技术_技高网

一种合并测序结果中相邻突变的方法技术

技术编号:40628242 阅读:4 留言:0更新日期:2024-03-13 21:14
本发明专利技术提供了一种合并测序结果中相邻突变的方法,包括:对下机数据进行质控、比对、排序和标记重复,生成样本文件;使用比对软件,根据样本文件生成突变信息文件;使用注释软件,根据突变信息文件生成突变注释文件;计算突变注释文件中每个突变的距离,根据输入的阈值确定候选MNV位点,生成目标文件;从参考基因组上获取目标文件中每个区间的参考序列信息;根据参考序列信息计算每个区间内的碱基分布情况,使用线段树算法统计SNV的分布情况,并从树图中寻找MNV,并统计质控信息;根据质控信息结合突变注释文件中的注释信息,重新注释MNV,得到新的变异注释文件。本发明专利技术使用含有突变信息的输入文件,能够减少检测区域,缩减运算时间。

【技术实现步骤摘要】

本专利技术涉及模型设计领域,特别是涉及一种合并测序结果中相邻突变的方法


技术介绍

1、伴随着现代医学的快速发展,高通量测序技术(next-generation sequencing,ngs)的成本也越来越低,逐渐成为遗传病、肿瘤和其它基因检测的首选方法,其中在临床诊断上的应用主要有全基因组测序(whole genome sequencing,wgs),全外显子组检测(whole exome sequencing,wes),以及单基因或多基因的靶向测序(panel)。单核苷酸突变(snv)是一种没有任何频率限制的单核苷酸变异,多核苷酸突变(mnv)是个体同一单倍型上存在的两个或多个邻近变异的簇。密码子指的是mrna分子上决定蛋白质氨基酸顺序的核苷酸序列,是由三个碱基组合在一起的编码方式。变异注释是测序分析的关键一步,例如对于一种罕见的遗传性疾病,人们通常开始根据预期的遗传模式、变异类型(例如同义突变、错义突变、终止密码子缺失、起始密码子缺失、剪接等)、等位基因频率及根据密码子预测蛋白突变的毒性来筛选出检测到的变异。

2、大多数注释工具都采用了碱基对碱基的方法来注释单核苷酸变体(snv)。然而,在同一基因座,特别是在同一遗传密码子内存在几个snv,可能会使注释产生偏差:

3、(1)单个snv预测的蛋白质不改变,但mnv导致了蛋白质的改变。这种情况可能会造成遗漏,影响检测的精准度,导致假阴性的情况发生。

4、(2)单个snv预测的蛋白质改变,但mnv纠正了错误突变,蛋白质没有发生改变。这种情况可能会造成误判,影响检测的准确度,导致假阳性的情况发生。

5、(3)单个snv预测的蛋白质改变情况不同,mnv导致了和snv预测的不同突变情况。这种情况可能会引发错误的结果解读。

6、因此,分析人员迫切需要一种新的技术方案,能够对可疑的snv进行判断,判断是否属于mnv,合并突变结果,从而正确解读变异带来的影响。


技术实现思路

1、为了克服现有技术的不足,本专利技术的目的是提供一种合并测序结果中相邻突变的方法。

2、为实现上述目的,本专利技术提供了如下方案:

3、一种合并测序结果中相邻突变的方法,包括:

4、对下机数据进行质控、比对、排序和标记重复,生成样本文件;

5、使用比对软件,根据所述样本文件生成突变信息文件;

6、使用注释软件,根据所述突变信息文件生成突变注释文件;

7、计算所述突变注释文件中每个突变的距离,根据输入的阈值确定候选mnv位点,生成目标文件;

8、从参考基因组上获取所述目标文件中每个区间的参考序列信息;

9、根据所述参考序列信息计算每个区间内的碱基分布情况,使用线段树算法统计snv的分布情况,并从树图中寻找mnv,并统计质控信息;

10、根据所述质控信息结合突变注释文件中的注释信息,重新注释mnv,得到新的变异注释文件。

11、优选地,对下机数据进行质控、比对、排序和标记重复,生成样本文件,包括:

12、使用fastp软件对是下机数据进行质控,生成清洁文件;

13、使用bwa软件将清洁文件比对之人类参考基因组,生成初始文件;

14、使用samtools软件和sambamba软件将所述初始文件进行排序和标记重复,生成所述样本文件。

15、优选地,计算所述突变注释文件中每个突变的距离,根据输入的阈值确定候选mnv位点,生成目标文件,包括:

16、对所述突变注释文件中的突变按照染色体上位置排序,等待依次处理;

17、将突变与上一个处理的突变进行比较,如果在设定的合并区间大小阈值内,等待进一步处理;如果超过了阈值,则跳过该区域,继续分析;

18、标记新的区域后,将区域与上一个处理的区域进行比较,如果在设定的合并区间大小阈值内,标记该区域;如果超过了阈值,则合并这2个区域,继续分析;

19、处理完全部的突变信息,将标记的区域记录,生成所述目标文件。

20、优选地,根据所述参考序列信息计算每个区间内的碱基分布情况,使用线段树算法统计snv的分布情况,并从树图中寻找mnv,并统计质控信息,包括:

21、根据比对文件和所述目标文件中的每一个区间,生成待分析的序列集;

22、根据所述待分析的序列集建立前缀树模型;所述前缀树模型中的每个节点包含染色体号、染色体位置、碱基名、计数、碱基质量、比对质量、尾标记和子节点属性;

23、从第一个节点开始遍历,如果存在相同碱基,记录下当前位置的碱基质量;如果没有对应碱基的子节点,则新建对应子节点;直到处理到序列末端,标记结尾;

24、遍历所述前缀树模型,输出可能存在的序列情况,得到单倍型上合并后的序列集及质控信息。

25、优选地,根据所述质控信息结合突变注释文件中的注释信息,重新注释mnv,得到新的变异注释文件,包括:

26、对所述单倍型上合并后的序列集中的连续变异序列进行统计,对照参考基因组标记突变情况;

27、对每个序列集合,按照平均碱基质量>=20、平均比对质量>=30、序列数量>=5进行过滤,生成新的变异信息,重新注释生成所述新的变异注释文件。

28、根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:

29、本专利技术提供了一种合并测序结果中相邻突变的方法,包括:对下机数据进行质控、比对、排序和标记重复,生成样本文件;使用比对软件,根据所述样本文件生成突变信息文件;使用注释软件,根据所述突变信息文件生成突变注释文件;计算所述突变注释文件中每个突变的距离,根据输入的阈值确定候选mnv位点,生成目标文件;从参考基因组上获取所述目标文件中每个区间的参考序列信息;根据所述参考序列信息计算每个区间内的碱基分布情况,使用线段树算法统计snv的分布情况,并从树图中寻找mnv,并统计质控信息;根据所述质控信息结合突变注释文件中的注释信息,重新注释mnv,得到新的变异注释文件。本专利技术使用含有突变信息的输入文件,能够减少检测区域,缩减运算时间。

本文档来自技高网...

【技术保护点】

1.一种合并测序结果中相邻突变的方法,其特征在于,包括:

2.根据权利要求1所述的合并测序结果中相邻突变的方法,其特征在于,对下机数据进行质控、比对、排序和标记重复,生成样本文件,包括:

3.根据权利要求1所述的合并测序结果中相邻突变的方法,其特征在于,计算所述突变注释文件中每个突变的距离,根据输入的阈值确定候选MNV位点,生成目标文件,包括:

4.根据权利要求1所述的合并测序结果中相邻突变的方法,其特征在于,根据所述参考序列信息计算每个区间内的碱基分布情况,使用线段树算法统计SNV的分布情况,并从树图中寻找MNV,并统计质控信息,包括:

5.根据权利要求4所述的合并测序结果中相邻突变的方法,其特征在于,根据所述质控信息结合突变注释文件中的注释信息,重新注释MNV,得到新的变异注释文件,包括:

【技术特征摘要】

1.一种合并测序结果中相邻突变的方法,其特征在于,包括:

2.根据权利要求1所述的合并测序结果中相邻突变的方法,其特征在于,对下机数据进行质控、比对、排序和标记重复,生成样本文件,包括:

3.根据权利要求1所述的合并测序结果中相邻突变的方法,其特征在于,计算所述突变注释文件中每个突变的距离,根据输入的阈值确定候选mnv位点,生成目标文件,包括:

【专利技术属性】
技术研发人员:周昊天姜昕赵德志郭云涛吴星辰袁媛朱云唐帅男付国龙朱瑾秦飞马端
申请(专利权)人:江苏国辰医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1