突变检测分析的方法、设备、可读介质及装置制造方法及图纸

技术编号:34533987 阅读:14 留言:0更新日期:2022-08-13 21:27
本发明专利技术属于生物信息技术领域,具体地,涉及高通量测序数据分析方法及装置,更具体地,涉及突变检测的分析方法及装置。本突变检测方法实现了一种快速检测突变,且准确判断连锁/复杂突变并将其合并的方法。同时跳过了常规流程中SAM文件转为BAM文件、BAM文件的排序、加头文件、去重、重比对等等处理,大大缩短了分析时间;通过一次读取SAM/BAM文件,即可同时分析SNV和InDel突变;最后,通过逐一扫描SAM文件,结合突变特征筛选,在保证查全率的同时,兼顾对假阳性的甄别,结果更加准确。结果更加准确。结果更加准确。

【技术实现步骤摘要】
突变检测分析的方法、设备、可读介质及装置


[0001]本专利技术属于生物信息
,具体地,涉及高通量测序数据分析方法及装置,更具体地,涉及突变检测的分析方法及装置。

技术介绍

[0002]肿瘤突变检测是通过从肿瘤患者外周血或病灶组织中提取DNA,进行高通量测序和生物信息分析,检测出相关的突变(如遗传变异、体细胞突变),可用来指导用药或后续的治疗方案。因样本中来源于肿瘤的基因组占比通常不高,常常采用测序深度>1000X的高深度测序,考虑到经济性,现行的检测方式大都为目标区域捕获测序,即通过捕获几十、几百,甚至上千个肿瘤相关的基因,再进行高深度测序。常规的分析流程通常是采用BWA比对、GATK重比对、Varscan2/Mutect2等突变检测软件对bam文件分别进行SNV、InDel分析,最后根据多个指标(如:深度、频率、p

value等)进行候选位点的筛选。该分析流程普遍耗时约1~2小时,且随着数据量的增加而增加;同时GATK重比对步骤对计算资源要求较高。而且,目前的软件大多基于理论模型计算,灵敏度和特异性方面难以满足高要求的临床样本。
[0003]对于连锁或复杂突变,现有的软件通常是给出多个独立的突变结果,通过频率和深度指标进行判断。但是在某些复杂情况下,仅仅靠频率和深度指标来判别连锁并不准确,常常导致注释错误。
[0004]因此,针对目前的分析流程存在耗时长、无法准确解决连锁/复杂突变带来的注释错误问题,急需开发一个更快速、准确的生物信息分析方法。

技术实现思路
/>[0005]有鉴于此,第一方面,本专利技术请求保护一种突变检测方法:
[0006]获得样本的测序数据和参考基因组序列;
[0007]对所述样本的测序数据和参考基因组序列进行比对,得到SNV位点信息和InDel位点信息;
[0008]对所述得到的SNV位点信息和InDel位点信息进行过滤,得到过滤之后的数据;
[0009]对所述过滤之后的数据进行连锁分析,包括:
[0010]对同一个染色体上的位置在40bp内的两个目标突变进行两个特征值字符串化后的Levenshtein相似度计算,当两个相似度均大于0.8时,则认定该两个突变为连锁;所述两个特征值分别为:包括所述目标突变的簇的reads数、包含所述目标突变的簇中支持该目标突变的reads数占比。
[0011]进一步地,在一些具体的实施方案中,对所述过滤之后的数据进行连锁分析,包括:
[0012]对同一个染色体上的位置在20bp内的两个目标突变进行两个特征值字符串化后的Levenshtein相似度计算,当两个相似度均大于0.8时,则认定该两个突变为连锁;所述两个特征值分别为:包括所述目标突变的簇的reads数、包含所述目标突变的簇中支持该目标
突变的reads数占比。
[0013]在本专利技术中,术语“簇(cluster)”指的是将比对到相同位置、相同链、相同比对描述的reads归为一个cluster。每个cluster可认为来源于同一个DNA分子模板,或不同模板但原始序列相似。
[0014]在本专利技术中,术语“包括所述目标突变的簇的reads数”指的是包含某个目标突变的簇组成的reads数,例如:比对位置为chr1染色体、起始位置为100000、CIGAR描述为80M3D70M的簇由15条reads组成,则“15”为该定义所指值。
[0015]在本专利技术中,术语“包含所述目标突变的簇中支持该目标突变的reads占比”指的是支持某个目标突变的reads数在含有该目标突变的簇的reads数中的占比,例如:比对位置为chr1染色体、起始位置为100000、CIGAR描述为80M3D70M的簇由15条reads组成,发现位置100009有G>A的变化,且支持该变化的reads数为12,则0.8(12/15=0.8)则为该定义所指值。
[0016]在本专利技术中,术语“字符串化”指的是对具体数字进行ASCII码十进制48

89范围内对应的字符映射。即将数值型数据映射为单字符串型,如果数值<1,则对其用倒数代替,计算后采用四舍五入取整。举例:
[0017]15经过以下计算:1/15*41+48=50.73,取整后为51,得到十进制数51对应ASCII码表字符为“3”。
[0018]0.9经过以下计算:0.9*41+48=84.9,取整后为85,得到十进制数85对应的ASCII码表字符为“U”。
[0019]在一些具体的实施方案中,所述对所述样本的测序数据和参考基因组序列进行比对,得到SNV位点信息和InDel位点信息,包括:所述获得SNV位点信息和InDel位点信息是指对每一个簇进行参考序列(refseq)和突变序列(altseq)重构;通过逐一比较重构的参考序列和突变序列之间的差异,得到SNV和InDel位点信息。
[0020]在一些具体的实施方案中,所述序列重构是指如果位置x有发生碱基替换,则参考序列和突变序列对应位置分别为参考碱基和突变碱基;如果位置x发生缺失,则参考序列保持原始碱基信息,突变序列用
‘‑’
替代;如果位置x发生插入,则参考序列用
‘‑’
替代,突变序列记录插入的碱基信息。通过参考序列和突变序列重构,cluster记录的SNV、InDel信息均记录留存。
[0021]在一些具体的实施方案中,判断为连锁之后,并对所述突变进行合并注释,重新生成合并后的变异结果。
[0022]在一些具体的实施方案中,同时获得SNV位点数据和InDel位点数据是否处于reads末端的信息,通过以下实现:
[0023]SNV位点数据:对于比对到正链:比对位置尾部5~10bp内,优选为5~8bp,更优选为5bp;比对到负链:比对位置起始5~10bp内,优选为5~8bp,更优选为5bp;
[0024]InDel位点数据:对于比对到正链:比对位置尾部5~15bp内,优选为5~10bp,更优选为8bp内;比对到负链:比对位置起始5~15bp内,优选为5~10bp,更优选为8bp内。
[0025]在一些具体的实施方案中,所述对所述SNV位点信息和InDel位点信息进行过滤,获得过滤之后的数据,包括:
[0026]对所述所述SNV位点信息和InDel位点信息进行至少两次过滤,获得所述两次过滤
之后的数据。
[0027]在一些具体的实施方案中,对所述SNV位点信息和InDel位点信息进行第一过滤,得到第一过滤之后的数据,其中,所述第一过滤的条件包括以下至少之一:
[0028]cluster含有突变碱基的质量值低于设置值,设置值为20;
[0029]突变支持reads处于末端占当前cluster总reads数一半以上;
[0030]当前cluster中reads数大于预设值,预设值设定范围为5

10,更优选为5(可依据实际测序本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种突变检测方法,其特征在于,包括以下步骤:获得样本的测序数据和参考基因组序列;对所述样本的测序数据和参考基因组序列进行比对,得到SNV位点信息和InDel位点信息;对所述得到的SNV位点信息和InDel位点信息进行过滤,得到过滤之后的数据;对所述过滤之后的数据进行连锁分析,包括:对同一个染色体上的位置在40bp内的两个目标突变进行两个特征值字符串化后的Levenshtein相似度计算,当两个相似度均大于0.8时,则认定该两个突变为连锁;所述两个特征值分别为:包括所述目标突变的簇的reads数、包含所述目标突变的簇中支持该目标突变的reads数占比。2.根据权利要求1所述的突变检测方法,其特征在于,所述对所述样本的测序数据和参考基因组序列进行比对,得到SNV位点信息和InDel位点信息,包括:对每一个簇进行参考序列和突变序列重构;通过逐一比较重构的参考序列和突变序列之间的差异,得到SNV和InDel位点信息。3.根据权利要求1所述的突变检测方法,其特征在于,所述对所述SNV位点信息和InDel位点信息进行过滤,得到过滤之后的数据,包括:对所述SNV位点信息和InDel位点信息进行至少两次过滤,获得所述两次过滤之后的数据。4.根据权利要求1所述的突变检测方法,其特征在于,对所述SNV位点信息和InDel位点信息进行第一过滤,得到第一过滤之后的数据;其中,所述第一过滤的条件包括以下至少之一:cluster含有突变碱基的质量值低于设置值,设置值为20;突变支持reads处于末端占当前cluster总reads数一半以上;当前cluster中reads数大于预设值,预设值设定范围为5

10,且突变支持reads数小于2;当前cluster中reads数大于预设值,预设值设定范围为8

20,且突变支持reads数小于3。5.根据权利要求1所述的突变检测方法,其特征在于,对所述SNV位点信息和InDel位点信息进行第二过滤,得到第二过滤之后的数据;其中,所述第二过滤的条件包括以下至少之一:突变仅有正链或负链支持;突变正负链比值超过预设值,预设值设定范围为5

10倍;突变支持reads数少于预设值,预设值设定范围为5
...

【专利技术属性】
技术研发人员:鲍文娟戴立忠
申请(专利权)人:圣湘生物科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1