高通量测序数据的处理方法和装置制造方法及图纸

技术编号:39490100 阅读:12 留言:0更新日期:2023-11-24 11:12
本发明专利技术提供了一种高通量测序数据处理方法和装置

【技术实现步骤摘要】
高通量测序数据的处理方法和装置


[0001]本专利技术涉及高通量测序数据处理领域,具体而言,涉及一种高通量测序数据处理的方法和装置


技术介绍

[0002]目前针对杂交捕获技术开发的第二代高通量测序数据突变检测的软件与方法有很多,但是准确性仍有提升空间,对于复杂区域(是指多种变异类型的区域)无法做到准确识别真实突变形式

且针对肿瘤临检
FFPE(
福尔马林固定石蜡包埋
)
类型样本,数据质量在无法保证的情况下更容易出现假阴性,假阳性等漏检或多检现象

在已有的近似方案中,北京雅康博生物科技有限公司针对多重扩增测序法为了改善假阳性位点多的缺陷,提供了一种高通量测序数据处理方法:包括获取二级测序序列,二级测序序列为高通量测序数据中能够被目的片段扩增引物识别,且去除对应的扩增引物后的测序序列;比对二级测序序列与参考基因组序列,得到初级变异结果;利用已知突变数据中的突变数据修正初级变异结果,得到处理结果

[0003]现有技术存在如下几方面的缺陷:
[0004]1)针对杂交捕获技术开发的第二代高通量测序数据突变检测软件与方法多数仅能检出简单突变,涉及复杂突变等情况会出现报出检出位点不准确的情况,不精确的位点信息在涉及用药位点时会导致无法准确指导用药

[0005]2)针对杂交捕获技术开发的第二代高通量测序数据突变检测软件与方法对
indel(
插入
/
缺失
)<br/>突变的检测也存在遗漏风险

[0006]3)受到测序数据质量以及肿瘤细胞含量等影响,对于样本极为重要的突变位点也存在被参数阈值过滤,从而出现假阴性结果的风险

[0007]由此可见,在可能存在复杂突变(即同时包括多种变异类型的突变)时,如何使检测得到的变异结果具有相对更高的准确性,目前尚无能够有效的解决方案


技术实现思路

[0008]本专利技术的主要目的在于提供一种高通量测序数据处理方法和装置,以解决现有技术中变异分析结果准确性低的问题

[0009]为了实现上述目的,根据本专利技术的一个方面,提供了一种高通量测序数据的处理方法,包括如下步骤:
S101
,对高通量测序数据进行比对,获得比对变异
bam
文件;
S102
,对比对变异
bam
文件中的序列信息进行提取,得到序列提取文件;
S103
,合并序列提取文件中的变异位点,得到变异位点合并文件;
S104
,根据变异位点合并文件确定最终变异位点,输出变异结果文件

[0010]进一步地,
S101
包括:将高通量测序数据与参考基因组序列进行初次比对,获得初始比对
bam
文件;将初始比对
bam
文件与参考基因组进行局部重比对,获得比对变异
bam
文件

[0011]进一步地,
S102
包括:从比对变异
bam
文件中提取如下至少之一的序列信息,得到信息提取文件:1)序列字符;2)碱基质量值;3)
flag
值;4)
CIGAR
标签;5)
MD
标签;6)起始位点;7)比对质量;根据信息提取文件对比对变异
bam
文件中的序列进行过滤,剔除如下至少之一的序列,获得序列提取文件:1)比对质量小于比对阈值的序列;2)在参考基因组上的比对位置不唯一的序列;3)重复序列

[0012]进一步地,
S103
包括:根据信息提取文件中的
CIGAR
标签拆分
CIGAR
标签中的突变信息,输出带有第一突变信息的
CIGAR
变异列表,
CIGAR
变异列表中包含匹配
M、
缺失
D、
插入
I
信息;根据信息提取文件中的
MD
标签拆分
MD
标签中的突变信息,输出带有第二突变信息的
MD
变异列表,
MD
变异列表中包含匹配
M、
缺失
D
和替换
R
信息;循环比对
CIGAR
变异列表和
MD
变异列表中的变异信息,对
CIGAR
变异列表和
MD
变异列表的变异及位置信息执行合并操作,得到合并列表;对合并列进行校正,得到变异位点合并文件

[0013]进一步地,对
CIGAR
变异列表和
MD
变异列表的变异及位置信息执行合并操作,得到合并列表包括:如果
CIGAR
变异列表中存在软剪切信息,则去除软剪切信息后,输出调整匹配信息为变异起始位点,并输出至合并列表;如果
CIGAR
变异列表中的匹配
M
的位置同
MD
变异列表中的匹配
M
的位置相同,将将
CIGAR
变异列表的匹配
M
信息输出至合并列表;如果
CIGAR
变异列表中的匹配
M
的位置同
MD
变异列表中的匹配
M
的位置不同但重合,将其中短的匹配
M
信息输出至合并列表;如果
CIGAR
变异列表中的缺失
D
的位置同
MD
变异列表中的缺失
D
的位置相同,将
CIGAR
变异列表中的缺失
D
的信息输出至合并列表;如果
CIGAR
变异列表中的插入
I
的位置同
MD
变异列表中的匹配
M
的位置重合,以插入
I
的起始位置信息为分割,将在插入
I
的位置插入
MD
变异列表中的匹配
M
的位置中作为修正,输出至合并列表,并记录插入长度;如果
CIGAR
变异列表中的匹配
M
的位置同
MD
变异列表中的替换
R
的位置重合,以替换
R
的起始位置信息为分割,将替换
R
的位置插入
CIGAR
变异列表中的匹配
M
的位置中作为修正,输出至合并列表

[0014]进一步地,对合并序列进行校正,得到变异位点合并文件,包括:对合并列表中的缺失
D
信息进行校正;当合并列表中前一个突变信息为插入
I
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种高通量测序数据的处理方法,其特征在于,包括如下步骤:
S101
,对高通量测序数据进行比对,获得比对变异
bam
文件;
S102
,对所述比对变异
bam
文件中的序列信息进行提取,得到序列提取文件;
S103
,合并所述序列提取文件中的变异位点,得到变异位点合并文件;
S104
,根据所述变异位点合并文件确定最终变异位点,输出变异结果文件
。2.
根据权利要求1所述的处理方法,其特征在于,所述
S101
包括:将所述高通量测序数据与参考基因组序列进行初次比对,获得初始比对
bam
文件;将所述初始比对
bam
文件与所述参考基因组进行局部重比对,获得所述比对变异
bam
文件
。3.
根据权利要求1所述的处理方法,其特征在于,所述
S102
包括:从所述比对变异
bam
文件中提取如下至少之一的序列信息,得到信息提取文件:1)序列字符;2)碱基质量值;3)
flag
值;4)
CIGAR
标签;5)
MD
标签;6)起始位点;7)比对质量;根据所述信息提取文件对所述比对变异
bam
文件中的序列进行过滤,剔除如下至少之一的序列,获得所述序列提取文件:1)比对质量小于比对阈值的序列;2)在所述参考基因组上的比对位置不唯一的序列;3)重复序列
。4.
根据权利要求1所述的处理方法,其特征在于,所述
S103
包括:根据所述信息提取文件中的所述
CIGAR
标签拆分
CIGAR
标签中的突变信息,输出带有第一突变信息的
CIGAR
变异列表,所述
CIGAR
变异列表中包含匹配
M、
缺失
D、
插入
I
信息;根据所述信息提取文件中的所述
MD
标签拆分
MD
标签中的突变信息,输出带有第二突变信息的
MD
变异列表,所述
MD
变异列表中包含匹配
M、
缺失
D
和替换
R
信息;循环比对所述
CIGAR
变异列表和所述
MD
变异列表中的变异信息,对所述
CIGAR
变异列表和所述
MD
变异列表的变异及位置信息执行合并操作,得到合并列表;对所述合并列进行校正,得到所述变异位点合并文件
。5.
根据权利要求4所述的处理方法,其特征在于,对所述
CIGAR
变异列表和所述
MD
变异列表的变异及位置信息执行合并操作,得到合并列表包括:如果所述
CIGAR
变异列表中存在软剪切信息,则去除所述软剪切信息后,输出调整匹配信息为变异起始位点,并输出至所述合并列表;如果所述
CIGAR
变异列表中的匹配
M
的位置同所述
MD
变异列表中的匹配
M
的位置相同,将将所述
CIGAR
变异列表的匹配
M
信息输出至所述合并列表;如果所述
CIGAR
变异列表中的匹配
M
的位置同所述
MD
变异列表中的匹配
M
的位置不同但重合,将其中短的匹配
M
信息输出至所述合并列表;如果所述
CIGAR
变异列表中的缺失
D
的位置同所述
MD
变异列表中的缺失
D
的位置相同,将所述
CIGAR
变异列表中的缺失
D
的信息输出至所述合并列表;如果所述
CIGAR
变异列表中的插入
I
的位置同所述
MD
变异列表中的匹配
M
的位置重合,以所述插入
I
的起始位置信息为分割,将在所述插入
I
的位置插入所述
MD
变异列表中的匹配
M
的位置中作为修正,输出至所述合并列表,并记录插入长度;如果所述
CIGAR
变异列表中的匹配
M
的位置同所述
MD
变异列表中的替换
R
的位置重合,以所述替换
R
的起始位置信息为分割,将所述替换
R
的位置插入所述
CIGAR
变异列表中的匹配
M
的位置中作为修正,输出至所述合并列表

6.
根据权利要求4所述的处理方法,其特征在于,对所述合并序列进行校正,得到所述变异位点合并文件,包括:对所述合并列表中的缺失
D
信息进行校正;当所述合并列表中前一个突变信息为插入
I
并且后一个突变信息为替换
R
时,根据所述序列信息对提取的所述
CIGAR
变异列表和所述
MD
变异列表进行整体校正;对所述合并列表中的匹配
M
的位置和长度进行验证,得到校正后的所述合并列表;根据校正后的所述合并列表,当突变信息符合如下至少之一的条件时,执行合并操作,获得所述变异位点合并文件:1)两个替换
R
的突变信息相距
4bp
以内时;2)插入
I
的突变信息同其他任意突变信息相距
20bp
内时;3)缺失
D
的突变信息同其他任意突变信息相距
20bp
内时
。7.
根据权利要求1‑6中任一项所述的处理方法,其特征在于,所述
S104
包括:判断所述变异位点合并文件是否存在如下至少之一的情形:情形1)分属不同密码子而被合并的
SNV
位点;情形2)属于胚系变异位点;当存在所述情形1)时,则将分属不同密码子的
SNV
位点取消合并,删除不同密码子合并的位点,保留取消合并的不同密码子上单个
SNV
位点信息,形成第一更新后的所述变异位点合并文件;当存在所述情形2)时,则从第一更新后的所述变异位点合并文件中去除所述胚系变异位点,得到第二更新后的所述变异位点合并文件;利用所述第二更新所述变异位点合并文件进行突变重注释,获得重注释变异位点;对所述重注释变异位点进行位点筛选,获得所述最终变异位点,并输出所述变异结果文件;其中,所述位点筛选包括:1)去除比对到所述参考基因组的正链与负链的序列的比例大于等于
90%
的序列支持的位点;2)除去低于过滤阈值的位点;3)从所述低于过滤阈值的位点中查找并保留属于待验证的低频突变的热点突变;所述变异结果文件中包括热点突变和非热点突变,所述热点突变包括待验证的低频突变,所述待验证的低频突变指低于所述过滤阈值的热点突变
。8.
根据权利要求7所述的处理方法,其特征在于,判断所述变异位点合并文件是否存在所述情形1)包括:对所述变异位点合并文件中的突变信息进行注释,得到变异注释文件;根据所述变异注释文件,以氨基酸位点是否发生变化为判断基准,判断多个
SNV
位点是否分属不同密码子
。9.
一种高通量测序数据的处理装置,其特征在于,包括:比对单元,被设置为对高通量测序数据进行比对,获得比对变异
bam
文件;序列提取单元,被设置为对所述比对变异
bam
文件中的序列信息进行提取,得到序列提取文件;变异位点合并单元,被设置为合并所述序列提取文件中的变异位点,得到变异位点合并文件;变异确定单元,被设置为根据所述变异位点合并文件确定最终变异位点,输出变异结

【专利技术属性】
技术研发人员:于洋
申请(专利权)人:北京诺禾致源科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1