高通量测序配对数据污染判定的方法及装置制造方法及图纸

技术编号:39186441 阅读:12 留言:0更新日期:2023-10-27 08:33
本发明专利技术公开了一种高通量测序配对数据污染判定的方法及装置。该方法包括:S1,基于肿瘤样本与对照样本的测序数据进行SNV、CNV和LOH突变检测;S2,过滤CNV区域和LOH区域的SNV突变位点,保留非CNV区域且非LOH区域的肿瘤样本与对照样本的共同的SNV突变位点;S3,将S2获得的数据进行切片分析,提取肿瘤样本与对照样本测序数据中突变丰度存在差异的疑似遭遇污染的纯合突变位点;以及S4,通过统计学检测判定S3中提取的疑似遭遇污染的纯合突变位点异常状态。应用本发明专利技术避免了由于FFPE样本质量问题导致疑似体系杂合性缺失引起的误判。致疑似体系杂合性缺失引起的误判。致疑似体系杂合性缺失引起的误判。

【技术实现步骤摘要】
高通量测序配对数据污染判定的方法及装置


[0001]本专利技术涉及生物信息
,具体而言,涉及一种高通量测序配对数据污染判定的方法及装置。

技术介绍

[0002]在高通量测序时,常常会出现样本污染的问题。实际操作中污染来源比较复杂,除了送样本身配对错误,样本自身也可能已经携带人源污染,以及实验过程中存在的操作失误导致的污染等情况,这会导致样本的测序数据不配对,样本存在同源物种污染的情形。而数据中一旦出现污染,测序数据便无法再使用,因为数据中的体细胞突变会出现众多假阳性情况。现阶段比较成熟的方案,例如开源软件conpair,基于7387个人群频率数据库中次等位基因频率大于40%,任意两个标记位点连锁不平衡小于0.8的常染色体外显子标记位点,通过算法计算可以评估样本一致性以及肿瘤样本与对照样本的污染比例估值。
[0003]但是,现有技术的缺陷在于更多是为了适配WGS(全基因组测序)以及WES(全外显子组测序)等全基因层面的设计,包括conpair挑选的7387个位点广泛分布于多个基因上,相同的软件以及算法,当迁移至仅设计部分基因的panel测序时,会导致算法出现误差,出现污染的错误判定,尤其是panel范围越小,覆盖的位点越少,灵敏度大幅度上升,但是假阳性率也极速提升,甚至一个位点的异常就会导致污染的错误判定。
[0004]另外,由于FFPE样本容易出现DNA断裂,修饰等情况,使得后续的高通量测序数据中呈现出体系LOH(杂合性缺失)的特征,包括正常的体系CNV(拷贝数变异),也会导致配对数据错误判定为存在同源污染。
[0005]所以,针对现有技术目前存在的问题,需要更准确的方法或装置对测序数据是否存在污染进行判断。

技术实现思路

[0006]本专利技术旨在提供一种高通量测序配对数据污染判定的方法及装置,以更准确的对肿瘤样本和对照样本的测序数据是否存在污染进行判断。
[0007]为了实现上述目的,根据本专利技术的一个方面,提供了一种高通量测序配对数据污染判定的方法。该方法包括:S1,基于肿瘤样本与对照样本的测序数据进行SNV、CNV和LOH突变检测;S2,过滤CNV区域和LOH区域的SNV突变位点,保留非CNV区域且非LOH区域的肿瘤样本与对照样本的共同的SNV突变位点;S3,将S2获得的数据进行切片分析,提取肿瘤样本与对照样本测序数据中突变丰度存在差异的疑似遭遇污染的纯合突变位点;以及S4,通过统计学检测判定S3中提取的疑似遭遇污染的纯合突变位点异常状态,异常状态包括:肿瘤数据污染、对照数据污染、不配对、CNV/LOH检测有误和无污染。
[0008]进一步地,S1包括:S11,基于肿瘤样本与对照样本的测序数据进行突变检测,获取panel范围内所有的SNV突变检测位点信息以及突变丰度;S12,基于肿瘤样本与对照样本的测序数据进行突变检测,获取panel范围内所有的CNV区域,基于肿瘤样本测序数据的SNV突
变位点丰度判定非CNV区域中与二倍体拷贝数不相符的区域为LOH区域。
[0009]进一步地,S2包括:筛选出肿瘤样本和对照样本共有的SNV突变位点输出至样本变异检测位点总表中,使用变异检测位点总表过滤CNV区域与LOH区域位点,获得过滤掉CNV区域和LOH区域位点的变异检测位点总表信息。
[0010]进一步地,S3包括:提取肿瘤样本突变丰度大于20%且小于95%并且对照样本突变丰度大于95%且小于100%的突变位点作为肿瘤样本污染判定切片数据,提取对照样本突变丰度大于20%且小于95%并且肿瘤样本突变丰度大于95%且小于100%的突变位点作为对照样本污染判定切片数据,肿瘤样本污染判定切片数据和对照样本污染判定切片数据即为疑似遭到污染的纯合突变位点数据。
[0011]进一步地,S4包括:S41,统计肿瘤样本污染判定切片数据和对照样本污染判定切片数据的平均值及位点数量,计算肿瘤样本污染判定切片数据和对照样本污染判定切片数据中肿瘤样本数据和对照样本数据的student t检验的p值;S42,当肿瘤样本污染判定切片数据中肿瘤样本数据和对照样本数据的student t检验的p值小于0.002并且位点数量大于8个位点,同时肿瘤样本污染判定切片数据中SNV变异频率平均数不在0.2

0.65区间内,判定为肿瘤数据污染;若肿瘤样本污染判定切片数据中SNV变异频率平均数在0.2

0.65区间内,判定为CNV/LOH检测有误;否则,判定为肿瘤数据无污染;对照样本污染判定切片数据中对照样本数据和肿瘤样本数据的student t检验的p值小于0.002并且位点数量大于8个位点,同时对照样本污染判定切片数据中SNV变异频率平均数不在0.2

0.65区间内,判定为对照数据污染;若所述对照样本污染判定切片数据中SNV变异频率平均数在0.2

0.65区间内,判定为CNV/LOH检测有误;否则,判定为对照样本无污染;当肿瘤数据和对照数据同时呈现为CNV/LOH检测有误,并且支持两个切片数据的位点数量均大于15,判定为不配对情况。
[0012]进一步地,S4还包括:对不同大小panel测试位点阈值。
[0013]进一步地,方法还包括:S5,肿瘤样本和对照样本不配对情况输出值为A;仅肿瘤样本污染情况输出值为B;仅对照样本污染情况输出值为C;肿瘤样本或者对照样本CNV/LOH检测有误输出为D,无上述情况表示配对数据无异常,输出值为P。
[0014]根据本专利技术的另一个方面,提供一种高通量测序配对数据污染判定的装置。该装置包括:变异检测模块,配置为基于肿瘤样本与对照样本的测序数据进行SNV、CNV和LOH突变检测;筛选模块,配置为过滤CNV区域和LOH区域的SNV突变位点,保留非CNV区域且非LOH区域的肿瘤样本与对照样本的共同的SNV突变位点;数据切片模块,配置为将筛选模块获得的数据进行切片分析,提取肿瘤样本与对照样本测序数据中突变丰度存在差异的疑似遭遇污染的纯合突变位点;以及异常状态判定模块,通过统计学检测判定数据切片模块中提取的疑似遭遇污染的纯合突变位点异常状态,异常状态包括:肿瘤数据污染、对照数据污染、不配对、CNV/LOH检测有误和无污染。
[0015]进一步地,变异检测模块包括:SNV检测单元,配置为基于肿瘤样本与对照样本的测序数据进行突变检测,获取panel范围内所有的SNV突变检测位点信息以及突变丰度;CNV检测单元,配置为基于肿瘤样本与对照样本的测序数据进行突变检测,获取panel范围内所有的CNV区域,基于肿瘤样本测序数据的SNV突变位点丰度判定非CNV区域中与二倍体拷贝数不相符的区域为LOH区域。
[0016]进一步地,筛选模块:配置为筛选出肿瘤样本和对照样本共有的SNV突变位点输出
至样本变异检测位点总表中,使用变异检测位点总表过滤CNV区域与LOH区域位点,获得过滤掉CNV区域和LOH区域位点的变异检测位点总表信息。
[0017]进一步地,数据切片模块:配置为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高通量测序配对数据污染判定的方法,其特征在于,包括:S1,基于肿瘤样本与对照样本的测序数据进行SNV、CNV和LOH突变检测;S2,过滤CNV区域和LOH区域的SNV突变位点,保留非CNV区域且非LOH区域的肿瘤样本与对照样本的共同的SNV突变位点;S3,将所述S2获得的数据进行切片分析,提取所述肿瘤样本与所述对照样本测序数据中突变丰度存在差异的疑似遭遇污染的纯合突变位点;以及S4,通过统计学检测判定S3中提取的所述疑似遭遇污染的纯合突变位点异常状态,所述异常状态包括:肿瘤数据污染、对照数据污染、不配对、CNV/LOH检测有误和无污染。2.根据权利要求1所述的方法,其特征在于,所述S1包括:S11,基于所述肿瘤样本与所述对照样本的测序数据进行突变检测,获取panel范围内所有的SNV突变检测位点信息以及突变丰度;S12,基于所述肿瘤样本与所述对照样本的测序数据进行突变检测,获取panel范围内所有的CNV区域,基于肿瘤样本测序数据的SNV突变位点丰度判定非CNV区域中与二倍体拷贝数不相符的区域为LOH区域。3.根据权利要求2所述的方法,其特征在于,所述S2包括:筛选出所述肿瘤样本和所述对照样本共有的SNV突变位点输出至样本变异检测位点总表中,使用所述变异检测位点总表过滤CNV区域与LOH区域位点,获得过滤掉CNV区域和LOH区域位点的变异检测位点总表信息。4.根据权利要求3所述的方法,其特征在于,所述S3包括:提取肿瘤样本突变丰度大于20%且小于95%并且对照样本突变丰度大于95%且小于100%的突变位点作为肿瘤样本污染判定切片数据,提取对照样本突变丰度大于20%且小于95%并且肿瘤样本突变丰度大于95%且小于100%的突变位点作为对照样本污染判定切片数据,所述肿瘤样本污染判定切片数据和所述对照样本污染判定切片数据即为疑似遭到污染的纯合突变位点数据。5.根据权利要求4所述的方法,其特征在于,所述S4包括:S41,统计所述肿瘤样本污染判定切片数据和所述对照样本污染判定切片数据的平均值及位点数量,计算所述肿瘤样本污染判定切片数据和所述对照样本污染判定切片数据中肿瘤样本数据和对照样本数据的student t检验的p值;S42,当所述肿瘤样本污染判定切片数据中肿瘤样本数据和对照样本数据的student t检验的p值小于0.002并且位点数量大于8个位点,同时所述肿瘤样本污染判定切片数据中SNV变异频率平均数不在0.2

0.65区间内,判定为肿瘤数据污染;若所述肿瘤样本污染判定切片数据中SNV变异频率平均数在0.2

0.65区间内,判定为CNV/LOH检测有误;否则,判定为肿瘤数据无污染;当所述对照样本污染判定切片数据中对照样本数据和肿瘤样本数据的student t检验的p值小于0.002并且位点数量大于8个位点,同时所述对照样本污染判定切片数据中SNV变异频率平均数不在0.2

0.65区间内,判定为对照数据污染;若所述对照样本污染判定切片数据中SNV变异频率平均数在0.2

0.65区间内,判定为CNV/LOH检测有误;否则,判定为对照样本无污染;当肿瘤数据和对照数据同时呈现为CNV/LOH检测有误,并且支持两个切片数据的位点数量均大于15,判定为不配对情况。
6.根据权利要求5所述的方法,其特征在于,所述S4还包括:对不同大小panel测试位点阈值。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:S5,肿瘤样本和对照样本不配对情况输出值为A;仅肿瘤样本污染情况输出值为B;仅对照样本污染情况输出值为C;肿瘤样本或者对照样本CNV/LOH检测有误输出为D,无上述情况表示配对数据无异常,输出值为P。8.一种高通量测序配对数据污染判定的装置,其特征在于,包括:变异检测模块,配置为基于肿瘤样本与对照样本的测序数据进行SNV、CNV和LOH突变检测;筛选模块,配置为过滤CNV区域和LOH区域的SNV突变位点,保留非CNV区域且非LOH区域的肿瘤样本与对照样本的共同的SNV突...

【专利技术属性】
技术研发人员:于洋
申请(专利权)人:北京诺禾致源科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1