基于胚系突变检测高通量测序中样本污染的方法和系统技术方案

技术编号:39814592 阅读:6 留言:0更新日期:2023-12-22 19:32
本发明专利技术涉及生物信息学技术领域,特别是涉及基于胚系突变检测高通量测序中样本污染的方法和系统

【技术实现步骤摘要】
Contamination Detection with Variant Calling Information from Next Generation Sequencing [J]. bioRxiv,2019.
[0010][4] Ewa A. Bergmann, Bo

Juen Chen, Kanika Arora, Vladimir Vacict, Michael C. Zody. Conpair: concordance and contamination estimator for matched tumor

normal pairs [J]. Bioinformatics, 2016, 32(20):3196

3198.
[0011][5] 用于检测高通量测序中样本污染的
SNP
位点的筛选方法及检测样本污染的方法

中国专利技术专利,申请号:
CN201810997769.3。
[0012][6] 用于判断样本配对或污染的位点组合及其筛选方法和应用

中国专利技术专利,申请号:
CN202211064680.4。

技术实现思路

[0013]为了解决上述问题,本专利技术提供了基于胚系突变检测高通量测序中样本污染的方法和系统

本专利技术提供的方法只需要处理
Vcf
文件,使用简单,提高了运行效率,节省运行资源,而且利用基因型一致性和频率相关性共同判断肿瘤和对照样本是否配对,未配对的样本的检测结果不可信,另外不需要大量数据集来得到训练模型

[0014]为了实现上述目的,本专利技术提供如下技术方案:
[0015]本专利技术提供了一种基于胚系突变检测高通量测序中样本污染的方法,包括以下步骤;获取待测样本的
Fastp
数据和待检测的
SNP
位点,所述待测样本包括肿瘤样本和对照样本;将所述
Fastp
数据处理为
Vcf
文件;根据所述待检测的
SNP
位点的基因型一致率和频率相关系数判断所述肿瘤样本和对照样本是否配对,若基因型一致率>
60%
,则肿瘤样本和对照样本可以配对;若基因型一致率
≤60%
,且频率相关性系数>
50%
,则肿瘤样本和对照样本可以配对;若基因型一致率
≤60%
,且频率相关性系数
≤50%
,则肿瘤样本和对照样本不能配对,不进行后续处理;所述基因型一致率根据式Ⅰ计算得到,所述频率相关系数根据式Ⅱ计算得到;
[0016]ꢀꢀꢀꢀꢀꢀꢀ
式Ⅰ;
[0017]其中,
Consistency rate
是基因型一致率,
S
是肿瘤样本中
SNP
位点的基因型和对照样本中
SNP
位点的基因型一致的个数,
N
是筛选的
SNP
位点总位点数;
[0018]ꢀꢀꢀꢀꢀꢀ
式Ⅱ;
[0019]其中,
r(X,Y)
是频率相关系数,
X
是肿瘤样本中每个
SNP
位点的突变频率,
Y
是对照样本中每个
SNP
位点的突变频率,
Cov(X,Y)

X

Y
的协方差,
Var[X]为
X
的方差,
Var[Y]为
Y
的方差;
[0020]采用式Ⅲ对所述
SNP
位点在能够配对的肿瘤样本和对照样本中突变频率差的绝对值进行核密度估计:
[0021]ꢀꢀꢀ
式Ⅲ;
[0022]其中,
K
为核函数,
h
为带宽,是概率密度,
n

SNP
位点个数,
x
是以
x
i
为中心带宽内的所有点,
x
i
是第
i

SNP
位点在肿瘤样本和对照样本中突变频率差的绝对值;
[0023]将所述核密度结果进行高斯函数进行数据拟合,高斯函数公式如下:
[0024]ꢀꢀꢀ
式Ⅳ;
[0025]其中,
x
是式Ⅲ计算得到的概率密度,
a
为高斯曲线的峰值,
b
为其对应的横坐标,
c
为标准差;对拟合曲线中峰值对应的横坐标进行提取,最大的横坐标为污染比例
p。
[0026]优选的,所述方法还包括:根据对照样本的
SNP
位点的基因型

污染比例
p
和肿瘤样本
SNP
位点的突变频率确定污染源;所述确定污染源包括:推测污染源
SNP
位点的基因型,同一批样本中其他肿瘤样本记为可能污染样本,根据所述污染源
SNP
位点的基因型和所述可能污染样本中
SNP
位点的基因型一致率确定污染源,基因型一致率
≥90%
的可能污染样本,为待测样本中肿瘤样本的污染源;
[0027]所述推测污染源
SNP
位点的基因型包括:
[0028]当对照样本的
SNP
位点的基因型为纯合时,若肿瘤样本
SNP
位点的突变频率为
100%
,则污染源的基因型为纯合;若肿瘤样本
SNP
位点的突变频率为
100%

0.5p
,则污染源的基因型为杂合;若肿瘤样本
SNP
位点的突变频率为
100%

p
,则污染源的基因型为野生型;当对照样本的
SNP
位点的基因型为杂合时,若肿瘤样本
SNP
位点的突变频率为
0.5
×
(100%

p)+p
,则污染源的基因型为纯合;若肿瘤样本
SNP
位点的突变频率为
50%
,则污染源的基因型为杂合;若肿瘤样本
SNP
位点的突变频率为
50%

p
,则污染源的基因型为野生型;当对照样本的
SNP
位点的基因型为野生型时,若肿瘤样本
SNP
位点的突变频率为
p
,则污染源的基因型为纯合;若肿瘤样本
SNP
位点的突变频率为
0.5p
,则污染源的基因型为杂合;若肿瘤样本
SNP
位点的突变频率为0,则污染源的基因型为野生本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于胚系突变检测高通量测序中样本污染的方法,其特征在于,包括以下步骤;获取待测样本的
Fastp
数据和待检测的
SNP
位点,所述待测样本包括肿瘤样本和对照样本;将所述
Fastp
数据处理为
Vcf
文件;根据所述待检测的
SNP
位点的基因型一致率和频率相关系数判断所述肿瘤样本和对照样本是否配对,若基因型一致率>
60%
,则肿瘤样本和对照样本可以配对;若基因型一致率
≤60%
,且频率相关性系数>
50%
,则肿瘤样本和对照样本可以配对;若基因型一致率
≤60%
,且频率相关性系数
≤50%
,则肿瘤样本和对照样本不能配对,不进行后续处理;所述基因型一致率根据式Ⅰ计算得到,所述频率相关系数根据式Ⅱ计算得到;
ꢀꢀꢀꢀꢀꢀꢀ
式Ⅰ;其中,
Consistency rate
是基因型一致率,
S
是肿瘤样本中
SNP
位点的基因型和对照样本中
SNP
位点的基因型一致的个数,
N
是筛选的
SNP
位点总位点数;
ꢀꢀꢀꢀꢀꢀ
式Ⅱ;其中,
r(X,Y)
是频率相关系数,
X
是肿瘤样本中每个
SNP
位点的突变频率,
Y
是对照样本中每个
SNP
位点的突变频率,
Cov(X,Y)

X

Y
的协方差,
Var[X]

X
的方差,
Var[Y]

Y
的方差;采用式Ⅲ对所述
SNP
位点在能够配对的肿瘤样本和对照样本中突变频率差的绝对值进行核密度估计:
ꢀꢀꢀ
式Ⅲ;其中,
K
为核函数,
h
为带宽,是概率密度,
n

SNP
位点个数,
x
是以
x
i
为中心带宽内的所有点,
x
i
是第
i

SNP
位点在肿瘤样本和对照样本中突变频率差的绝对值;将所述核密度结果进行高斯函数进行数据拟合,高斯函数公式如下:
ꢀꢀꢀ
式Ⅳ;其中,
x
是式Ⅲ计算得到的概率密度,
a
为高斯曲线的峰值,
b
为其对应的横坐标,
c
为标准差;对拟合曲线中峰值对应的横坐标进行提取,最大的横坐标为污染比例
p。2.
根据权利要求1所述的方法,其特征在于,所述方法还包括:根据对照样本的
SNP
位点的基因型

污染比例
p
和肿瘤样本
SNP
位点的突变频率确定污染源;所述确定污染源包括:推测污染源
SNP
位点的基因型,同一批样本中其他肿瘤样本记为可能污染样本,根据所述污染源
SNP
位点的基因型和所述可能污染样本中
SNP
位点的基因型一致率确定污染源,基因型一致率
≥90%
的可能污染样本,为待测样本中肿瘤样本的污染源;所述推测污染源
SNP
位点的基因型包括:当对照样本的
SNP
位点的基因型为纯合时,若肿瘤样本
SNP
位点的突变频率为
100%
,则污染源的基因型为纯合;若肿瘤样本
SNP
位点的突变频率为
100%

0.5p
,则污染源的基因型为杂合;若肿瘤样本
SNP
位点的突变频率为
100%

p
,则污染源的基因型为野生型;
当对照样本的
SNP
位点的基因型为杂合时,若肿瘤样本
SNP
位点的突变频率为
0.5
×
(100%

p)+p
,则污染源的基因型为纯合;若肿瘤样本
SNP
位点的突变频率为
50%
,则污染源的基因型为杂合;若肿瘤样本
SNP
位点的突变频率为
50%

p
,则污染源的基因型为野生型;当对照样本的
SNP
位点的基因型为野生型时,若肿瘤样本
SNP
位点的突变频率为
p
,则污染源的基因型为纯合;若肿瘤样本
SNP
位点的突变频率为
0.5p
,则污染源的基因型为杂合;若肿瘤样本
SNP
位点的突变频率为0,则污染源的基因型为野生型
。3.
根据权利要求1所述的方法,其特征在于,获取所述待检测的
SNP
位点的方法包括:1)从千人基因组数据库中筛选包含在待检测的目标区域中且等位频率为
0.1~0.9

SNP
位点;2)将步骤1)筛选的
SNP
位点进行第二次筛选;所述第二次筛选的规则包括:
a.
将每条染色体上的
SNP
位点按位置顺序进行排序;
b.
保留每条染色体上的第1个
SNP
位点,选择距离
>
第1个
SNP
位点
100kb

SNP
位点暂定为第2个
SNP
位点,若第2个
SNP
位点之后
100kb
以内没有
SNP
位点,则保留第2个
SNP
位点;若第2个
SNP
位点之后
100kb
以内有
SNP
位点,则保留等位频率最接近
0.5

SNP
位点为第2个
SNP
位点;
c.
根据
b
的方法从保留的第2个
SNP
位点起筛选到每条染色体的最后一个
SNP
位点,保留的所有
SNP
位点为所述待检测的
SNP
位点
。4.
根据权利要求3所述的方法,其特征在于,所述待检测的
SNP
位点如下:
编号染色体突变位置参考碱基变异碱基编号染色体突变位置参考碱基变异碱基
1chr19784423CT86chr7142460865TC2chr111205058CT87chr818257795CT3chr122214127AG88chr829197672AG4chr125291010AT89chr830999280GT5chr136937059AG90chr831497672GA6chr145293518AG91chr832453358GA7chr165310489TC92chr832621844GT8chr191980447AG93chr841794934CT9chr197981395TC94chr841906095AG10chr198348885GA95chr857078933GT11chr1120612006GA96chr890967711AG12chr1161479745AG97chr895419698AG13chr1162737116CG98chr8108970367AG14chr1181725110TC99chr8118819578CT15chr217962450AG100chr95081780GA16chr229455267AG101chr98389364CG17chr229940529AT102chr98518143TC18chr238298203CG103chr921816758GA19chr242396722AG104chr927202870AG20chr242515437AG105chr979986057AG21chr247601106TC106chr993641175CT
22chr248010488GA107chr998209594GA23chr274300717TC108chr9101597549TG24chr2112765973AG109chr9139407932AG25chr2141032088CT110chr1043613843GT26chr2141260668AG111chr1050740876GC27chr2141457985TA112chr1090771829TC28chr2141571329TC113chr1095279506AT29chr2141751592GA114chr10104386934TC30chr2142567910TC115chr10123239112GA31chr2178682603TC116chr119607032AG32chr2178936373TG117chr1168192690GA33chr2191874667AG118chr1169462910GA34chr2198265526AG119chr11103058126CT35chr2204732714AG120chr11128333503TC36chr2212251864TC121chr11128651893AG37chr2215645464CG122chr1211992168GA38chr2225362478CT123chr1269967862GA39chr2240003870GA124chr1277438436TC40chr310138069TG125chr12121416622CG41chr312475557CT126chr1322275394AG42chr330713842CT127chr1328624294GA43chr337053568AG128chr13103504517TC44chr3124951821CT129chr1438061742CT45chr3128614185AC130chr1462213848TC46chr3142281612AG131chr1475483812TC47chr455152040CT132chr1481574959AG48chr455602765GC133chr1492441066CT49chr455972974TA134chr1538643574TC50chr41...

【专利技术属性】
技术研发人员:蔡丽丽王冰冷雪刘文陈慧娟李建基周启明
申请(专利权)人:北京求臻医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1