构建多人群非外显子区SNP探针集合的方法及装置制造方法及图纸

技术编号:33955443 阅读:17 留言:0更新日期:2022-06-29 23:23
本发明专利技术公开了一种构建多人群非外显子区SNP探针集合的方法及装置。该方法包括:基于人类基因组数据库的等位基因频率获得初始SNP集合,对初始SNP集合进行非外显子位置提取、上下游CG含量过滤、SNP变异频率过滤、指定人群最小等位基因频率过滤,得到用于设计探针的SNP集合;进行探针设计,对该探针集合进行常见SNP包含数、SNP稳定检出性、能否hg38坐标转换进行过滤;将SNP与探针分布在全基因组多个区间上,取合适的SNP探针;根据进行连锁不平衡关系过滤掉不适用的SNP探针和位点,得到SNP探针集合。应用本发明专利技术的技术方案获得的SNP探针集合可更好地完成同源重组缺失评分及SNP骨架的构建。好地完成同源重组缺失评分及SNP骨架的构建。

【技术实现步骤摘要】
构建多人群非外显子区SNP探针集合的方法及装置


[0001]本专利技术涉及生物信息
与医学分子生物学领域,具体而言,涉及一种构建多人群非外显子区SNP探针集合的方法及装置。

技术介绍

[0002]对人类肿瘤组织样本的同源重组缺陷(Homologous Recombination Deficiency,HRD)进行可靠量化具有重要的临床意义。例如,伴有BRCA1或BRCA2缺失的卵巢癌和三阴性乳腺癌对PARP抑制剂和铂类化疗高度敏感,并以DNA总拷贝数畸变的形式显示基因组瘢痕的积聚;没有BRCA1或BRCA2丢失,但有类似基因组疤痕积聚的癌种也显示出对铂类化疗的敏感性增加。此前基于SNP阵列的染色体不稳定性特征:杂合性丢失(loss of heterozygosity,LOH)、端粒等位基因失平衡(telomeric allelic imbalance,TAI)和大片段迁移(large

scale state transitions,LST),其综合得分可作HRD的生物标志物。近来二代测序法,如全基因组测序(Whole Genome Sequencing,WGS)和全外显子测序(Whole Exome Sequencing,WES)逐渐取代SNP芯片成为基因组瘢痕分析的主流方法,但存在高成本和检测密度不均等缺点。
[0003]考虑到肿瘤标本的倍性、纯度和异质性,同时为了满足高覆盖率和低成本的要求,基于二代测序的靶向测序(Targeted Next

Generation Sequencing,Tg

NGS)锚向全基因组内均匀分布、高杂合率的数万个SNP位点的思路成为应用于同源重组缺陷检测分析的较优解决方案之一。然而市场上出现的此类产品,大多针对欧美人群,亦或是基于检测密度不均的WES,因此对于推出一种多人群通用的针对全基因组范围内高密度均匀分布的SNP探针设计方案显得尤为重要。

技术实现思路

[0004]本专利技术旨在提供一种构建多人群非外显子区SNP探针集合的方法及装置,确定并筛选出适用于多种人群的非外显子区均匀分布的SNP探针集合。
[0005]为了实现上述目的,根据本专利技术的一个方面,提供了一种构建多人群非外显子区SNP探针集合的方法。该方法包括以下步骤:S1,对人类基因组数据库中收纳的SNP位点的等位基因频率信息进行过滤,保留M个人群中等位基因频率均在一定范围内的SNP位点,形成SNP集合A,M≥1;S2,针对SNP集合A中的SNP进行位置过滤,排除涉及外显子的SNP,形成SNP集合B;S3,针对SNP集合B中的SNP,对以SNP位点为中心的120bp范围内的序列的GC含量进行过滤,保留GC含量在指定取值范围内的SNP,形成SNP集合C;S4,针对SNP集合C中SNP在M个人群中变异频率偏离的情况进行SNP过滤,过滤存在异常值的SNP,形成SNP集合D;S5,利用指定人群的最小等位基因频率值对SNP集合D中的SNP位点进行过滤,形成SNP集合E;S6,针对SNP集合E中的SNP位点进行捕获探针设计,获得SNP集合F与安全探针集A;S7,利用常见SNP的参考文件对安全探针集A进行过滤,若一条探针区间内包含3个或以上的常见SNP,则舍去该探针及对应SNP位点,过滤完成后获得SNP集合G和安全探针集B;S8,对SNP集合G中SNP位
点进行过滤,除去在WGS全基因组测序30X深度下无法稳定检测的SNP位点及其对应的安全探针集B中的探针,过滤完成后获得SNP集合H和安全探针集C;S9,过滤掉SNP集合H中参考基因组坐标无法转换成hg38参考基因组坐标的SNP位点及其对应的安全探针集C中的探针,得到SNP集合I和安全探针集D;S10,将全基因组以N个碱基的长度为单位划分为多个区间,SNP集合I和安全探针集D依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点MAF值最接近0.5的SNP位点及其对应的安全探针,得到SNP集合J和安全探针集合E;S11,可选择地,依托S10的方法从SNP集合J和安全探针集合E中进一步挑选新的SNP集合及对应安全探针集合,成为较低密度梯度的新的SNP集合J和新的安全探针集合E;S12,计算SNP集合J中每一个SNP与在该SNP上下游1M bp范围内其他SNP之间的连锁不平衡的关系,过滤掉连锁程度过高的SNP及对应探针,最终得到SNP集合K和安全探针集合F。
[0006]进一步地,人类基因组数据库为1000Genomes人类基因组数据库;优选的,M=5。
[0007]进一步地,S1中,等位基因频率均在一定范围内是指等位基因频率均在0.05~0.95;优选的,S2中,涉及外显子的SNP为SNP上下游200bp范围内触及外显子区域;优选的,S3中,GC含量在指定取值范围内是指GC含量在25%~75%;优选的,S4中,存在异常值的SNP判断方法为:利用该SNP在M个人群中的AF值,计算Q1

1.5IQR和Q3+1.5IQR,若M个人群中任意一人群AF值小于Q1

1.5IQR或大于Q3+1.5IQR,则判定为存在异常。
[0008]进一步地,S5中,指定人群包括中国人群,当以中国人群为指定人群时,过滤条件为最小等位基因频率取值范围为0.2~0.5,且去除了观测杂合度与期望杂合度差异较大的SNP位点;优选的,S5中过滤条件为单个SNP的观测杂合度与期望杂合度的二维坐标距离整条染色体观测杂合度与期望杂合度拟合线的cooks.distance小于或者等于整体SD的4倍。
[0009]进一步地,S6中,捕获探针的设计方法为:以SNP为中心预设计90~160bp,优选120bp探针,使用bowtie2和blast进行全基因组比验证;其中,bowtie2是以SNP为中心,上下移动60bp,一共三条探针,比对结果要求一条探针的hits等于1,另外两条探针的hits小于100;blast则以SNP为中心,要求比对结果的hits数目小于1000,两者阈值条件同时具备,保留该SNP位点及对应探针。
[0010]进一步地,S8中,能被稳定检测的SNP位点在WGS数据在GATK

3.8版本下计算的callable的bed区间之内;优选的,S9中,SNP位点使用crossmap

0.3.9软件转换为hg38坐标,且坐标位置与hg38的avsnp147数据库中的坐标一致;优选的,S10中,N取值应大于等于50k,优选为50k;优选的,S12中,判断SNP连锁不平衡的条件为:D
ab
=f(AB)

f(A)*f(B);r2=(D
ab
)2/(f(A)*f(a)*f(B)*f(b)),其中,r2表示相关系数,D
ab
表示度量观察到的单倍型频率与平衡状态下期望频率的偏差,F(A)、f(B)、f(a)、f(b)表示等位基因基因型频率,f(AB)表示AB单倍型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建多人群非外显子区SNP探针集合的方法,其特征在于,包括以下步骤:S1,对人类基因组数据库中收纳的SNP位点的等位基因频率信息进行过滤,保留M个人群中等位基因频率均在一定范围内的SNP位点,形成SNP集合A,所述M≥1;S2,针对所述SNP集合A中的SNP进行位置过滤,排除涉及外显子的SNP,形成SNP集合B;S3,针对所述SNP集合B中的SNP,对以SNP位点为中心的120bp范围内的序列的GC含量进行过滤,保留GC含量在指定取值范围内的SNP,形成SNP集合C;S4,针对所述SNP集合C中SNP在所述M个人群中变异频率偏离的情况进行SNP过滤,过滤存在异常值的SNP,形成SNP集合D;S5,利用指定人群的最小等位基因频率值对所述SNP集合D中的SNP位点进行过滤,形成SNP集合E;S6,针对所述SNP集合E中的SNP位点进行捕获探针设计,获得SNP集合F与安全探针集A;S7,利用常见SNP的参考文件对所述安全探针集A进行过滤,若一条探针区间内包含3个或以上的常见SNP,则舍去该探针及对应SNP位点,过滤完成后获得SNP集合G和安全探针集B;S8,对所述SNP集合G中SNP位点进行过滤,除去在WGS全基因组测序30X深度下无法稳定检测的SNP位点及其对应的所述安全探针集B中的探针,过滤完成后获得SNP集合H和安全探针集C;S9,过滤掉所述SNP集合H中参考基因组坐标无法转换成hg38参考基因组坐标的SNP位点及其对应的安全探针集C中的探针,得到SNP集合I和安全探针集D;S10,将全基因组以N个碱基的长度为单位划分为多个区间,所述SNP集合I和所述安全探针集D依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点MAF值最接近0.5的SNP位点及其对应的安全探针,得到SNP集合J和安全探针集合E;S11,可选择地,依托S10的方法从所述SNP集合J和所述安全探针集合E中进一步挑选新的SNP集合及对应安全探针集合,成为较低密度梯度的新的SNP集合J和新的安全探针集合E;S12,计算所述SNP集合J中每一个SNP与在该SNP上下游1M bp范围内其他SNP之间的连锁不平衡的关系,过滤掉连锁程度过高的SNP及对应探针,最终得到SNP集合K和安全探针集合F。2.根据权利要求1所述的方法,其特征在于,所述人类基因组数据库为1000Genomes人类基因组数据库;优选的,M=5。3.根据权利要求1所述的方法,其特征在于,所述S1中,所述等位基因频率均在一定范围内是指所述等位基因频率均在0.05~0.95;优选的,所述S2中,所述涉及外显子的SNP为SNP上下游200bp范围内触及外显子区域;优选的,所述S3中,所述GC含量在指定取值范围内是指GC含量在25%~75%;优选的,所述S4中,存在异常值的SNP判断方法为:利用该SNP在M个人群中的AF值,计算Q1

1.5IQR和Q3+1.5IQR,若M个人群中任意一人群AF值小于Q1

1.5IQR或大于Q3+1.5IQR,则判定为存在异常。
4.根据权利要求1所述的方法,其特征在于,所述S5中,所述指定人群包括中国人群,当以中国人群为指定人群时,所述过滤条件为最小等位基因频率取值范围为0.2~0.5,且去除了观测杂合度与期望杂合度差异较大的SNP位点;优选的,所述S5中过滤条件为单个SNP的观测杂合度与期望杂合度的二维坐标距离整条染色体观测杂合度与期望杂合度拟合线的cooks.distance小于或者等于整体SD的4倍。5.根据权利要求1所述的方法,其特征在于,所述S6中,所述捕获探针的设计方法为:以SNP为中心预设计90~160bp,优选120bp探针,使用bowtie2和blast进行全基因组比验证;其中,bowtie2是以SNP为中心,上下移动60bp,一共三条探针,比对结果要求一条探针的hits等于1,另外两条探针的hits小于100;blast则以SNP为中心,要求比对结果的hits数目小于1000,两者阈值条件同时具备,保留该SNP位点及对应探针。6.根据权利要求1所述的方法,其特征在于,所述S8中,能被稳定检测的SNP位点在WGS数据在GATK

3.8版本下计算的callable的bed区间之内;优选的,所述S9中,SNP位点使用crossmap

0.3.9软件转换为hg38坐标,且坐标位置与hg38的avsnp147数据库中的坐标一致;优选的,所述S10中,N取值应大于等于50k,优选为50k;优选的,所述S12中,判断SNP连锁不平衡的条件为:D
ab
=f(AB)

f(A)*f(B);r2=(D
ab
)2/(f(A)*f(a)*f(B)*f(b)),其中,r2表示相关系数,D
ab
表示度量观察到的单倍型频率与平衡状态下期望频率的偏差,F(A)、f(B)、f(a)、f(b)表示等位基因基因型频率,f(AB)表示AB单倍型频率;r2的阈值为0.2,r2高于该值,则被过滤。7.一种构建多人群非外显子区SNP探针集合的装置,其特征在于,包括:等位基因频率信息过滤单元,设置为对人类基因组数据库中收纳的SNP位点的等位基因频率信息进行过滤,保...

【专利技术属性】
技术研发人员:蒋才程陶然尹书剑
申请(专利权)人:纳昂达南京生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1