一种利用单核苷酸多态性判断拷贝数变异的方法和系统技术方案

技术编号:36770592 阅读:11 留言:0更新日期:2023-03-08 21:42
本发明专利技术涉及一种利用单核苷酸多态性辅助判断拷贝数变异的方法和一种可以实施所述方法的数据处理系统。所述利用单核苷酸多态性辅助判断拷贝数变异的方法包括:根据检测样本和参比样本的第三数据,计算基因CNV得分,根据所述CNV得分筛选可能有拷贝数变异的基因,选入第二基因组;根据所述参比样本的所述第三数据进行snp分析,从所述第二基因组的位点中筛选出突变频率稳定的第一位点组;根据所述检测样本的所述第三数据进行snp分析,获得所述检测样本在所述第一位点组的snp碱基信息,作为第五数据;根据第五数据,判断所述检测样本的基因拷贝数变异情况。因拷贝数变异情况。因拷贝数变异情况。

【技术实现步骤摘要】
一种利用单核苷酸多态性判断拷贝数变异的方法和系统


[0001]本专利技术涉及一种判断拷贝数变异的方法和一种数据处理系统,特别涉及一种利用单核苷酸多态性判断拷贝数变异的方法和一种实施该方法的数据处理系统。

技术介绍

[0002]随着个体化医学的发展和"精准医学"概念的提出,肿瘤药物治疗发展迅速,临床研究逐渐发现并证实更多与药物治疗疗效预测相关的基因突变。传统的基因突变检测方法如Sanger测序、焦磷酸测序和实时荧光PCR等仅能对单个基因,或者单个基因的部分外显子突变进行检测,采用上述传统基因突变检测方法同时检测多个基因,一则需要的样本量大,其次需要更长的检测时间和更大的工作量。高通量测序(High

throughput sequencing,HTS)即下一代测序(Next

generation sequencing technology,NGS),能够同时对上百万甚至数十亿个DNA片段进行测序,可实现在较低的成本下,一次对多至上百个肿瘤相关基因、全外显子以及全基因组进行检测,而且需要的样本量并不增加。因其在通量、成本和效率方面的优势,NGS在实体肿瘤体细胞基因突变中展现了其广阔的应用前景。
[0003]拷贝数变异在人类疾病和生物学中起着重要作用。例如,生殖细胞拷贝数变异会对发育有巨大影响,如21、18和13三体,分别导致唐氏综合征、爱德华兹综合征和帕托综合征等。另一方面,在患癌患者中常常会发现体细胞拷贝数变异,拷贝数变异是肿瘤发展和耐药性的主要驱动因素。泛癌基因组分析报告中发现在许多肿瘤类型中发现了MYC的拷贝数扩增和PTEN和TP53的拷贝数缺失。在急性髓系白血病(AML)中,涉及大量染色体5和7的缺失在细胞遗传风险不利的患者中经常出现。在多发性骨髓瘤中,17号染色体的缺失与更侵袭性的疾病相关,在疾病进展过程中获得17号染色体的缺失会带来更糟糕的预后。此外,TP53染色体缺失或1号染色体扩增导致骨髓瘤发病相关基因(如CKS1B、MCL1)异常,与不良预后相关。因此,对癌症相关拷贝数变异事件的描述对于确定患者亚群以及对预后和潜在治疗策略的见解有重要意义。
[0004]目前NGS方法检测CNV主要可利用1)、读段深度(read depth):根据滑动窗口读段深度来指示拷贝数扩增与缺失;2)、pair

end方法:根据pair

end两端之间距离与参考基因组上差异来确认拷贝数变异;3)、序列组装方法:将短reads进行组装后寻找其与参考基因组之间的差异来确认拷贝数变异。第一种基于读段深度的方法是目前应用较为广泛的方法,后两种主要被用于进行其他结构变异的检测,如转换颠换等。读段深度检测方法的核心技术主要基于概率统计模型。基于概率统计的检测方法有一个假设前提:读段深度与拷贝数变异数目之间是线性关系,即我们默认测序过程是均匀的,染色体上按特定窗口进行滑动统计的读段深度是服从某种特定分布的,比如泊松分布、高斯分布等。如果出现滑动窗口读段深度增加或者减少也就代表着出现拷贝数的扩增或者缺失。但是测序过程中累积的误差使得读段深度与拷贝数变异数目之间并非是线性关系,因此该方法基于错误的假设,得出的结果误差较大。
[0005]此外,也可以依据细胞标志基因,通过人工鉴别,该方法效率低下,且存在较多的
主观性。
[0006]为解决以上方法的局限性,开发了一种方法基于基因范围中诸多单核苷酸多态性的频率来辅助确定基因拷贝数变异的状态。

技术实现思路

[0007]为解决上述问题,本专利技术提供一种利用单核苷酸多态性辅助判断拷贝数变异的方法,其包括以下步骤:
[0008]步骤1:根据检测样本和参比样本的第三数据,计算基因CNV得分,根据所述CNV得分筛选可能有拷贝数变异的基因,选入第二基因组;
[0009]步骤2:根据所述参比样本的所述第三数据进行snp分析,从所述第二基因组的位点中筛选出突变频率稳定的第一位点组;根据所述检测样本的所述第三数据进行snp分析,获得所述检测样本在所述第一位点组的snp碱基信息,作为第五数据;
[0010]步骤3:根据第五数据,判断所述所述检测样本的基因拷贝数变异情况;
[0011]所述第三数据是原始测序数据经过去除低质量序列、比对到参考基因组、去重和质控后获得的数据。
[0012]所述低质量序列是指平均碱基质量和reads长度低于设置数值的序列,本专利技术实施例一中给出了示例性的低质量序列去除方式。
[0013]本专利技术可以用于第二代测序,或称高通量测序平台(例如illumina或者MGI测序数据)的测序结果进行第一基因组的拷贝数变异状态的识别。
[0014]所述第三数据是通过如下方法获取的:
[0015]针对检测样本或参比样本进行测序,获得包括第一基因组信息的原始测序数据,所述第一基因组是根据分析目的自行选定的一个或多个基因;
[0016]所述原始测序数据去除低质量序列得到的clean data作为第一数据,将所述第一数据比对到参考基因组,从而将第一数据中的测序序列定位到相关基因上,得到比对结果数据,作为第二数据;
[0017]对所述第二数据进行去重和质控,得到第三数据。
[0018]比对到参考基因组的方法为:使用bwa软件,利用mem算法,将去除低质量序列得到的第一数据比对到人参考基因组hg19上,从而将测序序列定位到相关基因上。
[0019]参比样本选用人白细胞样本,为保证样本的多样性和结果具有统计学意义,可以选取多人的血液样本,本专利技术中选用20人的血液样本构建CNV和snp基线。
[0020]作为优选的方案,步骤1具体包括以下步骤:
[0021]步骤1.1获取检测样本和参比样本的校正的标准化测序深度;
[0022]使用多份参比样本时,对所有参比样本的校正的标准化测序深度取平均值,计算平均参比测序深度;
[0023]步骤1.2计算检测样本的CNV拷贝数得分;计算方式为:对于每一个区域,该区域的CNV拷贝数得分=2
×
校正的标准化测序深度/平均参比测序深度;
[0024]步骤1.3筛选0≤CNV拷贝数得分≤1,或者4≤CNV拷贝数得分<6的样本,作为可能有拷贝数变异的基因。
[0025]作为优选的方案,步骤2具体包括以下步骤:
[0026]步骤2.1从所述参比样本的所述第三数据中获取所述第二基因组的snp位点的碱基信息,包括支持碱基突变的reads和参考碱基的reads;去除其中测序深度低于设定值的位点,得到的数据称为参比样本的第四数据;
[0027]利用参比样本的第四数据进行如下计算和筛选:
[0028]snp突变频率=支持碱基突变的reads数/(参考碱基的reads数+支持碱基突变的reads数);
[0029]筛选的标准为,snp位点突变频率在0.4

0.6之间则判定为稳定,归为第一位点组。
[0030本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用单核苷酸多态性辅助判断拷贝数变异的方法,其特征在于,包括以下步骤:步骤1:根据检测样本和参比样本的第三数据,计算基因CNV得分,根据所述CNV得分筛选可能有拷贝数变异的基因,选入第二基因组;步骤2:根据所述参比样本的所述第三数据进行snp分析,从所述第二基因组的位点中筛选出突变频率稳定的第一位点组;根据所述检测样本的所述第三数据进行snp分析,获得所述检测样本在所述第一位点组的snp碱基信息,作为第五数据;步骤3:根据所述第五数据,判断所述检测样本的基因拷贝数变异情况;所述第三数据是原始测序数据经过去除低质量序列、比对到参考基因组、去重和质控后获得的数据,所述低质量序列是指平均碱基质量和reads长度低于设置数值的序列。2.如权利要求1所述的方法,其特征在于,所述第三数据是通过如下方法获取的:针对检测样本或参比样本进行测序,获得包括第一基因组的信息的原始测序数据,所述第一基因组是根据分析目的自行选定的一个或多个基因;将从所述原始测序数据中去除低质量序列得到的clean data作为第一数据,将所述第一数据比对到参考基因组,从而将所述第一数据中的测序序列定位到相关基因上,得到比对结果数据,作为第二数据;对所述第二数据进行去重和质控,得到所述第三数据。3.如权利要求1所述的方法,其特征在于,所述参比样本选用人白细胞样本。4.如权利要求1所述的方法,其特征在于,所述计算基因CNV得分包括以下步骤:步骤1.1获取检测样本和参比样本的校正的标准化测序深度;使用多份参比样本时,对所有参比样本的校正的标准化测序深度取平均值,计算平均参比测序深度;步骤1.2计算检测样本的CNV拷贝数得分;计算方式为:对于每一个区域,该区域的CNV拷贝数得分=2
×
校正的标准化测序深度/平均参比测序深度。5.如权利要求4所述的方法,其特征在于,所述筛选可能有拷贝数变异的基因的方法包括以下步骤:步骤1.3筛选0≤CNV拷贝数得分≤1,或者4≤CNV拷贝数得分<6的样本,作为可能有拷贝数变异的基因。6.如权利要求1所述的方法,其特征在于,筛选出突变频率稳定的第一位点组的方法包括以下步骤:步骤2.1从所述参比样本的所述第三数据中获取所述第二基因组的snp位点的碱基信息,包括支持碱基突变的reads和参考碱基的reads;去除其中测序深度低于设定值的位点,得到的数据称为参比样本的第四数据;利用参比样本的第四数据进行如下计算和筛选:snp突变频率=支持碱基突变的reads数/(参考碱基的reads数+支持碱基突变的reads数);筛选的标准为,snp位点突变频率在0.4

0.6之间则判定为稳定,归为第一位点组。7.如权利要求1所述的方法,其特征在于,所述第五数据的获取方法包括以下步骤:步骤2.2从所述检测样本的所述第三数据中获取所述第一位点组的snp位点的碱基信
息,包括支持碱基突变的reads和参考碱基的reads;去除其中测序深度低于设定值的位点,得到的数据称为参比样本的第五数据。8.如权...

【专利技术属性】
技术研发人员:李奎全智慧裘宇容于雪滕祥云
申请(专利权)人:广州华银康医疗集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1