一种拷贝数变异的分析方法、分析装置、设备及存储介质制造方法及图纸

技术编号:19693082 阅读:30 留言:0更新日期:2018-12-08 11:29
本发明专利技术涉及一种拷贝数变异的分析方法、分析装置、设备及存储介质。本发明专利技术提供的上述拷贝数变异的分析方法通过调用相应的应用程序对二代测序的DNA测序数据依次进行抽提、比对、标记区分、统计分析,最终得到CNV区域的read的占比和/或拷贝数,最终结果准确性高,分辨率好,尤其是在抽提过程中,根据靶标区域的碱基数目、测序读长以及预设的平均深度来确定待抽取的read数目,这样可以有针对性的对不同的测序结果进行分析,分析结果的可靠性大大提高。

【技术实现步骤摘要】
一种拷贝数变异的分析方法、分析装置、设备及存储介质
本专利技术涉及生物信息学
,尤其是涉及一种拷贝数变异的分析方法、分析装置、设备及存储介质。
技术介绍
随着二代测序技术的日益成熟以及二代测序技术在人类基因组检测相关应用领域的飞速发展,采用二代测序技术来进行人类基因组分析以辅助诊断疾病或进行疾病的病理分析已经成为一种行之有效的手段,其中拷贝数变异(Copynumbervariation,CNV)分析是非常重要的分析内容。拷贝数变异分析主要原理是通过二代测序技术确定人类基因组上重要区域片段的覆盖度并通过统计学手段确定是否与参考样本存在差异,从而判定是否有缺失或重复等突变,最终用来确定基因型或辅助诊断相关疾病。目前由二代测序数据分析的拷贝数变异的结果存在一定的假阳性,因而需要经过行业金标准的一代测序(Sanger)来进行验证。一代测序技术验证拷贝数变异的方法是多重连接依赖的探针扩增技术(MutiplexLigation-dependentProbeAmplification,MLPA),该方法在检测拷贝数变异的准确性和分辨率上都非常高,也是目前比较公认的验证拷贝数变异的金标准之一。然而一代测序整体上效率低、操作繁琐。
技术实现思路
基于此,有必要提供一种拷贝数变异的分析方法、分析装置、设备及存储介质,以提高基于二代测序进行拷贝数变异分析的准确性和分辨率。一种拷贝数变异的分析方法,包括如下步骤:步骤S1:获取基因组靶标区域的DNA测序数据;步骤S2:通过第一应用程序接口调用第一应用程序,获得由所述第一应用程序从所述DNA测序数据中按照待抽取的read数目抽取出覆盖所述靶标区域的read,得到的抽取后的测序数据,所述待抽取的read数目根据所述靶标区域的碱基数目、测序读长以及预设的平均深度来确定;步骤S3:通过第二应用程序接口调用第二应用程序,获得由所述第二应用程序对所述抽取后的测序数据进行基因组比对,得到的比对结果;步骤S4:通过第三应用程序接口调用第三应用程序,获得由所述第三应用程序对所述比对结果中PCR重复read和非PCR重复read进行区分,得到的区分结果;步骤S5:通过第四应用程序接口调用第四应用程序,获得由所述第四应用程序从所述区分结果中统计非PCR重复且比对分值不小于预设值的read,得到的落入各靶标区域的read数目;步骤S6:通过第五应用程序接口调用第五应用程序,获得由所述第五应用程序按照各靶标区域的read数目确定的CNV区域的read的占比和/或拷贝数。在其中一个实施例中,在所述步骤S2中,所述待抽取的read数目=(靶标区域的碱基数目*预设的平均深度)/(测序读长*相关系数),其中,所述相关系数小于1;所述预设的平均深度根据所检测的样本的突变分析类型来确定,其中体细胞突变的预设的平均深度不小于950×,胚系突变的预设的平均深度不小于80×。在其中一个实施例中,在所述步骤S2之后且在所述步骤S3之前,还包括:步骤S03:通过第六应用程序接口调用第六应用程序,获得由所述第六应用程序对所述抽取后的测序数据进行测序质量评估得到的评估结果,对于所述评估结果满足预设要求的所述抽取后的测序数据执行步骤S3;否则通过第一应用程序接口调用第一应用程序,获得由所述第一应用程序调整参数后从所述DNA测序数据中按照待抽取的read数目抽取出覆盖所述靶标区域的read,得到的新的抽取后的测序数据,再通过第六应用程序接口调用第六应用程序,获得由所述第六应用程序对所述新的抽取后的测序数据进行测序质量评估得到的新的评估结果,对于所述新的评估结果满足预设要求的所述新的抽取后的测序数据执行步骤S3;否则回到步骤S1,获取新的基因组靶标区域的DNA测序数据。在其中一个实施例中,所述预设要求是:read平均质量大于Q30的read数占总的read数目的85%以上,GC平均含量在40%~55%之间,碱基A、T、C及G各占25%+2%。在其中一个实施例中,所述步骤S6包括:步骤S61:获得由所述第五应用程序分别对测试样本和参考样本的总的read数目进行beta-二项式分布模型的拟合,得到的测试样本的第i个靶标区域的期望值pi;步骤S62:获得由所述第五应用程序按照公式exp(Yi)=Yi*Pi/(1-Pi)确定的测试样本的各靶标区域的期望read数目exp(Yi),其中,Yi为测试样本的第i个靶标区域的read数目;步骤S63:获得由所述第五应用程序按照公式确定的相应染色体上CNV区域的read的占比,和/或获得由所述第五应用程序按照公式CNVcopy=CNVratio*2确定的女性常染色体和X染色体的CNV区域的拷贝数,或按照公式CNVcopy=CNVratio*2确定的男性常染色体的CNV区域的拷贝数和按照公式CNVcopy=CNVratio确定的男性X或Y染色体的CNV区域的拷贝数;其中,CNVratio为所述CNV区域的read的占比,CNVcopy为所述CNV区域的拷贝数,Xi-j是测试样本的CNV所在区域中第i个靶标区域到第j个靶标区域的read数目,在其中一个实施例中,在所述步骤S62中,还包括:获得由所述第五应用程序按照公式Ratioi=Yi/exp(Yi)确定的测试样本的各靶标区域的read的占比Ratioi,其中,Yi为测试样本的第i个靶标区域的read数目。在其中一个实施例中,所述拷贝数变异的分析方法还包括步骤S7:通过第七应用程序接口和第八应用程序接口分别调用第七应用程序和第八应用程序,获得由所述第七应用程序和所述第八应用程序对所有靶标区域和CNV区域的read的占比进行注释和图形化展示的结果。一种拷贝数变异的分析装置,包括:测序数据获取模块,用于获取基因组靶标区域的DNA测序数据;抽取调用模块,用于通过第一应用程序接口调用第一应用程序,获得由所述第一应用程序从所述DNA测序数据中按照待抽取的read数目抽取出覆盖所述靶标区域的read,得到的抽取后的测序数据,所述待抽取的read数目是按照所述靶标区域的碱基数目、测序读长以及预设的平均深度来确定;比对调用模块,用于通过第二应用程序接口调用第二应用程序,获得由所述第二应用程序对所述抽取后的测序数据进行基因组比对,得到的比对结果;区分调用模块,用于通过第三应用程序接口调用第三应用程序,获得由所述第三应用程序对所述比对结果中PCR重复read和非PCR重复read进行区分,得到的区分结果;统计调用模块,用于通过第四应用程序接口调用第四应用程序,获得由所述第四应用程序从所述区分结果中统计非PCR重复且比对分值不小于预设值的read,得到的落入各靶标区域的read数目;以及CNV分析调用模块,用于通过第五应用程序接口调用第五应用程序,获得由所述第五应用程序按照各靶标区域的read数目确定的CNV区域的read的占比和/或拷贝数。一种计算机设备,具有处理器和存储器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的拷贝数变异的分析方法的步骤。一种计算机存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述任一实施例所述的拷贝数变异的分析方法的步骤。传统的二代测序技术分析CNV要借助相关的生物信息软件来进行分析,本文档来自技高网...

【技术保护点】
1.一种拷贝数变异的分析方法,其特征在于,包括如下步骤:步骤S1:获取基因组靶标区域的DNA测序数据;步骤S2:通过第一应用程序接口调用第一应用程序,获得由所述第一应用程序从所述DNA测序数据中按照待抽取的read数目抽取出覆盖所述靶标区域的read,得到的抽取后的测序数据,所述待抽取的read数目根据所述靶标区域的碱基数目、测序读长以及预设的平均深度来确定;步骤S3:通过第二应用程序接口调用第二应用程序,获得由所述第二应用程序对所述抽取后的测序数据进行基因组比对,得到的比对结果;步骤S4:通过第三应用程序接口调用第三应用程序,获得由所述第三应用程序对所述比对结果中PCR重复read和非PCR重复read进行区分,得到的区分结果;步骤S5:通过第四应用程序接口调用第四应用程序,获得由所述第四应用程序从所述区分结果中统计非PCR重复且比对分值不小于预设值的read,得到的落入各靶标区域的read数目;步骤S6:通过第五应用程序接口调用第五应用程序,获得由所述第五应用程序按照各靶标区域的read数目确定的CNV区域的read的占比和/或拷贝数。

【技术特征摘要】
1.一种拷贝数变异的分析方法,其特征在于,包括如下步骤:步骤S1:获取基因组靶标区域的DNA测序数据;步骤S2:通过第一应用程序接口调用第一应用程序,获得由所述第一应用程序从所述DNA测序数据中按照待抽取的read数目抽取出覆盖所述靶标区域的read,得到的抽取后的测序数据,所述待抽取的read数目根据所述靶标区域的碱基数目、测序读长以及预设的平均深度来确定;步骤S3:通过第二应用程序接口调用第二应用程序,获得由所述第二应用程序对所述抽取后的测序数据进行基因组比对,得到的比对结果;步骤S4:通过第三应用程序接口调用第三应用程序,获得由所述第三应用程序对所述比对结果中PCR重复read和非PCR重复read进行区分,得到的区分结果;步骤S5:通过第四应用程序接口调用第四应用程序,获得由所述第四应用程序从所述区分结果中统计非PCR重复且比对分值不小于预设值的read,得到的落入各靶标区域的read数目;步骤S6:通过第五应用程序接口调用第五应用程序,获得由所述第五应用程序按照各靶标区域的read数目确定的CNV区域的read的占比和/或拷贝数。2.如权利要求1所述的拷贝数变异的分析方法,其特征在于,在所述步骤S2中,所述待抽取的read数目=(靶标区域的碱基数目*预设的平均深度)/(测序读长*相关系数),其中,所述相关系数小于1;所述预设的平均深度根据所检测的样本的突变分析类型来确定,其中体细胞突变的预设的平均深度不小于950×,胚系突变的预设的平均深度不小于80×。3.如权利要求1所述的拷贝数变异的分析方法,其特征在于,在所述步骤S2之后且在所述步骤S3之前,还包括:步骤S03:通过第六应用程序接口调用第六应用程序,获得由所述第六应用程序对所述抽取后的测序数据进行测序质量评估得到的评估结果,对于所述评估结果满足预设要求的所述抽取后的测序数据执行步骤S3;否则通过第一应用程序接口调用第一应用程序,获得由所述第一应用程序调整参数后从所述DNA测序数据中按照待抽取的read数目抽取出覆盖所述靶标区域的read,得到的新的抽取后的测序数据,再通过第六应用程序接口调用第六应用程序,获得由所述第六应用程序对所述新的抽取后的测序数据进行测序质量评估得到的新的评估结果,对于所述新的评估结果满足预设要求的所述新的抽取后的测序数据执行步骤S3;否则回到步骤S1,获取新的基因组靶标区域的DNA测序数据。4.如权利要求3所述的拷贝数变异的分析方法,其特征在于,所述预设要求是:read平均质量大于Q30的read数占总的read数目的85%以上,GC平均含量在40%~55%之间,碱基A、T、C及G各占25%+2%。5.如权利要求1~4中任一项所述的拷贝数变异的分析方法,其特征在于,所述步骤S6包括:步骤S61:获得由所述第五应用程序分别对测试样本和参考样本的总的read数目进行beta-二项式分布模型的拟合,得到的测试样本的第i个靶标区域的期望值pi;步骤S62:获得由所述第五应用程序按照公式exp(Yi)=Yi...

【专利技术属性】
技术研发人员:孙明明唐小艳邓俊豪向丽娜赵薇薇于世辉
申请(专利权)人:广州金域医学检验中心有限公司广州金域医学检验集团股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1