一种检测染色体拷贝数异常的方法和装置制造方法及图纸

技术编号:34749791 阅读:21 留言:0更新日期:2022-08-31 18:44
本发明专利技术涉及生物信息技术领域,尤其涉及一种检测染色体拷贝数异常的方法和装置。所述方法包括:针对染色体拷贝数异常的检测结果进行SNP频率校正;所述SNP频率校正为针对CNV片段的每个窗口进行如下流程:检测窗口中每个人群高频SNP位点的频率分布,根据所述频率分布判断每个人群高频SNP位点是否支持所述窗口携带CNV;根据判断结果确定所述窗口是否携带CNV。本发明专利技术基于隐马尔科夫模型及EM算法检测染色体拷贝数异常的片段,后针对潜在CNV片段的检测结果利用片段上携带的人群高频SNP位点的频率进行校正,有效提高了检测染色体拷贝数异常的准确性和灵敏度。的准确性和灵敏度。的准确性和灵敏度。

【技术实现步骤摘要】
一种检测染色体拷贝数异常的方法和装置


[0001]本专利技术涉及生物信息
,尤其涉及一种检测染色体拷贝数异常的方法和装置。

技术介绍

[0002]染色体拷贝数异常是属于基因组结构变异,根据大小可分为两个层次:显微水平和亚显微水平。显微水平的基因组结构变异主要是指显微镜下可见的染色体畸变,包括整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变异。亚显微水平的基因组结构变异是指DNA片段长度在1Kb

3Mb的基因组结构变异,包括缺失、插入、重复、重排、倒位、DNA拷贝数目变化等,这些统称为拷贝数异常(Copy number variations,CNV)。
[0003]目前,检测拷贝数变异的技术中主要分为2大类,第一类基于序列数,即将待检测区域按照一定的长度划分窗口,统计每个窗口比对到的序列数,将比对到每个窗口的序列数进行GC含量等偏差的校正,进而通过循环二元分割、隐马尔可夫链等算法检测拷贝数变异;第二类基于SNP的频率,通过统计样本杂合位点离50:50比例的偏差来检测拷贝数的变异。
[0004]然而,样本质量、或者实验、测序的过程中的一些操作会产生无法校正的数据波动,或者杂合位点的频率在没有发生CNV的情况下也会产生频率偏差,这些情况会让这两种检测拷贝数变异的方法在计算时造成数据失真,干扰检测的准确性。

技术实现思路

[0005]为了解决现有技术存在的问题,本专利技术提供一种检测染色体拷贝数异常的方法和装置。在基于序列数检测拷贝数异常的基础上,采用SNP频率进行校正的方法,有效避免假阳性,提高检测的准确性和灵敏度。
[0006]第一方面,本专利技术提供一种检测染色体拷贝数异常的方法,包括:针对染色体拷贝数异常的检测结果进行SNP频率校正;所述SNP频率校正为针对CNV片段的每个窗口进行如下流程:检测窗口中每个人群高频SNP位点的频率分布,根据所述频率分布判断每个高频SNP位点是否支持所述窗口携带CNV;根据判断结果确定所述窗口是否携带CNV。
[0007]进一步地,所述根据所述频率分布确定每个人群高频SNP位点是否支持所述窗口携带CNV为:判断每个高频SNP位点的频率分布符合正态分布f~N((cn

1)/cn,σ
ri
),还是N(0.5,σ
ri
)的分布,符合正态分布f~N((cn

1)/cn,σ
ri
)的概率更高的高频SNP位点即为支持所述窗口携带CNV;其中,cn为所述窗口的cn值。
[0008]进一步地,所述窗口的cn值通过如下方式计算得到:计算所述染色体拷贝数异常的检测结果中CNV片段每个窗口含量的平均值x,则cn值=2+2*x。
[0009]本专利技术中将千人基因组计划中,变异频率位于5%

95%之间的SNP位点定义为人群高频SNP位点。进一步地,将CNV片段包含的人群高频的SNP位点,变异频率在10%~90%的SNP位点挑选出来,用于下一步的校正。
[0010]进一步地,所述根据判断结果确定所述窗口是否携带CNV为:当所述窗口内支持所述窗口携带CNV的人群高频SNP位点数量超过人群高频SNP位点总数的一半时,判断所述窗口携带CNV。
[0011]进一步地,在进行SNP频率校正之前,还包括:通过基于序列数的CNV检测方法对待测样本进行检测得到所述染色体拷贝数异常的检测结果。
[0012]进一步地,所述基于序列数的CNV检测方法包括:将待检测样本的所有窗口的序列分别进行数据量校正、GC含量校正和局部加权线性回归,得到每个窗口的经过校正的窗口含量;基于每个窗口的经过校正的窗口含量,以参考数据集中每个窗口的原始含量作为观测序列,通过隐马尔科夫模型计算每个窗口携带CNV的概率。
[0013]进一步地,采用大于30个样本的核苷酸序列检测数据,进行原始序列过滤、去除重复序列和提取唯一比对碱基序列;采用数据量校正、GC含量校正和基线覆盖度校正进行校正。
[0014]进一步地,所述隐马尔科夫模型为:用染色体一系列窗口的原始含量作为模型的观测序列,如果一个窗口含有CNV,和不含CNV的窗口相比,窗口的含量变化大于50%;每个窗口的隐含状态有3个状态:拷贝数缺失、阴性和拷贝数增加,利用每条染色体的隐含状态构成一条马尔科夫链,并用EM算法拟合模型到最佳参数,最终计算出每个窗口携带CNV的后验概率。
[0015]本专利技术进一步提供所述方法在提高染色体拷贝数检测的准确率中的应用。
[0016]第二方面,本专利技术提供一种检测染色体拷贝数异常的装置,包括:CNV检测模块,所述CNV检测模块用于通过基于序列数的CNV检测方法对待测样本进行检测得到染色体拷贝数异常的检测结果;校正模块,所述校正模块用于针对所述染色体拷贝数异常的检测结果进行SNP频率校正;所述SNP频率校正为针对CNV片段的每个窗口进行如下流程:检测窗口中每个人群高频SNP位点的频率分布,根据所述频率分布判断每个人群高频SNP位点是否支持所述窗口携带CNV;根据判断结果确定所述窗口是否携带CNV。
[0017]本专利技术具备如下有益效果:本专利技术基于序列数和SNP的频率进行CNV的检测,利用窗口比对上的序列数检测染色体的拷贝数变异,利用SNP的频率校正检出的拷贝数变异,有效解决了单一方法引起的假阳性检测结果等问题,显著提高了检测染色体拷贝数异常的准确性,具有重要意义。
附图说明
[0018]图1为本专利技术实施例1提供的CNV流程检测说明图。
具体实施方式
[0019]以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。
[0020]实施例1本实施例提供一种检测染色体拷贝数异常的方法,如图1所示,具体流程如下:1、原始序列过滤。
[0021]使用质控工具(Trimmomatic

0.39 软件)处理来自MGI

2000平台原始下机数据,将原始测得的碱基序列中的接头序列、含N的碱基、和测序质量小于15的碱基切除掉,生成新的fastq文件。
[0022]2、比对、去重复序列、提取唯一比对碱基序列。
[0023]使用比对软件(BWA v0.7.17)将经过过滤的碱基序列比对到人体参考基因组序列(版本hg19);使用去重复序列软件(Picard v2.20.3)对比对结果BAM文件的重复测序读段进行移除,并生产新的BAM文件;使用软件(Samtools v1.2)将去重复后的比对文件中唯一比对碱基序列提取出来并生成最终的BAM文件。统计最终的BAM文件,获得样本的有效数据量和GC含量。
[0024]3、参考数据集的构建。
[0025]用大于30例样本构建参考数据库。
[0026](1)对窗口的序列数目进行基础校正。
[0027]测序过程中存在一定的GC偏好性,染色体上不同区域的基线覆盖度也存在差异,首先需要对样本GC含量偏差、不同区域的基线覆本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测染色体拷贝数异常的方法,其特征在于,包括:针对染色体拷贝数异常的检测结果进行SNP频率校正;所述SNP频率校正为针对CNV片段的每个窗口进行如下流程:检测窗口中每个人群高频SNP位点的频率分布,根据所述频率分布判断每个高频SNP位点是否支持所述窗口携带CNV;根据判断结果确定所述窗口是否携带CNV。2.根据权利要求1所述的方法,其特征在于,所述根据所述频率分布确定每个人群高频SNP位点是否支持所述窗口携带CNV为:判断每个人群高频SNP位点的频率分布符合正态分布f~N((cn

1)/cn,σ
ri
),还是N(0.5,σ
ri
)的分布,符合正态分布f~N((cn

1)/cn,σ
ri
)的概率更高的人群高频SNP位点即为支持所述窗口携带CNV;其中,cn为所述窗口的cn值。3.根据权利要求1或2所述的方法,其特征在于,所述人群高频SNP位点为所述窗口中包含的千人组计划中人群变异频率在5%

95%的SNP位点。4.根据权利要求1所述的方法,其特征在于,所述根据判断结果确定所述窗口是否携带CNV为:当所述窗口内支持所述窗口携带CNV的人群高频SNP位点数量超过人群高频SNP位点总数的一半时,判断所述窗口携带CNV。5.根据权利要求1所述的方法,其特征在于,在进行...

【专利技术属性】
技术研发人员:单光宇高司航姬晓勇伍启熹王建伟
申请(专利权)人:北京优迅医疗器械有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1