一种基于单样本二代测序数据的拷贝数变异检测方法技术

技术编号:23364297 阅读:109 留言:0更新日期:2020-02-18 17:51
本发明专利技术属于拷贝数变异(CNV)检测技术领域,公开了一种基于单样本二代测序数据的拷贝数变异检测方法;前期对数据进行预处理,过滤无效位置,GC含量校准,均衡数据,数据去噪,通过对数据进行分段处理,一部分数据用来拟合模型,另一部分数据用作被测数据,两部分数据交叉检测使变异在模型中检测出来,计算每个数据的概率值,选取一个显著性水平(α),利用假设检验的方法预测CNV。为了进一步验证方法的有效性,本发明专利技术对仿真数据样本进行检测,并和现有几种比较流行的方法进行比对,均表现出最好的性能。本发明专利技术检测高效、精确易于操作,并且检测速度较快;在测试低纯度数据得到准确率和召回率,均大大优于比对算法。

A copy number variation detection method based on single sample second generation sequencing data

【技术实现步骤摘要】
一种基于单样本二代测序数据的拷贝数变异检测方法
本专利技术属于拷贝数变异检测
,尤其涉及一种基于单样本二代测序数据的拷贝数变异检测方法。
技术介绍
目前,最接近的现有技术:目前,第二代测序技术的拷贝数变异检测方法主要有以下几种:paired-endmapping(PEM):利用双端测序reads去检测拷贝数变异,由于从文库中获得的片段大小基本上固定,当双端reads比对到参考基因组上,如果reads之间距离发生改变,发生拷贝数变异。Depthofcoverage(DOC):第二代测序中最常用的检测方法,通过分析不同位置的reads深度信号的差异来检测拷贝数变异。Split-Read:reads在比对到参考基因组的时候,可能分成多个片段比对到基因组不同位置,通过断点检测拷贝数变异。denovoAssembly:组装后的序列和参考基因组的差异检测拷贝数变异。目前,绝大多数检测CNV的方法基于DOC开发的,利用每个比对位置的readcount信号去检测拷贝数变异扩增或缺失。下面本专利技术分析几个基于DOC方法的检测CNV的算法:本文档来自技高网...

【技术保护点】
1.一种基于单样本二代测序数据的拷贝数变异检测方法,其特征在于,所述基于单样本二代测序数据的拷贝数变异检测方法通过对数据进行预处理、分段处理、建立统计量,建立一个统计模型基于交叉模型,使变异在模型中检测出来;/n所述统计模型对数据进行处理,通过模型去计算每个数据的概率值,选取合适的显著性水平,利用假设检验方法去预测候选的CNVs。/n

【技术特征摘要】
1.一种基于单样本二代测序数据的拷贝数变异检测方法,其特征在于,所述基于单样本二代测序数据的拷贝数变异检测方法通过对数据进行预处理、分段处理、建立统计量,建立一个统计模型基于交叉模型,使变异在模型中检测出来;
所述统计模型对数据进行处理,通过模型去计算每个数据的概率值,选取合适的显著性水平,利用假设检验方法去预测候选的CNVs。


2.如权利要求1所述的基于单样本二代测序数据的拷贝数变异检测方法,其特征在于,所述基于单样本二代测序数据的拷贝数变异检测方法包括以下步骤:
第一步,对每个bin的GC含量校准,计算GC含量相等的bins的readcounts均值;对每个bin进行去噪;
第二步,把序列分为10个长度相等的segments,每个segment是互斥的;
第三步,任选一个segment的数据作为被检测数据,把其余的segments数据建立一个统计模型,通过模型计算被测数据的概率值;
第四步,选择合适的显著性水平α利用假设检验的方法,概率值小于α的bins的概率值,是一个CNV区域。


3.如权利要求2所述的基于单样本二代测序数据的拷贝数变异检测方法,其特征在于,所述第二步序列分为10个长度相等的segments,
SEG=(SEG1,SE...

【专利技术属性】
技术研发人员:刘国军袁细国
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1