【技术实现步骤摘要】
基于群体样本深度信息检测基因拷贝数变异的方法及系统
[0001]本专利技术涉及生物
,更具体而言涉及一种基于群体样本深度信息检测基因拷贝数变异的方法及系统。
技术介绍
[0002]基因拷贝数变异(CNV)检出一般基于已有的几种测序信息:1,基于序列组装信息,将组装序列和参考基因组序列比较;2,基于测序深度信息,将目标区域的测序深度与周围区域及对照人群该区域对比看是否存在差异;3,基于测序读长信息,基于双端测序(PE)读长比对结果的插入片段长度以及读长可以剪切开比对到不同位置的情况。现有技术文章《PSCC:Sensitiveand Reliable Population
‑
Scale Copy Number Variation Detection Method Basedon Low Coverage Sequencing》中提出了CNV检出方法(简称PSCC方法),该方法基于测序深度计算CNV。
[0003]然而,现有技术的方法只能检出罕见CNV,无法检出常见频率的CNV,原因在于测序深度的方 ...
【技术保护点】
【技术特征摘要】
1.一种基于群体样本深度信息检测基因拷贝数变异的方法,所述方法包括:(1)获取多个样本的测序数据;(2)对于每个样本,对于待检测区域,计算该待检测区域的平均测序深度,并计算全基因组的平均测序深度,将所述待检测区域平均深度除以所述全基因组平均深度得到该区域相对于全基因组的拷贝比值;(3)将所述多个样本的拷贝比值从小到大排序,并且从最小值开始每个值依次与后一值比较,如果前后两个值的差小于第一阈值,则将所述样本合并为一组,所有样本进行分组,优选地,所述第一阈值小于0.15,更优选小于0.12,最优选小于0.1;(4)对于每个分组,根据其拷贝比值与拷贝数参考比值的距离确定最近的拷贝数参考比值,确定为每个分组的拷贝数。2.根据权利要求1所述的方法,在(3)中,去除样本数目小于第二阈值的分组,以及样本数目大于第二阈值、但分布不符合正态分布的分组,优选地,所述第二阈值大于25,优选大于30。3.根据权利要求1或2所述的方法,在(2)中,该待检测区域的平均测序深度经过GC矫正。4.根据权利要求1
‑
3任一项所述的方法,在(4)中,所述拷贝数参考比值为一组从0开始的等差数列,等差数为1/N,N为物种倍体数值,优选地,所述样本来自2倍体物种,所述离散数从0开始、以0.5进阶,例如所述拷贝数参考比值包括0、0.5、1、1.5、2。5.根据权利要求1
‑
4任一项所述的方法,在(4)中,根据分组的拷贝比值的平均值与拷贝数参考比值的距离确定每个分组所属的拷贝数,优选地,所述确定每个分组所属的拷贝数的公式为:拷贝数=N*距离最近的拷贝数参考比值,N为物种倍体。6.一种基于群体样本深度信息检测基...
【专利技术属性】
技术研发人员:张通达,王琳,尹珍珍,杨颖,李建标,郭健,金鑫,
申请(专利权)人:深圳华大生命科学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。