【技术实现步骤摘要】
用于检测拷贝数变异的方法、设备和介质
[0001]本专利技术总体上涉及生物信息处理,并且具体地,涉及用于检测拷贝数变异的方法、计算设备和计算机存储介质。
技术介绍
[0002]随着测序成本快速下降,测序技术逐渐从实验室走向了临床。例如,低深度全基因组测序技术可以作为一线产前诊断技术,对可能存在胎儿染色体异常的孕妇进行产前诊断。在实践中,低深度全基因组测序技术往往需要搭配优质地拷贝数变异(CNV)鉴定算法,才能更好地服务于临床。拷贝数变异(copy number variation,CNV)是指染色体上大于1 kb的DNA片段的增加或者减少,主要表现为亚显微水平的缺失和重复。 应当理解,由于CNV的种类、片段大小等千差万别,且观测测序数据可能受到多方因素(例如,基因组GC含量、重复区域等因素)影响,进而导致算法处理某些特殊的CNV片段不能达到理想的效果。因此,一套能够高准确地同时鉴定各自不同类型的CNV(例如,能够准确鉴定长短片段重复/缺失/嵌合、染色体重复/缺失/嵌合、高GC区域CNV等)的算法是至关重要的。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种用于检测拷贝数变异的方法,其特征在于,包括:基于待测样本的测序数据与参考基因组序列的比对结果数据,计算每一条读长在参考基因组中的位置;将基因组按照预定尺寸的窗口进行划分,以便统计每一个窗口内的唯一比对数;针对每一个窗口内的唯一比对数进行预处理;基于经由预处理的唯一比对数,分别针对每条染色体上的可能添加的断点,进行第一类型片段拟合,以便确定所划分的第一类型片段和关于第一类型片段的断点集合;以及针对所划分的第一类型片段,计算每个窗口的重复表征数据和缺失表征数据,以便确定关于重复第二类型片段和缺失第二类型片段的断点集合,以用于确定拷贝数变异,第一类型片段的尺寸大于预定阈值。2.根据权利要求1所述的方法,其特征在于,确定关于重复第二类型片段和缺失第二类型片段的断点集合,以用于确定拷贝数变异包括:针对所划分的第一类型片段,将每个窗口的重复表征数据进行累加,以生成连续窗口的重复表征数据累计值;确定连续窗口的重复表征数据累计值是否大于0;响应于确定连续窗口的重复表征数据累计值大于0,在连续窗口的重复表征数据累计值上继续累加下一窗口的重复表征数据,直至累加之后的连续窗口的重复表征数据累计值大于重复阈值;以及将重复表征数据累计值大于重复阈值时的连续窗口所在片段确定为重复第二类型片段。3.根据权利要求2所述的方法,其特征在于,确定关于重复第二类型片段和缺失第二类型片段的断点集合,以用于确定拷贝数变异包括:针对所划分的第一类型片段,将每个窗口的缺失数据表征数据分别进行累加,以生成连续窗口的缺失表征数据累计值;确定连续窗口的缺失表征数据累计值是否大于0;响应于确定连续窗口的缺失表征数据累计值大于0,在连续窗口的缺失表征数据累计值上继续累加下一窗口的缺失表征数据,直至累加之后的连续窗口的缺失表征数据累计值大于缺失阈值;以及将缺失表征数据累计值大于缺失阈值时的连续窗口所在片段确定为缺失第二类型片段。4.根据权利要求3所述的方法,其特征在于,确定关于重复第二类型片段和缺失第二类型片段的断点集合,以用于确定拷贝数变异包括:基于所确定的重复第二类型片段,确定关于重复第二类型片段的断点集合;基于所确定的缺失第二类型片段,确定关于缺失第二类型片段的断点集合;针对关于重复第二类型片段的断点集合和关于缺失第二类型片段的断点集合进行去重,以便基于去重后的断点集合确定拷贝数变异。5.根据权利要求1所述的方法,其特征在于,确定所划分的第一类型片段和关于第一类型片段的断点集合包括:将染色体上所有窗口作为一个整体片段,设置断点集合为空;
在断点集合的基础上,遍历所有其他可能添加断点的位置,以便依次构建临时断点集合;分别基于断点集合和临时断点集合将染色体分为多个片段,以便计算每个片段的平均拷贝数;针对断点集合和临时断点集合,分别计算每个窗口的拷贝数、每个窗口的拷贝数到所在片段的平均拷贝数的距离,以便将所计算的距离的平均值作为误差;确定针对断点集合的初始误差和临时断点集合的最小误差,以便确定初始误差与最小误差之间的差值是否小于第一类型片段拟合距离阈值;响应于确定初始误差与最小误差之间的差值小于第一类型片段拟合距离阈值,以断点集合进行片段的划分;以及响应于确定初始误差与最小误差之间的差值大于或者等于第一类型片段拟合距离阈值,以与最小误差对应的临时断点集合替换断点集合,以便在替换后的断点集合上依次构建临时断点集合。6.根据权利要求1所述的方法,其特征在于,针对每一个窗口内的唯一比对数进行预处理包括:针对每一个窗口内的唯一比对数进行归一化处理;基于归一化后的每一个窗口内的唯一比对数,计算关于待测样本的Y染色体唯一比对数的占比,以便确定关于待测样本的所属性别;分别构建常染色体的阴性参考集和与所确定的性别相对应的性染色体的阴性参考集;分别对每个样本上所有的窗口进行GC矫正;以及基于矫正后的每个窗口的唯一比对数和所构建的阴性参考集,确定拷贝数的观测值。7.根据权利要求6所述的方法,其特征在于,针对每一个窗口内的唯一比对数进行归一化处理包括:基于单条染色体最大窗口数目、样本数量、染色体数目,确定归一化比例;基于归一化比例和每一个窗口内的唯一比对数,计算每一个窗口内的归一化后的唯一比对数;确定当前窗口内的归一化后的唯一比对数是否小于唯一比对数平均值的预定比例;以及响应于确定当前窗口内的归一化后的唯一比对...
【专利技术属性】
技术研发人员:钟韵山,张钰,
申请(专利权)人:北京贝瑞和康生物技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。