【技术实现步骤摘要】
一种基于二代测序的单样本拷贝数变异检测方法
[0001]本专利技术涉及二代测序技术测序领域,特别是指一种基于二代测序的单样本拷贝数变异检测。
技术介绍
[0002]人类基因组上广泛存在着多种遗传变异形式与DNA多态性。除了DNA的点突变,基因组上还可以发生涉及1kb和5Mb之间的大片段DNA序列的重复或缺失。此类基因组片段的变异称为拷贝数变异(Copy number variation,CNV)。CNV是产生个体间遗传差异和人类遗传多样性的一个重要来源,是人类基因组中的一种结构变异,占基因组多样性的很大一部分,并与许多复杂的人类疾病有关。对CNV这类遗传变异的研究,或将可以促进对相关人类疾病的发病机制的认识,对患者临床诊断、预后、化疗敏感性以及治疗方案的制订具有重要意义。
[0003]在多数临床检验中,CNV的检测依赖于核型分析、荧光原位杂交、单核苷酸多态性阵列方法、阵列比较基因组杂交和多重连接依赖性探针扩增(Multiplex ligation
‑
dependent probe amplifica ...
【技术保护点】
【技术特征摘要】
1.一种基于二代测序的单样本拷贝数变异检测方法,其特征在于,包括:将基于二代测序技术的多类CNV阴性样本测序数据合并,并进行预处理,得到CNV阴性参考集;所述多类CNV阴性样本测序数据包括但不限于:不同检测平台、批次、试剂类型和不同癌种;采用已标记CNV的测序样本,训练隐马尔可夫模型,得到训练好的隐马尔可夫模型,通过训练好的隐马尔可夫模型,预测待测样本每个探针的CNV状态,并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列,得到待测样本的比对样本;从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集,得到最优参考子集,统计待测样本每个探针经最优参考子集归一化的数据特征;利用训练好的隐马尔可夫模型对待测样本经最优参考子集归一化的数据特征进行预测,再次将探针标记为Negative、Gain和Loss,基于数据特征合并得到全CNV区域;将得到的全CNV区域进行过滤得到真实CNV区域。2.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法,其特征在于,将基于二代测序技术的多类CNV阴性样本测序数据合并,并进行预处理,所述预处理具体包括:统计参考集中每个样本在探针i的总reads数,记为探针的测序深度D
i
;对参考集中每个样本的所有探针i的测序深度D
i
进行样本内归一化统计出该探针的数据特征F
i
;所述样本内归一化是计算该样本所有探针的测序深度D
i
的均值或是中位值MS
i
,即FS
i
=D
i
/MS
i
;对参考集样本利用统计学方法,基于样本的每个探针的数据特征FS
i
进行分组质控,去掉含空值、样本内探针的数据特征波动超过阈值或整体特征超过组内其他样本偏离阈值的样本;得到CNV阴性参考集。3.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法,其特征在于,通过训练好的隐马尔可夫模型,预测待测样本每个探针的CNV状态,并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列,得到待测样本的比对样本,具体包括:设定阈值a,统计该组被预测为某一种阳性CNV类型的探针数x,若x>a,则认为该组探针包含该种CNV类型;由此,得到该组探针阳性CNV类型数:0表示该组探针全为Negative,1表示该组阳性探针为Gain或者Loss,2表示该组阳性探针同时包含Gain和Loss;若该组CNV类型数为0,则将该组探针对应的基因外显子区域标记为Negative;若该组CNV类型数为1,根据所包含的CNV类型及设定的阈值,将该组探针对应的基因外显子区域标记为Gain或者Loss;所述阈值为针对Gain和Loss类型分别设定的过滤阈值,若该组CNV类型数为2,则将该组探针对应的基因外显子区域标记为Conflict;根据设定的阈值,预测得到每个基因相应外显子的CNV状态,若同一基因有连续多个外显子都被标记为同一种CNV类型,则将连...
【专利技术属性】
技术研发人员:林程宏,陈少红,潘心怡,金保雷,张林华,李旭超,阮力,郑立谋,罗捷敏,
申请(专利权)人:厦门艾德生物医药科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。