【技术实现步骤摘要】
一种用于检测同源污染的模型构建方法与装置
[0001]本专利技术涉及高通量基因组数据同源污染检测领域,具体涉及一种用于检测同源污染的模型构建方法与装置。
技术介绍
[0002]人类基因组中蕴含着非常多的信息,这些信息对于人类的正常生长发育、肿瘤或遗传病诊断、致病机理、药物研究等方面具有非常重要的意义,尤其是对于肿瘤或遗传病相关基因的鉴定及治疗指导,与人类的健康息息相关。准确的基因组测序数据分析,使我们能够对各种不同的疾病做到提前预防、准确治疗和有效预后。
[0003]基因组测序技术发展至今已非常成熟,新技术不断开发,而旧技术也不断升级愈发完善。然而,在测序技术快速发展的现在,仍然存在着难以完全消除的严重问题,例如数据污染。污染可能来源于多个方面,包括样品污染、实验污染、环境污染或测序污染等。虽然这些污染发生概率较低,但仍存在发生的可能,且一旦发生将会导致严重的后果。众所周知,数据分析结果的准确性对于后续疾病的诊断至关重要,而结果的准确性又依赖于数据的质量,数据如果发生污染必然导致最终结果的可靠性,单纯依靠实验室的严格 ...
【技术保护点】
【技术特征摘要】
1.一种用于检测同源污染的模型构建方法,其特征在于,包括一次突变分析步骤,包括获取样本的测序数据的胚系杂合型SNP位点,计算对应的突变率,绘制突变率分布图,筛选得到无污染数据;污染数据制作步骤,包括从不同的样本中随机抽取所述无污染数据,按不同的比例混合,获得至少一种已知污染率的数据;二次突变分析步骤,包括对所述已知污染率的数据进行突变分析,获得原始SNP结果;过滤步骤,包括对数据库中的SNP位点进行过滤,获得突变频率小于预设阈值的SNP位点,即人群低频SNP位点;模型构建步骤,包括根据所述过滤步骤获得的人群低频SNP位点,对已知污染率的数据原始SNP结果进行过滤,保留人群低频SNP位点,然后计算突变率,并计算各突变率的占比,将所有已知污染率的数据转换后的突变率占比结果合并,获得突变率模型。2.如权利要求1所述的模型构建方法,其特征在于,一次突变分析步骤中,所述无污染数据是指胚系杂合型SNP位点突变率符合正态分布的数据集;优选地,一次突变分析步骤中,所述胚系杂合型SNP位点的测序深度≥10
×
;优选地,污染数据制作步骤中,已知污染率的数据的污染率为1~50%;优选地,模型构建步骤中,将所有已知污染率的数据的突变率转换成等长序列,计算得到不同突变率的数据占比;优选地,过滤步骤中,所述数据库包括GnomAD数据库。3.如权利要求1~2任意一项所述的模型构建方法构建得到的模型。4.一种检测同源污染的方法,其特征在于,包括:突变分析步骤,包括对待测样本的测序数据进行突变分析,获得原始SNP结果;过滤步骤,包括对数据库中的SNP位点进行过滤,保留人群低频SNP位点;预测步骤,包括根据突变分析步骤获得的待测样本的测序数据的原始SNP结果、过滤步骤获得的所述人群低频SNP位点以及权利要求1~2任意一项所述的模型构建方法构建得到的突变率模型,预测得到待测样本的污染率。5.如权利要求4所述的方法,其特征在于,过滤步骤中,所述数据库包括GnomAD数据库;优选地,预测步骤所使用的算法包括曼哈顿距离算法;优选地,预测步骤中,在突变率模型中,对待测样本的测序数据的突变率进行循环计算,按曼哈顿距离从大到小排序,根据距离排位靠后的N个曼哈顿距离结果对应的污染率,计算中位数,即为污染率。6.一种预测污染源的方法,其特征在于,包括:过滤步骤,包括根据权利要求4~5任意一项所述的方法预测得到的污染率,对待测样本测序数据中的SNP进行过滤,保留突变率小于污染率的SNP,作为由污染而引入的SNP位点,即为过滤后的SNP位点;污染源预测步骤,包括对所述过滤后的SNP位点与所有可能的污染源原始SNP进行统计,计算一致的SNP的个数,当在所有可能的污染源中的一致SNP个数均小于预设数量时,判定为无法预测污染来源;当有任意一个可能的污染来源样本中一致SNP个数大于或等于预设数量...
【专利技术属性】
技术研发人员:林泽腾,罗梓文,王长希,杨凝眉,王晶东,
申请(专利权)人:深圳吉因加信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。