一种基于相对质量孤立森林的拷贝数变异检测方法及系统技术方案

技术编号:41493904 阅读:41 留言:0更新日期:2024-05-30 14:39
本发明专利技术属于高通量测序技术领域,尤其涉及一种基于相对质量孤立森林的拷贝数变异检测方法及系统,包括测序数据预处理及RD信号获取、建立基于环形二元分割变化点检测的分段重组方法进行降噪处理、构建局部均值法处理局部噪声、构建基于相对质量得分的孤立森林算法并获取异常分数、对异常分数建立高斯分布,通过显著性水平确定拷贝数变异并指定变异类型和算法的性能评估,算法的性能评估采用判断算法在召回率、精确率及F1‑score等指标下的拷贝数变异检测能力。本发明专利技术解决了在低测序覆盖度、低肿瘤纯度场景下受测序噪声及拷贝数变异自身分布的不均衡性导致的拷贝数变异检测性能不高的问题。

【技术实现步骤摘要】

本专利技术属于高通量测序,尤其涉及一种基于相对质量孤立森林的拷贝数变异检测方法及系统


技术介绍

1、拷贝数变异(copy number variation,cnv)是一种在人类基因组中普遍存在的基因组结构变异,表现为基因组片段的增加或减少。许多研究表明拷贝数变异与癌症之间存在密切关联。在癌症诊断方面,检测拷贝数变异可以帮助医疗人员鉴别不同类型的癌症,比如her2扩增型乳腺癌,egfr扩增型肺癌等,从而指导医生为患者制定针对性的治疗方案。在癌症治疗方面,针对不同拷贝数变异引起的基因过度表达,可以选择相应的靶向治疗,如针对her2扩增型乳腺癌可以使用her2抑制剂,针对egfr肺癌可以选择egfr抑制剂等。在癌症的预后评估方面,检测拷贝数变异可以帮助医生判断患者的康复情况。此外,拷贝数变异还可为肿瘤免疫治疗、肿瘤的分子分型提供指导,在化疗之前预测患者对化疗的敏感情况。因此,准确检测癌症基因组序列中的拷贝数变异对于研究癌症的诊断、治疗和预后评估等至关重要。

2、高通量测序技术因其具有高通量、高灵敏度、高分辨率、快速和成本低的优点,已经成为拷贝数变异本文档来自技高网...

【技术保护点】

1.一种基于相对质量孤立森林的拷贝数变异检测方法,其特征在于,包括:

2.根据权利要求1所述的拷贝数变异检测方法,其特征在于,所述步骤d中的异常得分计算方法涉及设计相对质量为直接父节点与实例落在叶节点中的质量之比的局部质量计算,并将实例在所有孤立树上的平均相对质量作为该实例的异常得分,以实现对拷贝数变异检测中局部异常的高效识别和精确定位;所述步骤e中的CNV类型判定基于显著性p值,对连续发生CNV的区域进行合并,并通过RD信号强度区分拷贝数扩增与缺失,为拷贝数变异提供一种准确、高效的检测方法。

3.如权利要求1所述的基于相对质量孤立森林的拷贝数变异检测方法,其特征...

【技术特征摘要】

1.一种基于相对质量孤立森林的拷贝数变异检测方法,其特征在于,包括:

2.根据权利要求1所述的拷贝数变异检测方法,其特征在于,所述步骤d中的异常得分计算方法涉及设计相对质量为直接父节点与实例落在叶节点中的质量之比的局部质量计算,并将实例在所有孤立树上的平均相对质量作为该实例的异常得分,以实现对拷贝数变异检测中局部异常的高效识别和精确定位;所述步骤e中的cnv类型判定基于显著性p值,对连续发生cnv的区域进行合并,并通过rd信号强度区分拷贝数扩增与缺失,为拷贝数变异提供一种准确、高效的检测方法。

3.如权利要求1所述的基于相对质量孤立森林的拷贝数变异检测方法,其特征在于,步骤b中rd信号压缩与降噪方法:本发明设计一种基于滑动窗口的方法对rd信号进行压缩与降噪处理:设x1,x2,...,xn是基因序列上对应的rd信号值,n为序列长度,然后以位置i为圆心,以滑动窗口大小u为半径,滑动步长v整合压缩数据,压缩降噪后的第i个位置对应的rd值yi为:

4.如权利要求1所述的基于相对质量孤立森林的拷贝数变异检测方法,其特征在于,测序数据预处理及rd信号获取时使用的滑动窗口大小为500bp;

5.如权利要求1所述的基于相对质量孤立森林的拷贝数变异检测方法,其特征在于,在对rd信号进行压缩与降噪处理方法时,使用滑动窗口,以基因组序列n为基准,当前位置为圆心,...

【专利技术属性】
技术研发人员:李垚垚陈正祎袁细国安旭东
申请(专利权)人:西安电子科技大学杭州研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1