一种基于唯一分子标签聚类的低频DNA突变识别方法及装置制造方法及图纸

技术编号:42784807 阅读:21 留言:0更新日期:2024-09-21 00:44
本发明专利技术公开了一种基于唯一分子标签聚类的低频DNA突变识别方法及装置,旨在提升高通量测序(next‑generation sequencing,NGS)数据中低频DNA突变识别的准确性和灵敏度。所述方法包括以下步骤:(1)预处理测序原始数据,提取UMI序列并建立其与测序读段的映射关系;(2)采用UMAP算法对UMI序列进行降维,采用HDBSCAN算法对UMI数据进行聚类;(3)对同一读段簇内的读段进行多序列比对后,基于熵值与互信息生成一致性序列;(4)将一致性序列与参考基因组比对后进行突变识别。本发明专利技术的方法和装置能有效提高低频DNA突变识别的准确度和效率,拟为癌症早筛早诊、产前诊断、法医检测等领域的遗传变异分析提供一种新策略。

【技术实现步骤摘要】

本专利技术涉及生物信息学和基因组学领域,特别是利用高通量测序数据准确识别低频率遗传变异的方法。


技术介绍

1、低频dna突变(频率<1%)检测在肿瘤早期检测、胎儿产前诊断、法医学和古生物学研究等生物医学领域具有重要的研究意义与应用价值。例如,循环肿瘤dna检测(circulating tumor dna,ctdna)可作为肿瘤早期诊断及预后的标志物。ctdna来源于坏死或凋亡的肿瘤细胞,携带有区别于正常血浆游离dna的突变信息(包括点突变,缺失,插入,重排,拷贝数异常,甲基化等),因此,通过检测血液中ctdna的突变,可以方便的对患者进行早期筛查、诊断并监测癌症发展、变化。然而,ctdna含量仅只占血浆总游离dna的1%以下,特别是在癌症早期患者中含量更低,约为0.01%。因此,从ctdna中准确检测肿瘤相关的低频dna突变信息仍然是一项重要挑战。

2、高通量测序技术(next-generation sequencing,ngs)是常用的dna突变检测技术,然而ngs的高错误率(0.1%-1%)导致其难以准确辨别测序错误与真实突变。因此,本文档来自技高网...

【技术保护点】

1.一种基于唯一分子标签聚类的低频DNA突变识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于唯一分子标签聚类的低频DNA突变识别方法,其特征在于:所述预处理包括去除原始测序数据中包含的接头序列、低可信序列、重复序列。

3.根据权利要求1所述一种基于唯一分子标签聚类的低频DNA突变识别方法,其特征在于:所述采用UMAP算法进行降维处理包括使用k-mer频率编码对UMI序列数据进行标准化处理。

4.根据权利要求1或3所述一种基于唯一分子标签聚类的低频DNA突变识别方法,其特征在于:所述HDBSCAN算法对降维后的UMI序列进行聚类包括以...

【技术特征摘要】

1.一种基于唯一分子标签聚类的低频dna突变识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于唯一分子标签聚类的低频dna突变识别方法,其特征在于:所述预处理包括去除原始测序数据中包含的接头序列、低可信序列、重复序列。

3.根据权利要求1所述一种基于唯一分子标签聚类的低频dna突变识别方法,其特征在于:所述采用umap算法进行降维处理包括使用k-mer频率编码对umi序列数据进行标准化处理。

4.根据权利要求1或3所述一种基于唯一分子标签聚类的低频dna突变识别方法,其特征在于:所述hdbscan算法对降维后的umi序列进行聚类包括以下步骤:

5.根据权利要求1所述一种基于唯一分子标签聚类的低频dna突变识别方法,其特征在于:所述生成ssc...

【专利技术属性】
技术研发人员:浦丹宋东阳舒坤贤代宝峰王紫琪巫春霖邱鑫煜
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1