【技术实现步骤摘要】
一种尿沉渣基因组DNA的分类方法、装置和用途
本专利技术属于基因组学和生物信息学领域,涉及一种尿沉渣基因组DNA的分类方法、装置和用途。
技术介绍
泌尿生殖系统肿瘤是指发生在泌尿系统的肿瘤。常见的泌尿生殖系统肿瘤包括肾癌(RC)、膀胱癌(BT)、前列腺癌(PCA)等。2018年癌症统计报告显示,新增和死亡病例排名前20的常见肿瘤中泌尿生殖系统肿瘤占据3席,其中PCA更是位列前三甲。早期肿瘤患者绝大多数可以通过手术得到根治,但是一旦发生转移则病人预后生存显著降低。当前泌尿生殖系统肿瘤诊断主要依赖于组织活检,而无创诊断还不成熟,对应肿瘤检测灵敏度和特异性不高。肾细胞癌又称为肾癌,常见亚型为肾透明细胞癌,约占80-85%。肾癌主要类型包括肾透明肾细胞癌、乳头状肾细胞癌、嫌色性肾细胞癌,它们约占肾癌的95%。由于没有很好的早期诊断标记物,对于肾细胞癌而言,很多患者被确诊时已发展成晚期。目前,临床公认的用于诊断和随访BT的“金标准”是膀胱镜与尿液脱落细胞学病理检查相结合。膀胱镜检虽然可以观察整个膀胱,但对于高级别病变的原位癌,膀胱镜检查的诊断灵敏度较低(52%-68%)。且检查时器械摩擦尿道易导致患者尿路上皮损伤导致患者痛苦感强。而尿液脱落细胞学病理检查诊断灵敏度较低,尤其对于低病理分级的BT诊断灵敏度更低(4%-31%)。在早期诊断前列腺癌的过程中,前列腺特异抗体(PSA)检查被广泛应用,然而PSA变化容易受多种因素的影响使其准确度并不高,此外,在穿刺之前,依据情况选择性使用多参数parame ...
【技术保护点】
1.一种DNA分类方法,包括:/n计算目标样本的DNA甲基化单倍型区域的MHL值或β均值,和/或计算目标样本DNA的拷贝数变异数据;以及/n计算目标样本的DNA甲基化单倍型区域的MHL值或β均值与各分类标签的DNA甲基化单倍型区域的MHL值或β均值的相似度,和/或计算目标样本DNA的拷贝数变异数据与各分类标签的DNA拷贝数变异数据的相似度;/n根据所述相似度,利用分类器模型确定所述目标样本DNA所属的分类。/n
【技术特征摘要】
1.一种DNA分类方法,包括:
计算目标样本的DNA甲基化单倍型区域的MHL值或β均值,和/或计算目标样本DNA的拷贝数变异数据;以及
计算目标样本的DNA甲基化单倍型区域的MHL值或β均值与各分类标签的DNA甲基化单倍型区域的MHL值或β均值的相似度,和/或计算目标样本DNA的拷贝数变异数据与各分类标签的DNA拷贝数变异数据的相似度;
根据所述相似度,利用分类器模型确定所述目标样本DNA所属的分类。
2.根据权利要求1所述的分类方法,其中,确定所述目标样本DNA所属的分类包括:
根据所述相似度,利用随机森林模型确定:所述各分类标签的DNA甲基化单倍型区域的MHL值与人泌尿生殖系统肿瘤的相关度,和/或所述各分类标签的DNA拷贝数变异数据与人泌尿生殖系统肿瘤的相关度;
根据所述相关度,利用所述分类器模型确定所述目标样本DNA所属的分类。
3.根据权利要求2所述的分类方法,其中,
确定所述各分类标签的DNA甲基化单倍型区域的MHL值与人泌尿生殖系统肿瘤的相关度包括:根据所述相关度,对所述DNA甲基化单倍型区域的MHL值进行排序,以形成向量序列;将所述向量序列输入所述随机森林模型,确定所述DNA甲基化单倍型区域的MHL值与人泌尿生殖系统肿瘤的相关度;
和/或
确定所述各分类标签的DNA拷贝数变异数据与人泌尿生殖系统肿瘤的相关度包括:根据所述相关度,对所述DNA拷贝数变异数据进行排序,以形成向量序列;将所述向量序列输入所述随机森林模型,确定所述分类标签的DNA拷贝数变异数据与人泌尿生殖系统肿瘤的相关度。
4.根据权利要求3所述的分类方法,其中,所述人泌尿生殖系统肿瘤为选自前列腺癌、尿路上皮癌和肾癌中的任意1种、任意2种或者全部3种;
优选地,所述肾癌为透明肾细胞癌,
优选地,所述尿路上皮癌为上尿路上皮癌和/或膀胱癌,
优选地,所述前列腺癌为前列腺腺癌;
优选地,所述人泌尿生殖系统肿瘤通过对手术样本进行组织活检确诊。
5.根据权利要求3或4所述的分类方法,其中,所述随机森林模型为至少3个随机森林二元分类器,并且选自如下的I-VI组中的任意1组、任意2组、任意3组或者全部四组:
I.
正常-vs-肾癌,正常-vs-尿路上皮癌,正常-vs-前列腺癌;
II.
肾癌-vs-正常,肾癌-vs-尿路上皮癌,肾癌-vs-前列腺癌;
III.
尿路上皮癌-vs-正常,尿路上皮癌-vs-肾癌,尿路上皮癌-vs-前列腺癌;
IV.
前列腺癌-vs-正常,前列腺癌-vs-肾癌,前列腺癌-vs-尿路上皮癌。
6.根据权利要求5所述的分类方法,其中,对每个组进行投票,取得票数最高的组对应分类为最终分类,如果得票数相等,则取得票数相等的组中预测概率最高的类别为最终分类。
7.根据权利要求1至6中任一权利要求所述的分类方法,其中,所述样本为尿液样本,优选为晨尿;更优选为晨尿的尿沉渣。
8.根据权利要求1至7中任一权利要求所述的分类方法,其中,
所述目标样本中的DNA甲基化单倍型区域的MHL值、所述各分类标签的DNA甲基化单倍型区域的MHL值、所述目标样本的DNA的拷贝数变异数据以及所述各分类标签的DNA拷贝数变异数据,均由尿液样本中的DNA的测序数据计算得到;
优选地,所述尿液样本中的DNA为尿沉渣DNA;
优选地,所述测序数据为全基因组甲基化测序数据例如全基因组重亚硫酸盐测序数据;优选地,测序深度为1X-5X。
9.根据权利要求1至8中任一权利要求所述的分类方法,其中,
所述目标样本中的DNA甲基化单倍型区域与所述各分类标签的DNA甲基化单倍型区域相同;和/或
所述目标样本的DNA的拷贝数变异的区域与所述各分类标签的DNA拷贝数变异的区域相同;
优选地,所述甲基化单倍型区域与所述拷贝数变异的区域如表1-表6中的任意1个、任意2个、任意3个、任意4个、任意5个或全部6个表格所示;或者,如11和/或表12所示。
10.根据权利要求1至9中任一权利要求所述的分类方法,其中,
采用MONOD2软件计算所述目标样本中的DNA甲基化单倍型区域的MHL值以及所述各分类标签的DNA甲基化单倍型区域的MHL值,和/或采用Varbin计算所述目标样本的DNA的拷贝数变异数据以及所述各分类标签的DNA拷贝数变异数据;
优选地,采用MONOD2软件计算WGBS数据中对应于各甲基化单倍型区域的MHL值,和/或采用Varbin计算WGBS数据中对应于各拷贝数变异区域的拷贝数变异数据,其中,所述甲基化单倍型区域与所述拷贝数变异的区域如表1-表6中的任意1个、任意2个、任意3个、任意...
【专利技术属性】
技术研发人员:慈维敏,许争争,周利群,
申请(专利权)人:中国科学院北京基因组研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。