一种癌症原发灶溯源方法、装置、系统及存储介质制造方法及图纸

技术编号:36932570 阅读:15 留言:0更新日期:2023-03-22 18:55
本发明专利技术提供了一种癌症原发灶溯源方法、装置、系统及存储介质,涉及癌症溯源技术领域。所述癌症原发灶溯源方法包括:获取样本组织数据,通过甲基化芯片对每个癌症样本赋予原发灶标签;确定候选CpG位点;构建癌症溯源分类器。本发明专利技术实现了利用DNA甲基化生物特征和机器学习方法对多癌症进行溯源的技术,具有以下特点:由于DNA分子的高稳定性,较完整地保留了癌症信息,使样本储藏及转运更方便;本发明专利技术所针对的癌症覆盖范围广,包括了一般常见肿瘤;癌症特异性CpG位点覆盖面较全;通过癌症特异性位点的分析,排除了正常组织的干扰,提升本发明专利技术分类器的精度与适用范围;高精度分类器的发明专利技术使癌症诊断流程更简单、准确和高效。准确和高效。准确和高效。

【技术实现步骤摘要】
一种癌症原发灶溯源方法、装置、系统及存储介质


[0001]本专利技术涉及癌症溯源
,更具体地说,涉及一种癌症原发灶溯源方法、装置、系统及存储介质。

技术介绍

[0002]传统的肿瘤病理诊断主要包括细胞和组织形态学检查,通常指在显微镜下,观察病变部位的细胞形态,定性确认肿瘤组织的良恶性与细胞起源,其过程一般包括组织处理、切片、染色和镜检。形态学检查具有较高准确性的特点,一直是肿瘤诊断的标准方法。然而,细胞形态学特征的局限性,使得部分肿瘤诊断不明确,无法满足临床治疗的需求,特别是低分化肿瘤;此外,具备相似细胞形态学特征的癌症之间,又存在较大的生物学特征差异。特殊染色、免疫组化等技术极大地促进了基于细胞形态的病理诊断技术的发展,使用多个单克隆抗体组合可以辅助鉴定多种癌细胞的起源。然而技术操作层面,从标本制作到镜检观察过程,既费时又费力;镜检时,辨认结果存在一定程度的主观性;且专业人才的培养时间漫长,临床有效的免疫标志物发掘也达到了瓶颈期,使得临床常用的免疫组化抗体数量仅约不到200种,临床上仍然存在大量无法准确分类或起源不明的恶性肿瘤。近年来,以高通量测序技术为基础的基因组学、表观遗传组学飞速发展与人工智能算法不断突破的时代背景下,基于组学数据,特别是甲基化生物特征的人工智能分子分类器技术,有潜力发展成为下一代肿瘤病理辅助诊断技术。
[0003]从正常细胞到肿瘤进展的过程中,伴随着生物大分子的改变,包括mRNA表达和表观遗传修饰等。美国国家综合癌症网指南(NCCN,National Comprehensive Cancer Network)指出分子谱(Too,Tissue

of

origin)在癌症筛查方面的重要性。迄今,2000基因表达芯片检测方法已获得了FDA批准,其预测与临床诊断结果的整体一致率达到88.5%。在这种组学发展背景下,Shumei Kato等人认为系统性分子谱检测方法将会成为未来癌症治疗不可或缺的一部分(Kato et al.2021)。有临床研究显示部分原发灶不明癌症CUP(CUP,cancer of unknown primary site)通过检测确定原发器官并指导特异性用药可以得到明显的生存改善,比如结直肠癌、乳腺癌、卵巢癌、肾癌、前列腺癌、膀胱癌、非小细胞肺癌等。
[0004]目前,国内用于鉴定癌症细胞起源的分子检测方法主要集中在RNA表达层面(杨家亮et al.2019;罗奇斌et al.2021),却鲜有开发和使用DNA甲基化特征辅助诊断肿瘤良恶性与肿瘤细胞起源的技术。

技术实现思路

[0005]有鉴于此,针对于上述技术问题,本专利技术提供一种癌症原发灶溯源方法,包括:
[0006]获取样本组织数据,通过甲基化数据对所述样本组织数据中的每个癌症样本赋予对应的原发灶标签;
[0007]根据带有所述原发灶标签的所述样本组织数据确定候选CpG位点;
[0008]基于带有所述原发灶标签的所述样本组织数据,以及所述候选CpG位点,构建癌症
溯源分类器,以便于通过所述癌症溯源分类器对癌症样本进行溯源;
[0009]优选地,所述原发灶标签包括胸腺瘤、生殖细胞肿瘤、浆液性囊腺癌、胰腺癌、肉瘤、子宫内膜癌、肝癌、肺腺癌、前列腺癌、B细胞淋巴瘤、恶性黑色素瘤、胶质瘤、甲状腺癌、神经肿瘤、消化道肿瘤、乳腺癌、肾癌、其他鳞癌、宫颈鳞癌。
[0010]优选地,所述根据带有所述原发灶标签的所述样本组织数据确定候选CpG位点,包括:
[0011]根据所述样本组织数据确定显著差异性CpG位点;
[0012]计算所述显著差异性CpG位点的绝对中位差,并根据所述绝对中位差确定所述候选CpG位点。
[0013]优选地,所述根据所述样本组织数据确定显著差异性CpG位点,包括:
[0014]通过ChAMP软件,对所述样本组织数据进行分析,得出分析结果;其中,所述分析结果为所述样本组织数据中的正常组织或癌旁组织分别与对应癌症组织的所述显著差异性CpG位点;
[0015]所述分析结果中的所述显著差异性CpG位点的显著性P<0.05;
[0016]所述分析结果中的所述显著差异性CpG位点的差异倍数所述分析结果中的所述显著差异性CpG位点的差异倍数
[0017]优选地,所述计算所述显著差异性CpG位点的绝对中位差,并根据所述绝对中位差确定所述候选CpG位点,包括:
[0018]计算所述显著差异性CpG位点在各癌症中的中位数;
[0019]根据所述中位数,计算所述显著差异性CpG位点在各癌症中的所述绝对中位差;
[0020]优选地,所述计算所述显著差异性CpG位点在各癌症中的所述绝对中位差中,所述绝对中位差的计算公式为:
[0021]MAD=1.4826
×
median(|X
i

X
m
|);
[0022]其中,MAD为所述绝对中位差;i为所述样本组织数据中的第i个样本;X
m
为所述中位数;
[0023]优选地,所述绝对中位差MAD≥0.45。
[0024]优选地,所述基于带有所述原发灶标签的所述样本组织数据,以及所述候选CpG位点,构建癌症溯源分类器,包括:
[0025]建立癌症数据集;所述癌症数据集包括训练集和验证集;所述癌症数据集中,所述训练集和所述验证集的比例为7:3;
[0026]在所述训练集上训练随机森林模型,得到训练好的所述癌症溯源分类器;
[0027]将行为所述样本组织数据中的样本,列为探针的所述验证集中的数据输入所述癌症溯源分类器,得到每个样本患各癌症的概率;
[0028]针对所述概率,与每个样本的所述原发灶标签,计算总体准确率、召回率和AUC值,并通过所述总体准确率、所述召回率和所述AUC值作为评估所述癌症溯源分类器的评估指标;
[0029]若所述癌症溯源分类器的所述总体准确率、所述召回率和所述AUC值均达到对应的预设阈值,则判定所述癌症溯源分类器通过评估,即得到评估后的所述癌症溯源分类器。
[0030]优选地,所述在所述训练集上训练随机森林模型,得到训练好的所述癌症溯源分类器,包括:
[0031]在所述随机森林模型中,建立目标数量的决策树;
[0032]对所述训练集中的数据通过目标数量的所述决策树进行分类,获得分类结果;所述分类结果为所述训练集中每个样本对各癌症的占比分数,并以所述占比分数作为每个样本患各癌症的概率;
[0033]以每次分类作为所述随机森林模型的训练,即得到训练好的所述癌症溯源分类器。
[0034]优选地,所述基于带有所述原发灶标签的所述样本组织数据,以及所述候选CpG位点,构建癌症溯源分类器之后,还包括:
[0035]利用10倍交叉验证和目标比例逐步剔除特征法评估所述随机森林模型,得到所述随机森林模型对应的非冗余特征数量L;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种癌症原发灶溯源方法,其特征在于,包括:获取样本组织数据,通过甲基化数据对所述样本组织数据中的每个癌症样本赋予对应的原发灶标签;根据带有所述原发灶标签的所述样本组织数据确定候选CpG位点;基于带有所述原发灶标签的所述样本组织数据,以及所述候选CpG位点,构建癌症溯源分类器,以便于通过所述癌症溯源分类器对癌症样本进行溯源;优选地,所述原发灶标签包括胸腺瘤、生殖细胞肿瘤、浆液性囊腺癌、胰腺癌、肉瘤、子宫内膜癌、肝癌、肺腺癌、前列腺癌、B细胞淋巴瘤、恶性黑色素瘤、胶质瘤、甲状腺癌、神经肿瘤、消化道肿瘤、乳腺癌、肾癌、其他鳞癌、宫颈鳞癌。2.如权利要求1所述癌症原发灶溯源方法,其特征在于,所述根据带有所述原发灶标签的所述样本组织数据确定候选CpG位点,包括:根据所述样本组织数据确定显著差异性CpG位点;计算所述显著差异性CpG位点的绝对中位差,并根据所述绝对中位差确定所述候选CpG位点。3.如权利要求2所述癌症原发灶溯源方法,其特征在于,所述根据所述样本组织数据确定显著差异性CpG位点,包括:通过ChAMP软件,对所述样本组织数据进行分析,得出分析结果;其中,所述分析结果为,所述样本组织数据中的正常组织或癌旁组织分别与对应癌症组织的所述显著差异性CpG位点;所述分析结果中的所述显著差异性CpG位点的显著性P<0.05;所述分析结果中的所述显著差异性CpG位点的差异倍数所述分析结果中的所述显著差异性CpG位点的差异倍数4.如权利要求2所述癌症原发灶溯源方法,其特征在于,所述计算所述显著差异性CpG位点的绝对中位差,并根据所述绝对中位差确定所述候选CpG位点,包括:计算所述显著差异性CpG位点在各癌症中的中位数;根据所述中位数,计算所述显著差异性CpG位点在各癌症中的所述绝对中位差;优选地,所述计算所述显著差异性CpG位点在各癌症中的所述绝对中位差中,所述绝对中位差的计算公式为:MAD=1.4826
×
median(|X
i

X
m
|);其中,MAD为所述绝对中位差;i为所述样本组织数据中的第i个样本;X
m
为所述中位数;优选地,所述绝对中位差MAD≥0.45。5.如权利要求1所述癌症原发灶溯源方法,其特征在于,所述基于带有所述原发灶标签的所述样本组织数据,以及所述候选CpG位点,构建癌症溯源分类器,包括:建立癌症数据集;所述癌症数据集包括训练集和验证集;所述癌症数据集中,所述训练集和所述验证集的比例为7:3;在所述训练集上训练随机森林模型,得到训练好的所述癌症溯源分类器;将行为所述样本组织数据中的样本,...

【专利技术属性】
技术研发人员:相学平黄德祥
申请(专利权)人:杭州布平医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1