一种基于机器学习的胰腺癌诊断方法技术

技术编号:37330207 阅读:12 留言:0更新日期:2023-04-21 23:08
本发明专利技术涉及基于机器学习的胰腺癌诊断方法,具体提供一种构建胰腺癌诊断模型的方法,包括:(1)获取对象样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平,和对象的CA19

【技术实现步骤摘要】
一种基于机器学习的胰腺癌诊断方法


[0001]本专利技术属于胰腺疾病诊断领域,具体涉及基于机器学习的胰腺癌诊断方法。

技术介绍

[0002]胰腺癌(5年相对生存率为9%,对于有远处转移的患者,这一比率进一步降低到只有3%。高死亡率的一个主要原因是早期检测胰腺癌的方法仍然有限,这对于胰腺癌患者接受手术切除至关重要。目前,糖类抗原19

9(CA19

9)是辅助检测胰腺癌的最常用的临床血清生物标志物,对切除前有症状的患者可达到79

90%的敏感性和75

90%的特异性。然而,几项大型人群研究已经证明,CA19

9在无症状人群中检测胰腺癌无效,因为其阳性预测值较低,基本上排除了它用于胰腺癌的早期筛查(Kim等人,2004)。
[0003]胰腺癌的典型早期症状,包括腹部和背部疼痛、腹泻、体重减轻和黄疸,并不是特异性的,可能与其他胃肠道疾病相关。这种并发症在慢性胰腺炎的诊断中特别常见,特别是慢性胰腺炎患者长期发展为胰腺癌的风险明显更高。因此,在慢性胰腺炎患者中筛选胰腺癌患者需要准确的胰腺癌与慢性胰腺炎的鉴别诊断。然而,目前慢性胰腺炎和胰腺癌之间的鉴别诊断的准确率为65%或更低,还有很多需要改进的地方。因此需要既稳定又一致的鉴别慢性胰腺炎及胰腺癌的特异性标记物。

技术实现思路

[0004]本专利技术提供了一种对患者血浆样本的DNA甲基化进行检测,并根据目标甲基化标志物的甲基化水平数据和CA19
r/>9的检测结果构建机器学习模型诊断胰腺癌,以实现更高准确率更低成本的胰腺癌无创精准诊断的目的。
[0005]本专利技术第一方面提供一种诊断胰腺癌或构建胰腺癌诊断模型的方法,包括:
[0006](1)获取对象样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平,和对象的CA19

9水平,
[0007](2)利用数学模型使用甲基化状态或水平计算获得甲基化评分,
[0008](3)将甲基化评分与CA19

9水平合并数据矩阵,
[0009](4)基于数据矩阵构建胰腺癌诊断模型,
[0010]任选的(5)获得胰腺癌评分;根据胰腺癌评分诊断胰腺癌。
[0011]在一个或多个实施方案中,所述DNA序列选自以下一个或多个(例如至少2个)或所有基因序列,或其上游或下游20kb以内的序列:SIX3、TLX2、CILP2。优选地,所述DNA序列包含选自以下任一组的基因序列:(1)SIX3、TLX2;(2)SIX3、CILP2;(3)TLX2、CILP2;(4)SIX3、TLX2、CILP2。
[0012]在一个或多个实施方案中,所述的片段长度为1

1000bp,优选1

700bp。所述片段包含至少一个CpG二核苷酸。
[0013]在一个或多个实施方案中,所述DNA序列选自以下一个或多个(例如至少2个)或所有序列或其互补序列:SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3,或与其具有至少70%相同
性的变体,所述变体中的甲基化位点未发生突变。优选地,所述DNA序列包含选自以下任一组的序列或其互补序列:(1)SEQ ID NO:1、SEQ ID NO:2,(2)SEQ ID NO:1、SEQ ID NO:3,(3)SEQ ID NO:2、SEQ ID NO:3,(4)SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3。
[0014]在一个或多个实施方案中,步骤(1)包括检测对象的样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平。
[0015]在一个或多个实施方案中,所述方法在步骤(1)之前还包含DNA抽提和/或质检。
[0016]在一个或多个实施方案中,步骤(1)包括使用引物分子和/或探针分子检测甲基化状态或水平。
[0017]在一个或多个实施方案中,所述引物分子包含与所述DNA序列或其片段杂交的引物分子。所述引物分子能扩增出所述DNA序列或其片段。在一个或多个实施方案中,所述引物序列为甲基化特异的或非特异的。所述引物分子至少9bp。
[0018]在一个或多个实施方案中,所述探针分子包含与所述DNA序列或其片段杂交的探针分子。在一个或多个实施方案中,所述探针还含有可检测物。在一个或多个实施方案中,所述可检测物是5

端荧光报告基团和3

端标记淬灭基团。在一个或多个实施方案中,所述荧光报告基因选自Cy5、FAM和VIC。优选地,所述探针的序列包含MGB(Minor groove binder)或者LNA(Locked nucleic acid)。所述探针分子至少12bp。
[0019]在一个或多个实施方案中,所述检测包括但不限于:基于重亚硫酸盐转化的PCR、DNA测序、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱。
[0020]在一个或多个实施方案中,所述检测是DNA测序。在一个或多个实施方案中,所述DNA测序的测序深度大于或等于5M,优选至少7M,11M,13M,或15M。
[0021]在一个或多个实施方案中,所述检测是MethylTitan测序法检测。
[0022]在一个或多个实施方案中,所述样品来自哺乳动物的组织、细胞或者体液,例如胰腺组织或血液。所述哺乳动物优选为人。在一个或多个实施方案中,所述样品是细针穿刺活检物。在一个或多个实施方案中,所述样品是血浆。
[0023]在一个或多个实施方案中,所述样品包括基因组DNA或cfDNA。
[0024]在一个或多个实施方案中,所述DNA序列经转化,其中未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。所述转化使用酶促方法进行,优选脱氨酶处理,或所述转化使用非酶促方法进行,优选用亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐或其组合处理。
[0025]在一个或多个实施方案中,所述DNA序列经甲基化敏感型限制性内切酶处理。
[0026]在一个或多个实施方案中,CA19

9水平是血液或血浆CA19

9水平。
[0027]在一个或多个实施方案中,步骤(2)所述数学模型是支持向量机模型。
[0028]在一个或多个实施方案中,步骤(4)所述胰腺癌诊断模型是逻辑回归模型。
[0029]在一个或多个实施方案中,步骤(5)包括:根据胰腺癌评分是否达到阈值来诊断胰腺癌。
[0030]在一个或多个实施方案中,所述诊断胰腺癌是鉴别胰腺癌和胰腺炎。
[0031]本专利技术第二方面还提供一种诊断胰腺癌方法,包括:
[0032](1)获取对象样品中DNA序列或其片段的甲基化水平或本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种构建胰腺癌诊断模型的方法,包括:(1)获取对象样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平,和对象的CA19

9水平,(2)利用数学模型使用甲基化状态或水平计算获得甲基化评分,(3)将甲基化评分与CA19

9水平合并数据矩阵,(4)基于数据矩阵构建胰腺癌诊断模型。2.如权利要求1所述的方法,其特征在于,所述方法还包括选自以下的一项或多项特征:所述DNA序列选自以下一个或多个基因序列,或其上游或下游20kb以内的序列:SIX3、TLX2、CILP2,所述片段包含至少一个CpG二核苷酸,步骤(1)包括检测对象的样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平,所述样品来自哺乳动物的组织、细胞或者体液,例如胰腺组织或血液,CA19

9水平是血液或血浆CA19

9水平,步骤(2)所述数学模型是支持向量机模型,步骤(4)所述胰腺癌诊断模型是逻辑回归模型。3.一种构建胰腺癌诊断模型的方法,包括:(1)获取对象基因组DNA区段的甲基化单倍型比值和测序深度,任选的(2)对所述甲基化单倍型比值和测序深度数据进行预处理,(3)进行交叉验证增量特征筛选,获得特征甲基化区段,(4)对特征甲基化区段的甲基化检测结果构建数学模型,得到甲基化评分,(5)根据甲基化评分与对应的CA19

9水平构建胰腺癌诊断模型。4.如权利要求3所述的方法,其特征在于,所述方法还包括选自以下的一项或多项特征:步骤(1)包括:1.1)对对象样品进行DNA甲基化检测,获得测序读段(read)数据,1.2)任选对测序数据进行预处理,例如去接头和/或拼接处理,1.3)将测序数据比对到参考基因组,获得甲基化区段的位置和测序深度信息,1.4)根据下式计算区段的甲基化单倍型比值(MHF):其中i表示目标甲基化区域,h表示目标甲基化单倍型,N
i
表示位于目标甲基化区域的read数目,N
i,h
表示包含目标甲基化单倍型的reads数目;步骤(2)包括:(2.1)将甲基化单倍型比值状态和测序深度信息数据合并成数据矩阵;优选地,步骤(2)还包括:2.2)在数据矩阵中去除缺失值比例高于5

15%(例如10%)的位点,和/或2.3)对每个深度小于300(例如小于200)的数据点当作缺失值处理,并对缺失值进行填充(例如使用K最近邻方法),步骤(3)包括:使用数学模型在训练数据中进行交叉验证增量特征筛选,其中使数学模
型的AUC增加的DNA区段为特征甲基化区段,步骤(5)包括:将甲基化评分与CA19

9水平合并数据矩阵,基于数据矩阵构建胰腺癌诊断模型。5.如权利要求3或4所述的方法,其特征在于,所述方法还包括选自以下的一项或多项特征:步骤(4)中的数学模型是向量机(SVM)模型,步骤(4)中的甲基化检测结果是甲基化单倍型比值和测序深度的合并矩阵,步骤(5)中的胰腺癌诊断模型是逻辑回归模型。6.检测DNA甲基化的试剂或装置和检测CA19

9水平的试剂或装置在制备诊断胰腺癌的试剂盒中的用途,所述检测DNA甲基化的试剂或装置用于确定对象的样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平。7.如权利要求6所述的用途,其特征在于,所述用途还包括选自以下的一项或多项特征:所述DNA序列选自以下一个或多个基因序列,或其上游或下游20kb以内的序列:SIX3、TLX2、CILP2,所述片段包含至少一个CpG二核苷酸,所述检测DN...

【专利技术属性】
技术研发人员:苏志熙马成城谢可辉刘蕊
申请(专利权)人:江苏鹍远生物技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1