System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种泛癌诊断模型构建方法及miRNA对标记物技术_技高网

一种泛癌诊断模型构建方法及miRNA对标记物技术

技术编号:40108421 阅读:10 留言:0更新日期:2024-01-23 18:47
本发明专利技术涉及肿瘤生物标记物技术领域,尤其是一种泛癌诊断模型构建方法及miRNA对标记物,其中模型构建方法包括以下步骤:1)利用公共数据库Gene Expression Omnibus,收集10组基于血清样本的miRNA表达谱;2)在同一例样本miRNA表达谱中进行筛选并组成miRNA对;3)将原始数据随机分为训练集、验证集、内部测试集与外部测试集;在训练集中筛选具有分类价值的miRNA对,保留了31个特征系数不为0的miRNA对用于模型构建,选择基于RandomForest算法构建的最优模型,确定模型的最优参数;并评估模型对于肿瘤诊断的潜在价值与诊断效能。

【技术实现步骤摘要】

本专利技术涉及肿瘤生物标记物,具体领域为一种泛癌诊断模型构建方法及mirna对标记物。


技术介绍

1、在全球范围内恶性肿瘤的高发病率与致死率造成了极大的疾病负担。目前对于癌症的一大共识是针对肿瘤的早诊早筛是降低其疾病负担的有效手段,这是由于理论上来说,如果发现的足够及时,所有的恶性肿瘤都是可以完全治愈的。然而由于种种原因,目前并没有一种诊断手段或诊断模型可以从泛癌层面进行准确判断。近年来,基于液体活检的微小rna(mirna)应用于肿瘤的诊断与治疗这一研究方向得到了广泛的关注。

2、mirna是一种由高等真核细胞转录过程中产生,在肿瘤发生发展中起到重要作用的一类非编码rna。但是由于mirna表达值对于区分癌症与正常组织的截断值并不明确,且mirna表达值在不同平台测量存在技术误差,因此这一手段目前在临床工作中并未得到大量应用。


技术实现思路

1、本专利技术的目的在于提供一种泛癌诊断模型构建方法及mirna对标记物。本专利技术建立了机器学习模型,并创新性的采用了mirna对,即两个mirna相对表达值这一概念,建立了可应用于泛癌诊断的基于机器学习模型的微小rna对(microrna pair)标记物。

2、为实现上述目的,本专利技术提供如下技术方案:

3、一种泛癌诊断模型的构建方法,包括以下步骤:

4、(1)基于公共数据库gene expression omnibus,收集10组基于血清样本的mirna表达谱,其中每组队列包括癌症患者与正常对照;所述癌症患者来源于包含肺癌、食道癌、胃癌、肝癌、结直肠癌、乳腺癌、前列腺癌、胰腺癌、卵巢、膀胱癌、胆道癌、肉瘤和胶质瘤在内的13种癌种;

5、(2)在同一例样本mirna表达谱中进行筛选并组成mirna对,并定义mirna对相对表达值,具体定义为:当mirna-a大于等于mirna-b,则mirna相对表达值为1;否则则为0;

6、并与样本恶性肿瘤状态进行一致性比对;

7、条件1为:纳入mirna对相对表达值为1的比例在癌症患者中≥82%与mirna对相对表达值为0的比例在非癌对照组中≥82%;

8、条件2为:纳入mirna对相对表达值为0的比例在癌症患者中≥82%与mirna对相对表达值为1的比例在非癌对照组中≥82%;

9、当满足所述条件1或所述条件2,则作为候选mirna对作为后续分析。

10、(3)选择一部分患者的队列作为外部测试集,剩余样本以7:2:1的比例随机分为训练集、验证集和内部测试集,用于模型的拟合、训练与评估;

11、经lasso回归,惩罚系数alpha设定为0.01,最终保留了38个特征系数不为0的mirna对用于模型构建;在训练集中,采用了logistic回归、lasso回归、支持向量机、极限梯度提升与随机森林5种不同的算法用于模型构建;并基于验证集中结果,通过曲线下面积与约登指数判定最佳模型以及每个模型所纳入的mirna对数目,最终构建基于31个mirna对的随机森林模型作为最优模型;并进一步在内部测试集与外部测试集中评估模型的诊断效能。其中,31个mirna对分别为:mir-5739与mir-8073,mir-1228-3p与mir-4783-3p,mir-1203与mir-4771,mir-6877-5p与mir-6889-5p,mir-1228-5p与mir-3656,mir-4736与mir-575,mir-6763-5p与mir-8073,mir-373-5p与mir-887-3p,mir-8071与mir-8073,mir-135a-3p与mir-373-5p,mir-320b与mir-4478,mir-3184-5p与mir-373-5p,mir-4697-5p与mir-6800-5p,mir-320b与mir-6862-3p,mir-1203与mir-17-3p,mir-320a与mir-4792,mir-1587与mir-17-3p,mir-1225-5p与mir-4783-3p,mir-17-3p与mir-6795-3p,mir-320b与mir-6511b-3p,mir-6880-5p与mir-8073,mir-135a-3p与mir-320a,mir-1203与mir-4740-5p,mir-1228-5p与mir-1469,mir-125a-3p与mir-885-3p,mir-4648与mir-6748-5p,mir-135a-3p与mir-8073,mir-1225-5p与mir-1307-3p,mir-17-3p与mir-4648,mir-17-3p与mir-4701-5p,mir-1976与mir-320b。

12、与现有技术相比,本专利技术的有益效果是:

13、(1)本专利技术基于随机森林模型的31对mirna对标记物的泛癌诊断模型的建立,为多种恶性肿瘤的诊断、筛查与防控提供了有效手段,经外部测试集验证其灵敏度与特异度均高于0.93,且曲线下面积(auc)接近于1.00。

14、(2)本专利技术利用公共数据库数据,纳入共15832名患者,13种不同癌种,并通过lasso分析筛选mirna对,比较了5种不同的机器学习模型,通过评估auc与约登指数,最终确定了本专利技术的基于31对mirna对的随机森林模型;并在训练集,验证集,内部外部测试集评估,均具有较好的性能。确定该31对mirna对的随机森林模型能够作为预测癌症的模型。对于受试者,可以利用血清标本进行31对mirna对的检测,从而做出预测。

15、(3)基于31对mirna对的随机森林模型中mirna相对表达值解决了既往诊断模型中单一mirna表达量在不同平台检测表达存在误差这一难题,其可靠性和重复性在一定程度上相当客观,是一个相对客观和一定程度上能够反应肿瘤真实世界的预测指标,有望真正应用于的临床预测和指导。

16、(4)本专利技术模型在早期肿瘤数据集中也也展示出良好性能,auc值介于0.961-0.998,与既往多项研究对比均展示出明显优越性。这对于肿瘤的早诊早筛,降低疾病负担,具有重要的临床指导意义。

本文档来自技高网...

【技术保护点】

1.一种泛癌诊断模型的构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的泛癌诊断模型的构建方法,其特征在于:所述步骤(1)中正常对照包括健康志愿者血清样本及患有良性病变患者血清样本。

3.根据权利要求2所述的泛癌诊断模型的构建方法,其特征在于:所述步骤(2)中,条件1为:纳入miRNA对相对表达值为1的比例在癌症患者中≥82%与miRNA对相对表达值为0的比例在非癌对照组中≥82%;

4.根据权利要求3所述的泛癌诊断模型的构建方法,其特征在于:所述步骤(3)中,31个miRNA对分别为,miR-5739与miR-8073,miR-1228-3p与miR-4783-3p,miR-1203与miR-4771,miR-6877-5p与miR-6889-5p,miR-1228-5p与miR-3656,miR-4736与miR-575,miR-6763-5p与miR-8073,miR-373-5p与miR-887-3p,miR-8071与miR-8073,miR-135a-3p与miR-373-5p,miR-320b与miR-4478,miR-3184-5p与miR-373-5p,miR-4697-5p与miR-6800-5p,miR-320b与miR-6862-3p,miR-1203与miR-17-3p,miR-320a与miR-4792,miR-1587与miR-17-3p,miR-1225-5p与miR-4783-3p,miR-17-3p与miR-6795-3p,miR-320b与miR-6511b-3p,miR-6880-5p与miR-8073,miR-135a-3p与miR-320a,miR-1203与miR-4740-5p,miR-1228-5p与miR-1469,miR-125a-3p与miR-885-3p,miR-4648与miR-6748-5p,miR-135a-3p与miR-8073,miR-1225-5p与miR-1307-3p,miR-17-3p与miR-4648,miR-17-3p与miR-4701-5p,miR-1976与miR-320b。

5.权利要求1-4所述构建方法得到的泛癌诊断模型。

6.一种用于权利要求5所述泛癌诊断模型的miRNA对标记物,其特征在于:包括31个miRNA对,分别为miR-5739与miR-8073,miR-1228-3p与miR-4783-3p,miR-1203与miR-4771,miR-6877-5p与miR-6889-5p,miR-1228-5p与miR-3656,miR-4736与miR-575,miR-6763-5p与miR-8073,miR-373-5p与miR-887-3p,miR-8071与miR-8073,miR-135a-3p与miR-373-5p,miR-320b与miR-4478,miR-3184-5p与miR-373-5p,miR-4697-5p与miR-6800-5p,miR-320b与miR-6862-3p,miR-1203与miR-17-3p,miR-320a与miR-4792,miR-1587与miR-17-3p,miR-1225-5p与miR-4783-3p,miR-17-3p与miR-6795-3p,miR-320b与miR-6511b-3p,miR-6880-5p与miR-8073,miR-135a-3p与miR-320a,miR-1203与miR-4740-5p,miR-1228-5p与miR-1469,miR-125a-3p与miR-885-3p,miR-4648与miR-6748-5p,miR-135a-3p与miR-8073,miR-1225-5p与miR-1307-3p,miR-17-3p与miR-4648,miR-17-3p与miR-4701-5p,miR-1976与miR-320b。

...

【技术特征摘要】

1.一种泛癌诊断模型的构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的泛癌诊断模型的构建方法,其特征在于:所述步骤(1)中正常对照包括健康志愿者血清样本及患有良性病变患者血清样本。

3.根据权利要求2所述的泛癌诊断模型的构建方法,其特征在于:所述步骤(2)中,条件1为:纳入mirna对相对表达值为1的比例在癌症患者中≥82%与mirna对相对表达值为0的比例在非癌对照组中≥82%;

4.根据权利要求3所述的泛癌诊断模型的构建方法,其特征在于:所述步骤(3)中,31个mirna对分别为,mir-5739与mir-8073,mir-1228-3p与mir-4783-3p,mir-1203与mir-4771,mir-6877-5p与mir-6889-5p,mir-1228-5p与mir-3656,mir-4736与mir-575,mir-6763-5p与mir-8073,mir-373-5p与mir-887-3p,mir-8071与mir-8073,mir-135a-3p与mir-373-5p,mir-320b与mir-4478,mir-3184-5p与mir-373-5p,mir-4697-5p与mir-6800-5p,mir-320b与mir-6862-3p,mir-1203与mir-17-3p,mir-320a与mir-4792,mir-1587与mir-17-3p,mir-1225-5p与mir-4783-3p,mir-17-3p与mir-6795-3p,mir-320b与mir-6511b-3p,mir-6880-5p与mir-8073,mir-135a-3p与mir-320a,mir-1203与mir-4740-5p,mir-1228-5p与mir-1469,mir-125a-3p与mir-885-3p,mir-4648与mir-6748-5p,mir-135a-3p与mi...

【专利技术属性】
技术研发人员:赫捷孙楠张超奇吴芃李东宇
申请(专利权)人:中国医学科学院肿瘤医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1