子宫内膜癌预测诊断模型的构建方法、及该诊断模型与诊断器技术

技术编号:32245059 阅读:25 留言:0更新日期:2022-02-09 17:48
本发明专利技术公开了一种子宫内膜癌预测诊断模型的构建方法、及该诊断模型与诊断器,该子宫内膜癌预测诊断模型的构建方法包括如下步骤:1)数据获取;2)数据处理;3)建立模型;4)模型的结果判读;5)诊断预测效能验证;6)特征权重值的确定。本发明专利技术子宫内膜癌预测诊断模型的构建方法仅需要临床常见的检测结果,无需增加患者负担,所需检查均为无创检测,可有效减少患者不必要的有创创伤及优化合理进行有创检查的必要性,适合临床快速应用。适合临床快速应用。适合临床快速应用。

【技术实现步骤摘要】
子宫内膜癌预测诊断模型的构建方法、及该诊断模型与诊断器


[0001]本专利技术涉及子宫内膜癌预测诊断模型的
,具体涉及一种子宫内膜癌预测诊断模型的构建方法、及该诊断模型与诊断器。

技术介绍

[0002]子宫内膜癌是常见的妇科肿瘤疾病,在女性常见癌症中发病率排第6位,子宫内膜癌的不良预后与分期较晚密切相关。从I期(95%)到IV期(16%),子宫内膜癌的5年相关生存率降低了79%。对子宫内膜癌做到早诊断,将有利于及时采取正确的治疗,降低患者病死率。
[0003]现有对子宫内膜癌的诊断指标主要依赖患者年龄、临床症状、超声检测子宫内膜厚度、血液肿瘤标记物CA125及最终的病理学确诊

子宫内膜活检或诊断性刮宫。但均缺乏特异性,并不能对子宫内膜癌进行及早诊断,并且最终的确诊

病理学检查为有创性检查,患者对此的顾虑反而阻碍了子宫内膜癌的及早诊断。
[0004]为了提高子宫内膜癌女性的生存率,研究者开发了一系列预测模型来对有症状的病人进行早期诊断。现有的数据对经阴道超声筛查那些基于流行病学危险因素确定的较高风险人群也提供了一些建议。这种组合将诊断敏感性和特异性分别提高到84%和90%,但是这些模型目前只能在绝经后女性中应用。

技术实现思路

[0005]本专利技术的目的在于克服上述
技术介绍
的不足,提供一种子宫内膜癌预测诊断模型的构建方法、及该诊断模型与诊断器,该子宫内膜癌预测诊断模型的构建方法所需检查均为无创检测,可有效减少患者不必要的有创创伤及优化合理进行有创检查的必要性,适合临床快速应用。
[0006]为实现上述目的,本专利技术所设计的一种子宫内膜癌预测诊断模型的构建方法,包括如下步骤:
[0007]1)数据获取:获取并建立子宫内膜癌患者和正常对照患者的临床表现特征以及实验室指标特点的数据集,随机分为训练集、验证集和测试集;
[0008]2)数据处理:将训练集和测试集的数据进行挑选和缺失值填补,并采用Lasso回归进行特征选择,将挑选出的特征用于建立模型;
[0009]3)建立模型:将训练集的提取的特性信息数据进行训练,并调整模型的参数,最终取AUC(ROC曲线下的面积,ROC曲线全称为受试者工作特征曲线)排前三的预测模型,赋予各自相应的权重值后生成集成预测模型;
[0010]4)模型的结果判读:将验证集提取的特征信息数据输入集成预测模型中进行预测,集成预测模型将患子宫内膜癌风险的概率标准化为0到1,获取验证集的阈值;小于阈值的概率预测为非子宫内膜癌,否则预测为子宫内膜癌;
[0011]5)诊断预测效能验证:通过测试集工作特征曲线评估模型的诊断效能;
[0012]6)特征权重值的确定:根据集成预测模型中各个特征的权重值,即可确定预测子宫内膜癌的高危因素。
[0013]进一步地,所述步骤1)中,按照3:1:1的比例随机分为训练集、验证集和测试集。
[0014]进一步地,所述步骤2)中,先筛选出训练集和测试集数据的特征值,若训练集和测试集数据的某个特征缺失率≥20%,则去除该特征值;
[0015]进一步地,若训练集和测试集数据的某个特征值缺失率<20%,则将该特征值采用多重插补中PMM方法来插补缺失值。
[0016]进一步地,所述步骤3)中,采用逻辑回归(LR)、支持向量机(SVM)、K近邻(KNN)、随机森林(RF)、梯度提升树(GBDT)和神经网络(NN)的学习方法进行训练;采用五重交叉验证法调整模型的参数。
[0017]进一步地,所述步骤3)中,赋予AUC前三的预测模型的权重分别为0.2、0.2和0.4。
[0018]进一步地,所述步骤4)中,通过最大化验证集中的F1值得到阈值,F1值=正确率
×
召回率
×
2/(正确率+召回率)。
[0019]进一步地,所述步骤4)中,阈值为0.37。
[0020]进一步地,根据集成预测模型中各个特征的权重值,选择各个特征的权重值排前10特征的确定为预测子宫内膜癌的高危因素。
[0021]本专利技术还提供一种子宫内膜癌预测诊断模型,所述子宫内膜癌预测诊断模型由上述的子宫内膜癌预测诊断模型的构建方法构建而成。
[0022]本专利技术还提供一种诊断器,所述诊断器含有上述子宫内膜癌预测诊断模型。
[0023]与现有技术相比,本专利技术具有如下优点:
[0024]其一,本专利技术子宫内膜癌预测诊断模型的构建方法仅需要临床常见的检测结果,无需增加患者负担。此外,所需检查均为无创检测,可有效减少患者不必要的有创创伤及优化合理进行有创检查的必要性,适合临床快速应用。
[0025]其二,本专利技术构建的子宫内膜癌预测诊断模型开发源于普通女性,可以广泛应用于中国普通女性人群,而不仅仅是绝经后女性。
[0026]其三,本专利技术的诊断器对于患者需要检测的项目要求简单,对人体无创,便可准确预测诊断其患子宫内膜癌的可能性,为子宫内膜癌的早期诊断及是否需要及时进行有创的病理活检提供重要参考,并且仅需少量特征因素,应用十分便利。
附图说明
[0027]图1为一种含子宫内膜癌预测诊断模型的诊断器使用流程示意图;
[0028]图2为LASSO回归进行特征选择后的结果示意图;
[0029]图3为内部验证测试集队列中四个模型(LR,RF,GBDT,and TJHPEC)的ROC曲线;
[0030]图4为外部验证队列一中四个模型(LR,RF,GBDT,and TJHPEC)的ROC曲线;
[0031]图5为外部验证队列二中四个模型(LR,RF,GBDT,and TJHPEC)的ROC曲线;
[0032]图6为测试队列的内部验证测试集队列中四个模型(LR,RF,GBDT,and TJHPEC)的ROC曲线;
[0033]图7为测试队列的外部验证队列一中四个模型(LR,RF,GBDT,and TJHPEC)的ROC曲
线;
[0034]图8为测试队列的外部验证队列二中四个模型(LR,RF,GBDT,and TJHPEC)的ROC曲线。
具体实施方式
[0035]下面结合实施案例详细说明本专利技术的实施情况,但它们并不构成对本专利技术的限定,仅作举例而已。同时通过说明本专利技术的优点将变得更加清楚和容易理解。
[0036]本实施例先建立子宫内膜癌临床表现及实验室数据的的数据库,进行数据采集,采集源头为检测单位的病历信息管理系统HIS。根据病理诊断分为子宫内膜癌(EC)组和良性对照组,子宫内膜癌组为手术后病理确诊为子宫内膜癌的患者,良性对照组为子宫内膜病理确诊为良性病变的患者,包括正常子宫内膜、子宫内膜息肉、不伴非典型的子宫内膜增生和粘膜下肌瘤等。
[0037](1)数据获取:采用回顾性分析,连续收集了在2012年11月至2019年8月之间住院的患者,纳入标准包括接受了子宫内膜活检、刮宫或者子宫切除的病人,排除子宫内膜不典型增生、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种子宫内膜癌预测诊断模型的构建方法,其特征在于:包括如下步骤:1)数据获取:获取并建立子宫内膜癌患者和正常对照患者的临床表现特征以及实验室指标特点的数据集,随机分为训练集、验证集和测试集;2)数据处理:将训练集和测试集的数据进行挑选和缺失值填补,并采用Lasso回归进行特征选择,将挑选出的特征用于建立模型;3)建立模型:将训练集的提取的特性信息数据进行训练,并调整模型的参数,最终取AUC排前三的预测模型,赋予各自相应的权重值后生成集成预测模型;4)模型的结果判读:将验证集提取的特征信息数据输入集成预测模型中进行预测,集成预测模型将患子宫内膜癌风险的概率标准化为0到1,获取验证集的阈值;小于阈值的概率预测为非子宫内膜癌,否则预测为子宫内膜癌;5)诊断预测效能验证:通过测试集工作特征曲线评估模型的诊断效能;6)特征权重值的确定:根据集成预测模型中各个特征的权重值,即可确定预测子宫内膜癌的高危因素。2.根据权利要求1所述的子宫内膜癌预测诊断模型的构建方法,其特征在于:所述步骤1)中,按照3:1:1的比例随机分为训练集、验证集和测试集。3.根据权利要求2所述的子宫内膜癌预测诊断模型的构建方法,其特征在于:所述步骤2)中,先筛选出训练集和测试集数据的特征值,若训练集和测试集数据的某个特征缺失率≥20%,则去除该特征值。4...

【专利技术属性】
技术研发人员:王世宣袁素珍徐扬沈文枫汪雯雯
申请(专利权)人:华中科技大学同济医学院附属同济医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1