宫颈癌癌前早期病变阶段诊断模型及建立方法技术

技术编号:25759529 阅读:35 留言:0更新日期:2020-09-25 21:08
本发明专利技术涉及一种宫颈癌癌前早期病变阶段诊断模型及建立方法,属于医学检测技术领域。该方法包括以下步骤:S1:获取各受试者样本的HPV DNA检测结果数据以及细胞学诊断结果数据,分别构建数据集;S2:对上述数据集进行均衡处理;S3:将经均衡处理的数据集以不同数据因子组合方式,进行多因素逻辑回归模型构建,得到不同组合方式构建模型中ROC曲线的AUC值最佳的模型;S4:以上述步骤得到的待训练模型,分别以Xgboost,随机森林,决策树,神经网络或SVM算法进行机器学习训练,得到不同算法模型中AUC值最佳的模型,最终得到的宫颈癌癌前早期病变阶段诊断模型,对以癌前病变各阶段为重点的患者阳性预测值可达0.8706,阴性预测值可达0.946。

【技术实现步骤摘要】
宫颈癌癌前早期病变阶段诊断模型及建立方法
本专利技术涉及医学检测
,特别是涉及一种宫颈癌癌前早期病变阶段诊断模型及建立方法。
技术介绍
宫颈癌是严重侵害女性健康的恶性疾病,发病率高,且呈持续增长趋势。现有的预防宫颈癌的策略为对适龄妇女进行细胞学和HPVDNA水平的筛查。但是由于细胞学筛查对于检测设备及医生资源要求较高,很大程度上限制了资源不足地区的筛查推广。越来越多的研究希望探索单独通过DNA的检测结果来推断疾病状态的方法。然而,由于单纯HPVDNA的检测结果的假阳性率较高,进而导致过高的阴道镜转诊率,因此,单纯依赖HPVDNA阴阳性来判断宫颈癌早期病变需要结合其他指标来提高准确性。有研究提出DNA的甲基化水平或者HPV的整合状态也可以作为筛查的指标,但目前的研究结果还存在结果不一致及准确性不够高的问题。HPVDNA检测方法非常多,有HC2,AptimaE6E6,Cobas4800等方法,其中一些方法的检测结果可以一定程度地反映HPV病毒在宿主体内的存在丰度,被称为病毒载量。病毒载量与宫颈癌癌前病变不同分期的相关性已被研究证实,也有研究试图利用HPV病毒载量进行辅助疾病诊断,但存在结果准确性不够高等问题。
技术实现思路
基于此,有必要针对上述问题,提供一种宫颈癌癌前早期病变阶段诊断模型及建立方法,该诊断系统采用临床检验结果大数据,集中多项因子不同组合进行多种机器学习方法的模型构建,并对模型进行准确性评估,通过比较不同组合及不同方法的结果,得到最优的诊断模型用于临床诊断。>一种宫颈癌癌前早期病变阶段诊断模型的建立方法,包括以下步骤:S1:获取各受试者样本的HPVDNA检测结果数据以及细胞学诊断结果数据,作为数据因子,根据样本情况,评估为正常样本或宫颈癌前病变样本,分别构建数据集;S2:对上述数据集进行均衡处理;S3:将经均衡处理的数据集以不同数据因子组合方式,进行多因素逻辑回归模型构建,以ROC曲线的AUC值为评估指标,得到不同组合方式构建模型中AUC值最佳的模型,为待训练模型;S4:以上述步骤得到的待训练模型,分别以Xgboost,随机森林,决策树,神经网络或SVM算法进行机器学习训练,以ROC曲线的AUC值为评估指标,得到不同算法模型中AUC值最佳的模型,即得宫颈癌癌前早期病变阶段诊断模型。上述宫颈癌癌前早期病变阶段诊断模型的建立方法,首先收集患者的HPVDNA检测和宫颈细胞学检测结果,构建数据集;针对数据集的不同数据因子组合分别采用不同模型构建方法(逻辑回归,SVM,随机森林,决策树,神经网络,Xgboost等),以不同癌前病变阶段进行建模训练,将训练好的模型通过验证集进行验证,获得针对各病变分期的多种不同检测模型;评估每种模型的诊断效果,并比较相同分期的诊断模型效果优劣,选择最优的模型;收集测试检测结果并构建测试数据集,通过选择出的最优诊断模型,预测每个患者的疾病状态及分期,从而对模型进一步验证。经过以上所述模型构建方法及比较,本方法最终建立的宫颈癌癌前早期病变阶段诊断模型,对早期宫颈癌前病变有较高的诊断效率,阳性预测值和阴性预测值分别可以达到0.8706和0.946,能够应用于仅有HPV检测结果的早期疾病诊断。在其中一个实施例中,S1步骤中,所述HPVDNA检测结果数据包括:HPV感染状态、HPV病毒载量;所述细胞学诊断结果数据包括:细胞学诊断的分期、阴道炎情况、真菌感染情况。在其中一个实施例中,S1步骤中,所述宫颈癌前病变样本评估为ASCUS、ASC-H、HSIL或LSIL。上述ASCUS指意义不明的非典型鳞状上皮细胞(Atypicalsquamouscellsofundeterminedsignificance),ASC-H指不能排除高级别鳞状上皮内病变的非典型鳞状上皮细胞(Atypicalsquamouscells:cannotexcludehigh-gradesquamousintraepitheliallesion),HSIL指高度鳞状上皮内病变(high-gradesquamousintraepitheliallesion),LSIL指低度鳞状上皮内病变(low-gradesquamousintraepitheliallesion)。在其中一个实施例中,S2步骤中,采用SMOTE-Regular方法对正常和宫颈癌前病变样本的数据集进行均衡处理,使正常样本和宫颈癌前病变样本的数目具有一致性。可以理解的,所述一致性指符合统计学要求,正常样本和宫颈癌前病变样本的数目接近相同。在其中一个实施例中,S2步骤中,采用SMOTE-Regular方法进行均衡处理的具体步骤为,以DMwR软件,先统计不同endpoint下的01频数,从而得到少数类样本和多数类样本的比例,再根据该比例,相应地模拟合成少数类样本,进行数据平衡。在其中一个实施例中,S3步骤中,多因素逻辑回归模型构建以rattle软件的逻辑回归分析方法进行,该模型构建以不同癌前病变早期分期为因变量(y),以不同相关因子组合为自变量(x)组合,假设因变量(y)服从伯努利分布,采用Sigmod函数作为判别函数,最后给出相应的概率值,通过采用预定阈值(一般为0.5)进行二分类判别。可以理解的,所述阈值可以采用不同的阈值进行判别,一般为0.5。上述癌前病变早期分期包括:ASCUS、ASC-H、LSIL和HSIL。在其中一个实施例中,S3步骤中,以HPV病毒载量和阴道炎情况作为数据因子组合构建得到的模型为待训练模型。在其中一个实施例中,S4步骤中,以Xgboost算法进行机器学习训练,设置树的最大深度为6,迭代次数为50,学习速率为0.3,然后根据训练集数据进行建模,得到宫颈癌癌前早期病变阶段诊断模型。本专利技术还公开了上述的宫颈癌癌前早期病变阶段诊断模型的建立方法建立得到的宫颈癌癌前早期病变阶段诊断模型。在其中一个实施例中,所述宫颈癌癌前早期病变阶段包括:ASCUS、ASC-H、HSIL和LSIL。与现有技术相比,本专利技术具有以下有益效果:本专利技术的一种宫颈癌癌前早期病变阶段诊断模型的建立方法,通过对3万多例临床检测数据,为构建准确性高的诊断模型提供保障;并通过对数据集进行了均衡处理,避免由于数据不平衡导致的模型无用;再通过比较不同建模因子组合,选择出最优因子组合(VL+BV);并通过比较六种不同的机器学习建模方法,从中选择最准确的诊断模型并确定最合适的建模方法(Xgboost),最终得到的宫颈癌癌前早期病变阶段诊断模型,对以癌前病变各阶段为重点的患者阳性预测值可达0.8706,阴性预测值可达0.946。并且本方法基于宫颈癌筛查数据集构建模型,对患者无额外负担,数据易采集,具有实操性强的优点。本专利技术的一种宫颈癌癌前早期病变阶段诊断模型,可以基于筛查数据或自采样数据进行宫颈癌早期筛查或诊断的预测,精确度高,可进一步应用于医学诊断数据的处理及疾病的早期诊断领域。附图说明图1为本专利技术模本文档来自技高网...

【技术保护点】
1.一种宫颈癌癌前早期病变阶段诊断模型的建立方法,其特征在于,包括以下步骤:/nS1:获取各受试者样本的HPV DNA检测结果数据以及细胞学诊断结果数据,作为数据因子,根据样本情况,评估为正常样本或宫颈癌前病变样本,分别构建数据集;/nS2:对上述数据集进行均衡处理;/nS3:将经均衡处理的数据集以不同数据因子组合方式,进行多因素逻辑回归模型构建,以ROC曲线的AUC值为评估指标,得到不同组合方式构建模型中AUC值最佳的模型,为待训练模型;/nS4:以上述步骤得到的待训练模型,分别以Xgboost,随机森林,决策树,神经网络或SVM算法进行机器学习训练,以ROC曲线的AUC值为评估指标,得到不同算法模型中AUC值最佳的模型,即得宫颈癌癌前早期病变阶段诊断模型。/n

【技术特征摘要】
1.一种宫颈癌癌前早期病变阶段诊断模型的建立方法,其特征在于,包括以下步骤:
S1:获取各受试者样本的HPVDNA检测结果数据以及细胞学诊断结果数据,作为数据因子,根据样本情况,评估为正常样本或宫颈癌前病变样本,分别构建数据集;
S2:对上述数据集进行均衡处理;
S3:将经均衡处理的数据集以不同数据因子组合方式,进行多因素逻辑回归模型构建,以ROC曲线的AUC值为评估指标,得到不同组合方式构建模型中AUC值最佳的模型,为待训练模型;
S4:以上述步骤得到的待训练模型,分别以Xgboost,随机森林,决策树,神经网络或SVM算法进行机器学习训练,以ROC曲线的AUC值为评估指标,得到不同算法模型中AUC值最佳的模型,即得宫颈癌癌前早期病变阶段诊断模型。


2.根据权利要求1所述的宫颈癌癌前早期病变阶段诊断模型的建立方法,其特征在于,S1步骤中,所述HPVDNA检测结果数据包括:HPV感染状态、HPV病毒载量;所述细胞学诊断结果数据包括:细胞学诊断的分期、阴道炎情况、真菌感染情况。


3.根据权利要求1所述的宫颈癌癌前早期病变阶段诊断模型的建立方法,其特征在于,S1步骤中,所述宫颈癌前病变样本评估为ASCUS、ASC-H、HSIL或LSIL。


4.根据权利要求1所述的宫颈癌癌前早期病变阶段诊断模型的建立方法,其特征在于,S2步骤中,采用SMOTE-Regular方法对正常和宫颈癌前病变样本的数据集进行均衡处理,使正常样本和宫颈癌前病变样本的数目具有一致性。


5.根据权利要求4所述...

【专利技术属性】
技术研发人员:孟博曾征宇李桂彬郑宝文于世辉
申请(专利权)人:广州市金域转化医学研究院有限公司广州金域医学检验中心有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1