一种基于最优AUC的多机器学习模型特征选择方法技术

技术编号：34106054 阅读：61 留言：0更新日期：2022-07-12 00:28

本发明专利技术所述的一种基于最优AUC的多机器学习模型特征选择方法，其步骤为：步骤1、输入影响组学特征数据集，对所有输入的特征进行预处理；步骤2、选择多种机器学习模型交叉组合进行进一步的特征筛选模型构建，迭代计算每一个高重现性特征子集的影像组学模型AUC；步骤3、对AUC结果进行比较，选取最优AUC，获得最优高重现性特征集，并将AUC结果生成可视化热力图。本发明专利技术通过交叉组合的方式形成了幂增数量的组合特征选择分类器，迭代地对所获得高重现性特征集进行了影像组学模型AUC的计算以及对比，并根据最优AUC自动进行最优高重现性特征集的选择；在进行特征筛选之后，可以生成相应的高重现性特征集进行广泛测试，避免偶然性，增加可靠性。可靠性。可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于最优AUC的多机器学习模型特征选择方法

[0001]本专利技术涉及医学图像处理领域，具体是涉及一种基于最优AUC的多机器学习模型特征选择方法。

技术介绍

[0002]淋巴瘤是一种显著异质性疾病，不同病患的临床表现、治疗反应以及预后情况等都有很大的差异。以弥漫大B细胞淋巴瘤(DLBCL)为例，目前被认为是其标准治疗方案的是R
‑
CHOP化疗免疫疗法(R表示利妥昔单抗；C表示环磷酰胺；H表示长春新碱；O代表阿霉素；P代表强的松)，但有回顾性研究指出，目前仍有30
‑
50％的患者仍未治愈，最终复发并死于该疾病。因此，对于那些对标准治疗方案反应不佳的患者，需要在诊断时进行早期识别和预后预测，以便于有针对性地调整治疗策略。然而，当前的预后评分系统，比如国际预后指数(IPI)以及其后继指标(修正的IPI和NCCN
‑
IPI)，并不足以进行病程早期的风险分层。在进行DLBCL患者风险分层评估时，代谢性肿瘤体积(MTV)和总病变糖酵解(TLG)是有力指标，但这些代谢指标反应肿瘤异质性上的能力是有限的，单纯依靠代谢指标可能会导致患者风险评估不准确以至于导致不良治疗效果。
[0003]近年来，影像组学已经成为了一个新兴且有前途的研究领域，即从患者病理图像中提取高通量的影像组学特征，结合计算机领域机器学习模型，通过对特征进行分类和高重现性特征筛选，建立影像组学模型，协助临床风险评估，对无进展生存期(Progress Free Survival，PFS)、总生存期(Ove

【技术保护点】

【技术特征摘要】
1.一种基于最优AUC的多机器学习模型特征选择方法，其特征在于，所述方法的步骤为：步骤1、针对医学图像提取影像组学特征，输入影响组学特征数据集，对所有输入的特征进行预处理；步骤2、选择多种机器学习模型交叉组合进行进一步的特征筛选模型构建，迭代计算每一个高重现性特征子集的影像组学模型AUC；步骤3、对AUC结果进行比较，选取最优AUC，获得最优高重现性特征集，并将AUC结果生成可视化热力图。2.根据权利要求1所述的一种基于最优AUC的多机器学习模型特征选择方法，其特征在于，步骤1中，对所有输入的特征进行预处理，包括缺失值、异常值的处理及数据分布调整；其中，对缺失值的处理采用插补法，使用缺失值所在特征列的平均特征值来填充；异常值的认定采用3δ原则，当数据服从正态分布时，根据正态分布的定义可知，样本距离平均值3δ之外的概率为：P(|x
‑
μ|>3δ)<＝0.003其中P表示样本满足括号内条件的概率，x表示样本值，μ表示样本均值，δ表示样本标准差；当样本值与样本均值的距离大于3δ，认定为异常值，将异常值视为缺失值，采用处理缺失值的方法进行异常值的处理；分布调整采用Z
‑
Score标准化，可以将数据转换为正态分布，转化公式为：其中x
*
表示转换为正态分布后的样本值，x表示原始样本值，表示原始数据的均值，σ表示原始数据的标准差。3.根据权利要求1所述的一种基于最优AUC的多机器学习模型特征选择方法，其特征在于，步骤2中，N种机器学习模型两两交叉组合后形成N2种组合特征选择分类器，每一种组合特征选择分类器的输出结果为当前模型组合方式下获得的最大AUC和候选最优高重现性特征集。4.根据权利要求3所述的一种基于最优AUC的多机器学习模型特征选择方法，其特征在于，步骤2中，每一种组合特征选择分类器都对影像组学特征进行两轮筛选，在第一轮筛选中，使用N种机器学习模型作为外部迭代，训练包含...

【专利技术属性】
技术研发人员：陈建新，黄湘君，周亮，李昂，许景艳，蒋冲，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人