一种基于最优AUC的多机器学习模型特征选择方法技术

技术编号:34106054 阅读:60 留言:0更新日期:2022-07-12 00:28
本发明专利技术所述的一种基于最优AUC的多机器学习模型特征选择方法,其步骤为:步骤1、输入影响组学特征数据集,对所有输入的特征进行预处理;步骤2、选择多种机器学习模型交叉组合进行进一步的特征筛选模型构建,迭代计算每一个高重现性特征子集的影像组学模型AUC;步骤3、对AUC结果进行比较,选取最优AUC,获得最优高重现性特征集,并将AUC结果生成可视化热力图。本发明专利技术通过交叉组合的方式形成了幂增数量的组合特征选择分类器,迭代地对所获得高重现性特征集进行了影像组学模型AUC的计算以及对比,并根据最优AUC自动进行最优高重现性特征集的选择;在进行特征筛选之后,可以生成相应的高重现性特征集进行广泛测试,避免偶然性,增加可靠性。可靠性。可靠性。

【技术实现步骤摘要】
一种基于最优AUC的多机器学习模型特征选择方法


[0001]本专利技术涉及医学图像处理领域,具体是涉及一种基于最优AUC的多机器学习模型特征选择方法。

技术介绍

[0002]淋巴瘤是一种显著异质性疾病,不同病患的临床表现、治疗反应以及预后情况等都有很大的差异。以弥漫大B细胞淋巴瘤(DLBCL)为例,目前被认为是其标准治疗方案的是R

CHOP化疗免疫疗法(R表示利妥昔单抗;C表示环磷酰胺;H表示长春新碱;O代表阿霉素;P代表强的松),但有回顾性研究指出,目前仍有30

50%的患者仍未治愈,最终复发并死于该疾病。因此,对于那些对标准治疗方案反应不佳的患者,需要在诊断时进行早期识别和预后预测,以便于有针对性地调整治疗策略。然而,当前的预后评分系统,比如国际预后指数(IPI)以及其后继指标(修正的IPI和NCCN

IPI),并不足以进行病程早期的风险分层。在进行DLBCL患者风险分层评估时,代谢性肿瘤体积(MTV)和总病变糖酵解(TLG)是有力指标,但这些代谢指标反应肿瘤异质性上的能力是有限的,单纯依靠代谢指标可能会导致患者风险评估不准确以至于导致不良治疗效果。
[0003]近年来,影像组学已经成为了一个新兴且有前途的研究领域,即从患者病理图像中提取高通量的影像组学特征,结合计算机领域机器学习模型,通过对特征进行分类和高重现性特征筛选,建立影像组学模型,协助临床风险评估,对无进展生存期(Progress Free Survival,PFS)、总生存期(Overallsurvival,OS)等医学指标进行预后预测。
[0004]要建立有临床参考价值的高准确度影像组学模型,前期对于高重现性特征的筛选至关重要。目前在淋巴瘤影像组学研究中普遍采用最小绝对收缩和选择算子(Least absolute shrinkage and selection operator,LASSO)回归模型进行高重现性特征的筛选,如Ji G W,Zhu F P,Zhang Y D,et al.A radiomics approach to predict lymph node metastasis and clinical outcome of intrahepatic cholangiocarcinoma[J].European Radiology,2019,29(7):3725

3735.及Liu Q,Li J,Liu F,et al.A radiomics nomogram for the prediction of overall survival in patients with hepatocellular carcinoma after hepatectomy[J].Cancer Imaging,2020,20(1):82

96.如图1所示,它通过构造惩罚函数得到精炼的模型,对回归系数进行压缩从而使得不显著特征的系数为零,生成高重现性特征集,继而建立影像组学模型;但是在针对不同的数据集研究中,单一的LASSO回归模型进行特征筛选并不能保证获得的高重现性特征对于影像组学模型来说是最优的,并且缺少对多种特征分类、筛选模型的测试和对比分析。
[0005]但没有证据表明LASSO在对任何肿瘤影像组学特征数据集的处理中都能获得最优筛选结果,而且在特征数量庞大的情况下,往往一次筛选并不能将特征维度缩小至可用范围;而在特征筛选过程中能否将大量的影像组学特征降维成具有最大影响力的高重现性特征集,直接决定了影像组学模型在临床早期识别和预后预测中的准确性;所以在对特征筛选模型的选择上需要经过严格的测试、对比和验证。考虑到特征数量庞大的可能性,应对特
征进行至少两轮筛选。
[0006]如果采用传统的特征处理程序进行多种模型的交叉组合筛选,对于N种用于特征筛选的机器学习模型,需要手动操作N2次才能遍历所有两轮筛选模型组合情况,获得N2个高重现性特征集后,对于每个高重现性特征集还需要进行影像组学模型接收者操作特征曲线(Receiver operating characteristic curve,ROC)线下面积(Area under curve,AUC)的计算,再经过对比分析才能获得最佳的模型组合方式,过程过于繁琐。

技术实现思路

[0007]为解决上述技术问题,本专利技术提供了一种基于最优AUC的多机器学习模型特征选择方法,多种机器学习模型通过交叉组合形成组合特征选择分类器,对数据集进行特征筛选后,对比验证获取模型最优AUC,继而获得最优高重现性特征集,并根据最优高重现性特征集建立影像组学模型。
[0008]本专利技术所述的一种基于最优AUC的多机器学习模型特征选择方法,其步骤为:
[0009]步骤1、针对医学图像提取影像组学特征,输入影响组学特征数据集,对所有输入的特征进行预处理;
[0010]步骤2、选择多种机器学习模型交叉组合进行进一步的特征筛选模型构建,迭代计算每一个高重现性特征子集的影像组学模型AUC;
[0011]步骤3、对AUC结果进行比较,选取最优AUC,获得最优高重现性特征集,并将AUC结果生成可视化热力图。
[0012]进一步的,步骤1中,对所有输入的特征进行预处理,包括缺失值、异常值的处理及数据分布调整;
[0013]其中,对缺失值的处理采用插补法,使用缺失值所在特征列的平均特征值来填充;异常值的认定采用3δ原则,当数据服从正态分布时,根据正态分布的定义可知,样本距离平均值3δ之外的概率为:
[0014]P(|x

μ|>3δ)<=0.003
[0015]其中P表示样本满足括号内条件的概率,x表示样本值,μ表示样本均值,δ表示样本标准差;当样本值与样本均值的距离大于3δ,认定为异常值,将异常值视为缺失值,采用处理缺失值的方法进行异常值的处理;
[0016]分布调整采用Z

Score标准化,可以将数据转换为正态分布,转化公式为:
[0017][0018]其中x
*
表示转换为正态分布后的样本值,x表示原始样本值,表示原始数据的均值,σ表示原始数据的标准差。
[0019]进一步的,步骤2中,N种机器学习模型两两交叉组合后形成N2种组合特征选择分类器,每一种组合特征选择分类器的输出结果为当前模型组合方式下获得的最大AUC和候选最优高重现性特征集。
[0020]进一步的,步骤2中,每一种组合特征选择分类器都对影像组学特征进行两轮筛选,在第一轮筛选中,使用N种机器学习模型作为外部迭代,训练包含所有影像组学特征的特征筛选模型X来预测PFS和OS,获得各影像组学特征的权重和低维度高重现性特征子集;
[0021]在第二轮筛选中,根据第一轮筛选所得到的子集中的特征权重,使用N种机器学习模型作为内部迭代,训练特征分类模型Y,每一次分类结果为一个高重现性特征次子集。...

【技术保护点】

【技术特征摘要】
1.一种基于最优AUC的多机器学习模型特征选择方法,其特征在于,所述方法的步骤为:步骤1、针对医学图像提取影像组学特征,输入影响组学特征数据集,对所有输入的特征进行预处理;步骤2、选择多种机器学习模型交叉组合进行进一步的特征筛选模型构建,迭代计算每一个高重现性特征子集的影像组学模型AUC;步骤3、对AUC结果进行比较,选取最优AUC,获得最优高重现性特征集,并将AUC结果生成可视化热力图。2.根据权利要求1所述的一种基于最优AUC的多机器学习模型特征选择方法,其特征在于,步骤1中,对所有输入的特征进行预处理,包括缺失值、异常值的处理及数据分布调整;其中,对缺失值的处理采用插补法,使用缺失值所在特征列的平均特征值来填充;异常值的认定采用3δ原则,当数据服从正态分布时,根据正态分布的定义可知,样本距离平均值3δ之外的概率为:P(|x

μ|>3δ)<=0.003其中P表示样本满足括号内条件的概率,x表示样本值,μ表示样本均值,δ表示样本标准差;当样本值与样本均值的距离大于3δ,认定为异常值,将异常值视为缺失值,采用处理缺失值的方法进行异常值的处理;分布调整采用Z

Score标准化,可以将数据转换为正态分布,转化公式为:其中x
*
表示转换为正态分布后的样本值,x表示原始样本值,表示原始数据的均值,σ表示原始数据的标准差。3.根据权利要求1所述的一种基于最优AUC的多机器学习模型特征选择方法,其特征在于,步骤2中,N种机器学习模型两两交叉组合后形成N2种组合特征选择分类器,每一种组合特征选择分类器的输出结果为当前模型组合方式下获得的最大AUC和候选最优高重现性特征集。4.根据权利要求3所述的一种基于最优AUC的多机器学习模型特征选择方法,其特征在于,步骤2中,每一种组合特征选择分类器都对影像组学特征进行两轮筛选,在第一轮筛选中,使用N种机器学习模型作为外部迭代,训练包含...

【专利技术属性】
技术研发人员:陈建新黄湘君周亮李昂许景艳蒋冲
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1