一种基于乳腺癌临床高维数据的分层重要特征选择方法技术

技术编号:19697725 阅读:24 留言:0更新日期:2018-12-08 12:43
本发明专利技术公开了一种基于乳腺癌临床高维数据的分层重要特征选择方法。本发明专利技术的特征选择方法包括统计特征选择和集成特征选择,其中统计特征选择采用单因素分析法,通过不同的统计检验初步选择出对结局变量有显著影响的特征;集成特征选择通过建立梯度提升树模型,经过模型训练后得到特征重要性评分,然后使用经过设计和验证的重要性评分阈值,来实现对结局变量有重要影响的特征选择。本发明专利技术可有效克服临床乳腺癌预测建模过程中的数据特征维度过高、冗余特征过多和数据杂乱等问题。可排除临床乳腺癌高维数据中冗余或无意义的特征,从而选择尽量少且对乳腺癌建模有重要影响的特征,保证乳腺癌模型的准确性和实用性。

【技术实现步骤摘要】
一种基于乳腺癌临床高维数据的分层重要特征选择方法
本专利技术涉及了计算机技术,统计机器学习技术和特征工程技术等领域。
技术介绍
乳腺癌是全球女性发病率最高的恶性肿瘤,严重威胁女性健康。乳腺癌患者通常会通过手术,以及化疗等治疗措施进行干预,在治疗过后随时可能面临着复发的风险。科学地评估预测乳腺癌患者生存状态可以辅助医生制定恰当的治疗计划,为降低患者复发风险和改善预后提供新的支撑。实现评估预测乳腺癌患者生存状态,比如无复发生存率,可以基于乳腺癌临床数据建立机器学习预测模型。然而,临床数据质量很大程度上决定了预测模型的表现。真实世界下,乳腺癌患者的临床数据,一般包括患者基本信息、诊断病史、病理、手术、化疗、放疗、内分泌治疗和靶向治疗等信息。这些数据特征维度较高,而且通常存在数据的缺失、异常、重复和不一致的问题,所以需要对真实世界下的原始临床数据进行清洗,以确保数据质量。数据清洗无法解决乳腺癌临床数据高维度的问题。而对高维特征数据进行特征工程、降维处理有很大的必要性,主要表现在以下两个方面:(1)预测模型实用性。预测模型在嵌入乳腺癌患者预后评估系统后,需要医生或患者输入预测相关的必要信息。这些信息将作为模型输入特征取值进入预测模型,最后系统才能根据输入信息进行有效预测。输入特征过多,将耗费患者或医生精力及时间,这大大降低了预测模型的实用性。(2)预测模型性能。事实上,特征工程被用来鉴定和移除不需要的,不相关的和冗余的属性,这些属性并不能提高预测模型的性能,或者可能事实上降低模型的性能。实际问题中,我们需要更少的特征,因为它能够降低模型的复杂度,而且一个更简单的模型能够被更简单的理解和解释。因此,为构建实用且高性能的预测模型,重点在于对临床高维数据进行特征工程处理,以筛选出对乳腺癌无复发生存有重要影响的特征,从而达到辅助医生诊断,降低患者复发风险和改善预后的目的。高维数据特征选择方法总体来可分为以下几种:(1)单因素分析方法。对每个因素单独进行分析,通过统计检验的方法确定该因素是否对目标变量有显著影响。该方法只能简单地排除掉少量不相关的特征,忽略了特征之间的交互作用。(2)特征重要性分析方法。使用某个基学习器(如CART或随机森林)拟合训练数据,得到每个特征的重要性评分,排除掉重要性评分为0的特征。该方法可以排除掉不相关的特征,但是往往最终选择的特征维度依旧较高,无法尽可能降低数据特征维度。(3)递归特征消除方法。由Guyon等人提出。该方法在特征重要性分析方法的基础上逐个地递归消除重要性较低的特征,逐次计算基学习器在新的特征集上的表现,并且重新计算每个特征的重要性评分,作为下一次特征消除的依据。最终选择表现最好的特征集。该方法在真实高维数据场景下,对计算资源和时间要求较高,而且基学习的选择以及特征重要性评分的不稳定性往往对结果有很大影响。高维数据特征选择方法,要求在保证模型性能以及可接受时间复杂度的条件下,排除掉冗余或者不相关的特征,尽可能减少最终选择的特征数量。因此,如何在高维数据中选择重要特征,是国内外科研工作者需要重点思考的问题。
技术实现思路
本专利技术目的是针对建立乳腺癌生存预测模型中临床数据维度过高的问题。利用统计特征选择和集成特征选择相结合的分层特征选择方法,解决重要特征提取和模型实用性的问题。本专利技术的基于乳腺癌临床高维数据的分层重要特征选择方法,包括以下步骤:统计特征选择处理:对原始临床数据进行特征提取并进行清洗处理,得到原始特征集合Fn;计算原始特征集合Fn中的每个维度的特征Fi的显著性值;由显著性值小于预设阈值的特征Fi构成统计特征集合Fm;集成特征选择处理:获取统计特征集合Fm中的各特征Fi的重要性评分均值设置不同的随机数种子,基于随机数种子选择包含统计特征集合Fm的训练数据,建立梯度提升树模型,输出统计特征集合Fm中的各特征Fi在当前随机数种子下的重要性评分Scorei,对所有随机数种子下的重要性评分Scorei取平均得到各特征Fi的重要性评分均值基于预设的重要性评分阈值,由统计特征集合Fm中的重要性评分均值大于重要性评分阈值的特征Fi构成重要特征集合Fe。进一步的,特征Fi的显著性值的计算方式具体为:基于特征Fi的特征属性采用不同的度量方式计算特征Fi的显著性值;对于特征属性为分类变量的特征Fi,首先判断特征Fi是有序分类变量还是无序分类变量,若特征Fi为有序分类变量,则采用Mann-WhitneyU检验计算特征Fi的显著性值(p值);若特征Fi是无序分类变量,则采用卡方检验计算特征Fi的显著性值;对于特征属性为连续变量的特征Fi,首先采用KS检验(Kolmogorov-Smirnovtest)特征Fi的分布是否服从正态分布,若服从正态分布,则采用独立样本的T检验(One-SamplesTTest)计算特征Fi的显著性值;否则,使用Mann-WhitneyU检验计算特征Fi的显著性值。进一步的,重要性评分阈值的优选设置方式为:初始阈值设置为0,采用向后特征选择法,逐步有选择地增加阈值,得到对应阈值下特征集合,并对每个阈值对应特征集合,建立梯度提升树模型,得到模型在测试集上的评估指标值,在满足与最大评估指标值之差在可接受范围内的所有对应特征集合中,选择特征数最少的特征集合对应阈值作为特征重要性评分阈值。本专利技术方法充分运用分层特征选择,逐层筛选。在不影响乳腺癌模型性能的情况下,尽量选择包含较少特征的重要特征组合。该方法具有以下优势:(1)使用统计特征选择找出对结局变量具有显著影响的单维特征,排除了显著不相关的单个特征对最终预测模型性能可能带来的影响;(2)使用梯度提升树作为基学习器,能够很好地处理多维数据特征间的相互影响。从而充分学习数据特征的概率空间,确保了对重要特征评分的准确性;(3)采用多次试验求取重要性评分均值,屏蔽了机器学习中偶然随机数选择事件的影响,从而确保了重要性评分的可靠性及稳定性;(4)有选择地选取重要性评分阈值,而不是逐个消除特征,降低了特征选择的时间以及计算资源的消耗;(5)在模型性能损失可接受范围内选择最简单的特征集,确保了构建预测模型的性能以及实用性。因此,本专利技术有比较明显的优势和较广泛的适用场景。附图说明图1为本专利技术的基本处理流程图;图2为本专利技术的统计特征选择流程图;图3为本专利技术的集成特征选择流程图;图4为集成特征选择的阈值设置示意图;图5为本专利技术的应用的实现过程示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本专利技术作进一步地详细描述。参见图1,本专利技术的面向乳腺癌临床高维数据的分层重要特征选择方法,包括了统计特征计算、集成特征计算以及集成特征计算中的所涉及的阈值设置方式。本专利技术利用统计特征选择和集成特征选择相结合的分层特征选择方法,可有效地解决重要特征提取和模型实用性等问题。其具体实现过程如下:S1:统计特征选择。对原始临床数据进行特征提取并进行清洗处理,得到原始特征集合Fn;并计算原始特征集合Fn中的每个维度的特征Fi的显著性值,由显著性值小于预设阈值的特征Fi(下标为维度标识符)构成统计特征集合Fm。参见图2,其执行过程如下:S101:对乳腺癌临床数据进行特征提取并进行清洗处理,得到原始特征集合Fn,遍历Fn中的每本文档来自技高网
...

【技术保护点】
1.一种基于乳腺癌临床高维数据的分层重要特征选择方法,其特征在于,包括以下步骤:统计特征选择处理:对原始临床数据进行特征提取并进行清洗处理,得到原始特征集合Fn;计算原始特征集合Fn中的每个维度的特征Fi的显著性值;由显著性值小于预设阈值的特征Fi构成统计特征集合Fm;集成特征选择处理:获取统计特征集合Fm中的各特征Fi的重要性评分均值

【技术特征摘要】
1.一种基于乳腺癌临床高维数据的分层重要特征选择方法,其特征在于,包括以下步骤:统计特征选择处理:对原始临床数据进行特征提取并进行清洗处理,得到原始特征集合Fn;计算原始特征集合Fn中的每个维度的特征Fi的显著性值;由显著性值小于预设阈值的特征Fi构成统计特征集合Fm;集成特征选择处理:获取统计特征集合Fm中的各特征Fi的重要性评分均值设置不同的随机数种子,基于随机数种子选择包含统计特征集合Fm的训练数据,建立梯度提升树模型,输出统计特征集合Fm中的各特征Fi在当前随机数种子下的重要性评分Scorei,对所有随机数种子下的重要性评分Scorei取平均得到各特征Fi的重要性评分均值基于预设的重要性评分阈值,由统计特征集合Fm中的重要性评分均值大于重要性评分阈值的特征Fi构成重要特征集合Fe。2.如权利要求1所述的方法,其特征在于,特征Fi的显著性值的计算方式具体为:基于特征Fi的特征属性采用不同的度量方式计算特征Fi的显著性值;对于特征属性为分类变量的特征Fi,首先判断特征Fi是有序分类变量还是无序分类变量,若特征Fi为有序分类变量,则采用Mann-WhitneyU检验计算特征Fi的显著性值;若Fi是无序分类变量,则采用卡方检验计算特征Fi的显著性值;对于特征属性为连续变量的特征Fi,首先采用KS检验特征Fi的分布是否服从正态分布,若服从正态分布,则采用独立样本的T检验计算特征Fi的显著性值;否则,使用Mann-WhitneyU检验计算特征Fi的显著性值。3.如权利要求1或2所述的方法,其特征在于,重要性评分阈值的优选设置方式为:初始阈值设置为0,采用向后特征选择法,逐步有选择地增加阈值,得到对应阈值下...

【专利技术属性】
技术研发人员:付波刘沛林劼郑鸿邓玲
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1