一种基于乳腺癌临床高维数据的分层重要特征选择方法技术

技术编号：19697725 阅读：24 留言：0更新日期：2018-12-08 12:43

本发明专利技术公开了一种基于乳腺癌临床高维数据的分层重要特征选择方法。本发明专利技术的特征选择方法包括统计特征选择和集成特征选择，其中统计特征选择采用单因素分析法，通过不同的统计检验初步选择出对结局变量有显著影响的特征；集成特征选择通过建立梯度提升树模型，经过模型训练后得到特征重要性评分，然后使用经过设计和验证的重要性评分阈值，来实现对结局变量有重要影响的特征选择。本发明专利技术可有效克服临床乳腺癌预测建模过程中的数据特征维度过高、冗余特征过多和数据杂乱等问题。可排除临床乳腺癌高维数据中冗余或无意义的特征，从而选择尽量少且对乳腺癌建模有重要影响的特征，保证乳腺癌模型的准确性和实用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于乳腺癌临床高维数据的分层重要特征选择方法
本专利技术涉及了计算机技术，统计机器学习技术和特征工程技术等领域。
技术介绍
乳腺癌是全球女性发病率最高的恶性肿瘤，严重威胁女性健康。乳腺癌患者通常会通过手术，以及化疗等治疗措施进行干预，在治疗过后随时可能面临着复发的风险。科学地评估预测乳腺癌患者生存状态可以辅助医生制定恰当的治疗计划，为降低患者复发风险和改善预后提供新的支撑。实现评估预测乳腺癌患者生存状态，比如无复发生存率，可以基于乳腺癌临床数据建立机器学习预测模型。然而，临床数据质量很大程度上决定了预测模型的表现。真实世界下，乳腺癌患者的临床数据，一般包括患者基本信息、诊断病史、病理、手术、化疗、放疗、内分泌治疗和靶向治疗等信息。这些数据特征维度较高，而且通常存在数据的缺失、异常、重复和不一致的问题，所以需要对真实世界下的原始临床数据进行清洗，以确保数据质量。数据清洗无法解决乳腺癌临床数据高维度的问题。而对高维特征数据进行特征工程、降维处理有很大的必要性，主要表现在以下两个方面：(1)预测模型实用性。预测模型在嵌入乳腺癌患者预后评估系统后，需要医生或患者输入预测相关的必要信息。这些信息将作为模型输入特征取值进入预测模型，最后系统才能根据输入信息进行有效预测。输入特征过多，将耗费患者或医生精力及时间，这大大降低了预测模型的实用性。(2)预测模型性能。事实上，特征工程被用来鉴定和移除不需要的，不相关的和冗余的属性，这些属性并不能提高预测模型的性能，或者可能事实上降低模型的性能。实际问题中，我们需要更少的特征，因为它能够降低模型的复杂度，而且一个更简单的模型...

【技术保护点】
1.一种基于乳腺癌临床高维数据的分层重要特征选择方法，其特征在于，包括以下步骤：统计特征选择处理：对原始临床数据进行特征提取并进行清洗处理，得到原始特征集合Fn；计算原始特征集合Fn中的每个维度的特征Fi的显著性值；由显著性值小于预设阈值的特征Fi构成统计特征集合Fm；集成特征选择处理：获取统计特征集合Fm中的各特征Fi的重要性评分均值

【技术特征摘要】
1.一种基于乳腺癌临床高维数据的分层重要特征选择方法，其特征在于，包括以下步骤：统计特征选择处理：对原始临床数据进行特征提取并进行清洗处理，得到原始特征集合Fn；计算原始特征集合Fn中的每个维度的特征Fi的显著性值；由显著性值小于预设阈值的特征Fi构成统计特征集合Fm；集成特征选择处理：获取统计特征集合Fm中的各特征Fi的重要性评分均值设置不同的随机数种子，基于随机数种子选择包含统计特征集合Fm的训练数据，建立梯度提升树模型，输出统计特征集合Fm中的各特征Fi在当前随机数种子下的重要性评分Scorei，对所有随机数种子下的重要性评分Scorei取平均得到各特征Fi的重要性评分均值基于预设的重要性评分阈值，由统计特征集合Fm中的重要性评分均值大于重要性评分阈值的特征Fi构成重要特征集合Fe。2.如权利要求1所述的方法，其特征在于，特征Fi的显著性值的计算方式具体为：基于特征Fi的特征属性采用不同的度量方式计算特征Fi的显著性值；对于特征属性为分类变量的特征Fi，首先判断特征Fi是有序分类变量还是无序分类变量，若特征Fi为有序分类变量，则采用Mann-WhitneyU检验计算特征Fi的显著性值；若Fi是无序分类变量，则采用卡方检验计算特征Fi的显著性值；对于特征属性为连续变量的特征Fi，首先采用KS检验特征Fi的分布是否服从正态分布，若服从正态分布，则采用独立样本的T检验计算特征Fi的显著性值；否则，使用Mann-WhitneyU检验计算特征Fi的显著性值。3.如权利要求1或2所述的方法，其特征在于，重要性评分阈值的优选设置方式为：初始阈值设置为0，采用向后特征选择法，逐步有选择地增加阈值，得到对应阈值下...

【专利技术属性】
技术研发人员：付波，刘沛，林劼，郑鸿，邓玲，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人