【技术实现步骤摘要】
基于组内组间优化的多重插补的乳腺癌缺失数据插补模型
:
[0001]本专利技术涉及数据清洗技术,尤其涉及到一种基于组内组间优化的多重插补的乳腺癌缺失数据插补模型,该模型在数据插补方面有着很好的应用效果。
技术介绍
:
[0002]对于乳腺癌临床数据集的研究可以有效的预测和开发早期干预治疗手段。由于客观或主观因素的限制,经常会出现临床数据的缺失,给后期数据处理以及疾病预测带来不确定性。
[0003]数据集获取后,数据预处理的质量能影响后续数据建模的准确度,一个较为完整和接近真实分布的数据集是验证模型好坏的前提。数据预处理得当能使模型充分挖掘数据所隐含的信息。在数据预处理阶段最为重要的就是对数据缺失值的处理。在以往的数据缺失值处理中,采用插补方式对数据的处理是目前最为普遍的,也是尽可能的在不改变数据分布的情况下保留完整数据信息的方法。
[0004]对于乳腺癌样本数据的缺失值处理上,传统的插补方法大多基于两类,一类是基于统计学的插补方法,另一类是基于机器学习的插补方法。然而前者是基于数据集本身做出假设,然后利用原数据集对缺失数据进行相应的插补,这类方法没有考虑数据对象本身的类别,插补值往往受其他类别对象的影响,插补结果的准确性较差。后者大多是先对缺失数据集进行分类或聚类,然后进行插补,但在缺失属性较多时容易导致所分类别较多。上述两种类别的插补方法都是单一插补方法,这种方式即没有考虑插补过程中的不确定性和偶然性,也没有考虑到不同特征间的差异性,对插补后数据分布产生的结论偏差也没有进行相应的处理,缺少数据分布矫正。 ...
【技术保护点】
【技术特征摘要】
1.基于组内组间优化的多重插补模型,其特征在于,该方法包括以下步骤:步骤1:记录原始数据集D中各缺失特征的缺失比例。数据集D中删除含有缺失属性的样本个例,获取完整的数据集合D
′
。步骤2:在数据集D
′
中按步骤1中记录的特征缺失比例对各特征进行等比例设空,生成新数据集D
″
。步骤3:对数据集D
″
利用N(N=5)种插补方法进行多重估算插补M(M=10)次,插补过程中将每列特征得到的M(M=10)个结果按照综合评价指标进行排序,选择综合指标最小的多重插补方式作为特征的最优插补重数,并记录各个特征最优插补重数的序号。遍历插补数据集D
″
中的各个特征,得到组内最优插补数据集D
″′
。步骤4:对N(N=5)个插补方法得到的组内最优数据集选择综合指标最小的按整体均方根误差进行排序,选择误差最小的作为组间最优插补数据集。步骤5:遍历数据集D中各缺失特征,按步骤3中记录的各特征的最优插补方式进行组内插补。按步骤4对数据集D进行组间插补,最终得到完整数据集D
c
。步骤6:插补性能的稳定性验证,对单一插补方法和本发明方法进行50次重复实验,得到每组插补方法的50组均方根误差结果。2.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤1中,实验的完整数据集准备,具体步骤为:步骤1
‑
1遍历数据集D中各特征属性,记录各特征的缺失比例。对含有缺失属性的样本个例进行删除,以获得完整数据集D
′
。3.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤2中,实验的缺失数据集准备,具体步骤为:步骤2
‑
1按步骤1
‑
1记录的各特征缺失比例对完整数据集D
′
进行设空,以完成缺失数据集的准备。4.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤3中,缺失数据集的组内插补,具体步骤为:步骤3
‑
1将均值插补、随机森林插补、贝叶斯线性回归插补、分类回归树插补和线性回归插补五种方法作为多重插补的基础方法。插补过程中将每列特征得到的十个结果按照综合评价指标进行排序。步骤3
‑
2对插补的每个临床特征进行阈值判别,计算出其阈值外的插补值个数。计算过程如下:其中QL
k
为第k个特征的下四分位数,QU
k
为第k个特征的上四分位数,IQR
k
=QU
k
‑
QL
k
,k=1,2,3,
…
,K;j=1,2,3,
…
,M;K为数据...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。