一种生物医学空缺数据弥补方法技术

技术编号：8862442 阅读：234 留言：0更新日期：2013-06-28 01:38

本发明专利技术涉及一种基于EM聚类-BP神经网络的空缺数据弥补方法，属于生物医学技术领域。本发明专利技术首先采用处理不完全数据问题中很重要的迭代算法EM算法，通过EM聚类，将不同缺失数据划分到不同的簇中，完成初步弥补；然后通过BP神经网络方法对每个簇中的完全数据建模，并完成对各个簇中缺失数据的精确弥补。在一定程度上加强弥补算法对任意缺失机制的适用性，并提高弥补的准确性，可适用于生物医学空缺数据弥补领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及，属于生物医学

技术介绍
近年来，随着计算机科学技术的不断发展，数据挖掘技术被广泛应用于各领域之中。数据挖掘总体过程包括问题理解、数据采集和理解、预处理、数据挖掘、模型评估和知识应用，数据挖掘的成功与否和适用性能在很大程度上取决于数据质量。然而，在针对生物医学数据挖掘各个环节过程中，数据不完全的现象是不可避免的，存在着不同程度的空缺数据，也称为空缺值。为了能在生物医学研究领域中有效地应用数据挖掘的方法和系统，就必须面对数据不完整的挑战。对生物医学研究领域来说，空缺值产生有多方面原因:有些医学筛查数据属性的内容没有；有些数据当时被认为是不必要的；由于误解或检测设备失灵导致相关数据没有记录下来；与其他记录内容不一致而被删除；历史记录或对数据的修改被忽略了或者属性的值根本不能直接观测到等。面对生物医学研究过程中存在的缺失值，虽然现在已经有很多数据填充方法，但并不存在一种可以适合于任何问题的空缺值填充方法。无论哪种填充方法都无法避免主观因素的存在，并且在空缺值过多的情形下将系统完备化是不可行的。在空缺值弥补技术的研究趋势主要呈现以下两个方面:1.构建空缺值弥补模型，该模型可以较好的适用于生物医学领域中任何空缺数据弥补问题，具有很好的普适性；2.基于数据挖掘和统计理论提出更为合适的算法，能够预测数据中存在的空缺值，并且具有较小的误差。综观现有生物医学空缺数据弥补方法，通常使用的方法有:1.MI填补算法:该方法针对大部分简单填充方法的填充数据唯一且填充后的数据集不能表现出原有数据集的不确定性，导致结果产生较大的偏差问题而由Rubin提出，该方...

【技术保护点】
一种生物医学空缺数据弥补方法，其特征在于：针对不同缺失数据的缺失特点将缺失数据划分到具有相应特点的聚类簇中，然后根据BP神经网络算法估计完全数据属性的权重，计算含缺失数据的对应属性缺失值的预测值，实现弥补算法对任意缺失机制的适用性，并提高弥补的准确性。包括如下步骤：步骤1，将N个被评估对象作为样本集S，其中每个对象包含M个影响2型糖尿病发病的关键属性；将关键属性作为列，不同样本对应的属性值作为行，建立样本集S的矩阵表示[s(a+c)b]；并采用EM聚类方法对样本集S进行聚类，得到k个聚类簇。步骤2，对步骤1得到的每个聚类簇中的完全数据集分别采用BP神经网络方法M个影响2型糖尿病发病的关键属性进行BP神经网络模型训练，获得M*k个模型，并对每个聚类簇中的缺失数据集中不同属性的缺失数据选取对应BP神经网络模型，计算该缺失数据的估计值。

【技术特征摘要】
1.一种生物医学空缺数据弥补方法，其特征在于:针对不同缺失数据的缺失特点将缺失数据划分到具有相应特点的聚类簇中，然后根据BP神经网络算法估计完全数据属性的权重，计算含缺失数据的对应属性缺失值的预测值，实现弥补算法对任意缺失机制的适用性，并提高弥补的准确性。包括如下步骤: 步骤I，将N个被评估对象作为样本集S，其中每个对象包含M个影响2型糖尿病发病的关键属性；将关键属性作为列，不同样本对应的属性值作为行，建立样本集S的矩阵表示[s(a+c)b];并采用EM聚类方法对样本集S进行聚类，得到k个聚类簇。步骤2，对步骤I得到的每个聚类簇中的完全数据集分别采用BP神经网络方法M个影响2型糖尿病发病的关键属性进行BP神经网络模型训练，获得M*k个模型，并对每个聚类簇中的缺失数据集中不同属性的缺失数据选取对应BP神经网络模型，计算该缺失数据的估计值。2.根据权利要求1所述针对含空缺值的数据的EM聚类方法，具体实现方法为: 步骤1.1，首先将N个对象根据是否含有缺失数据分为两个样本集:完全数据集X和缺失数据集Y。所述完全数据集X为M个关键属性对应的数据均无缺失的对象集合。集合中所有对象关键属性的数据构成矩阵[xab]，其中矩阵的行数a表示完全数据样本对象，列数b表示完全数据样本各属性对应的数据，b = I, 2,...,M0 所述缺失数据集Y为M个关键属性对应的数据中存在一个或多个缺失的对象集合。集合中所有对象的关键属性数据形成一个矩阵[yj，行数c表示缺失数据样本对象，列数b表示缺失数据样本各属性对应的数据。步骤1.2，设置聚类簇个数k(k < N)，由于样本集S中任意第i个样本叫(I < i < N)，均服从k个聚类簇的混合概率分布:`nt~ P(HiIB) = YjrjPiniIej) 步骤1.3，将步骤1.2给定的初始混合概率分布参数估计值0°代入缺失数据集Y，获得Ich的后验分布概率为: J,八 0\4PyAX^\0°k) 一__ P\ycb I) = —J} 其中 Xab e X，ycb e Y Pk Kxah10k ) 由于样本集间各样本的独立性，得到数据集Y的后验分布函数为: ρ(Υ|Χ,Θ0) = Πρ(λ,Ι^,Θ°) Ir-1 步骤1.4，根据步骤1.3获...

【专利技术属性】
技术研发人员：罗森林，韩龙飞，潘丽敏，张铁梅，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人