一种生物医学空缺数据弥补方法技术

技术编号:8862442 阅读:234 留言:0更新日期:2013-06-28 01:38
本发明专利技术涉及一种基于EM聚类-BP神经网络的空缺数据弥补方法,属于生物医学技术领域。本发明专利技术首先采用处理不完全数据问题中很重要的迭代算法EM算法,通过EM聚类,将不同缺失数据划分到不同的簇中,完成初步弥补;然后通过BP神经网络方法对每个簇中的完全数据建模,并完成对各个簇中缺失数据的精确弥补。在一定程度上加强弥补算法对任意缺失机制的适用性,并提高弥补的准确性,可适用于生物医学空缺数据弥补领域。

【技术实现步骤摘要】

本专利技术涉及,属于生物医学

技术介绍
近年来,随着计算机科学技术的不断发展,数据挖掘技术被广泛应用于各领域之中。数据挖掘总体过程包括问题理解、数据采集和理解、预处理、数据挖掘、模型评估和知识应用,数据挖掘的成功与否和适用性能在很大程度上取决于数据质量。然而,在针对生物医学数据挖掘各个环节过程中,数据不完全的现象是不可避免的,存在着不同程度的空缺数据,也称为空缺值。为了能在生物医学研究领域中有效地应用数据挖掘的方法和系统,就必须面对数据不完整的挑战。对生物医学研究领域来说,空缺值产生有多方面原因:有些医学筛查数据属性的内容没有;有些数据当时被认为是不必要的;由于误解或检测设备失灵导致相关数据没有记录下来;与其他记录内容不一致而被删除;历史记录或对数据的修改被忽略了或者属性的值根本不能直接观测到等。面对生物医学研究过程中存在的缺失值,虽然现在已经有很多数据填充方法,但并不存在一种可以适合于任何问题的空缺值填充方法。无论哪种填充方法都无法避免主观因素的存在,并且在空缺值过多的情形下将系统完备化是不可行的。在空缺值弥补技术的研究趋势主要呈现以下两个方面:1.构建空缺值弥补模型,该模型可以较好的适用于生物医学领域中任何空缺数据弥补问题,具有很好的普适性;2.基于数据挖掘和统计理论提出更为合适的算法,能够预测数据中存在的空缺值,并且具有较小的误差。综观现有生物医学空缺数据弥补方法,通常使用的方法有:1.MI填补算法:该方法针对大部分简单填充方法的填充数据唯一且填充后的数据集不能表现出原有数据集的不确定性,导致结果产生较大的偏差问题而由Rubin提出,该方法是建立在贝叶斯理论基础之上,用EM算法来实现对缺失数据的处理。其主要思想是:首先为每个缺失值构造一套可能的估计值,这些值反映了缺失模型的不确定性,这样就形成若干个完整数据集;然后对每个完整数据集分别使用相同的方法处理;最后综合来自各个填充数据集的结果,得到对目标变量的统计推断。2.KNN填补算法:该方法采用数据挖掘中分类思想,通过搜索模式空间,找出最接近空缺数据的k个完全数据,并通过完全数据的加权平均计算空缺数据的空缺值。该方法的主要思想是:首先将数据集分为完全数据集和缺失数据集两个部分;然后计算缺失数据集中的每个样本其与完全数据集中各样本的相似性,找到与缺失数据样本最近邻的k个数据;最后将缺失数据样本与完全数据样本的距离的倒数作为样本间的权重,根据各完全数据计算缺失数据的估计值。3.关联规则填补算法:该方法由Agrawal等人于1993年提出,其主要思想是:首先找出所有的频繁项集;然后由频繁项集生成强关联规则;最后利用通过对提取出的关联规则进行排序或分组,取优先权最高的规则进行填补。4.K-means填补算法:该方法的主要思想是首先通过计算完全数据集中各样本间的距离将数据样本分成不同簇,并使同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异;然后计算缺失数据集中各缺失数据与各聚类簇的聚类,并将该缺失数据分到对应的聚类簇中;最后采用不同核函数对缺失数据进行弥补。5.SVR (支持向量回归)算法:支持向量回归方法就是针对传统回归分析的局限性,该方法与SVM方法相同,采用结构风险最小化原则,将求解过程转化为一个二次型寻优问题。SVR算法采用核函数的映射方法,将实际问题通过非线性变换转换到高维的特征空间,并在高维空间中构造线性判别函数来实现原空间中的非线性判别函数。通过近似核函数的非线性回归特征空间的线性回归进行空缺值弥补。综上所述,现有算法仅针对可忽略的缺失机制下进行研究,不适用于任意缺失机制,提出的各方法不具有代表性;同时,针对生物医学空缺数据弥补的准确性也不甚理想,仍待进一步提闻。
技术实现思路
本专利技术的目的是为解决生物医学数据中存在空缺值的问题,提出一种基于EM聚类-BP神经网络的空缺数据弥补方法。本专利技术的设计原理为:首先,采用处理不完全数据问题中很重要的迭代算法EM算法,通过EM聚类,将不同缺失数据划分到不同的簇中,完成初步弥补;然后通过BP神经网络方法对每个簇中的完全数据建模,并完成对各个簇中缺失数据的精确弥补。其主要思想是针对不同缺失数据的缺失特点将缺失数据划分到具有相应特点的聚类簇中,然后根据BP神经网络算法估计完全数据属性的权重,计算含缺失数据的对应属性缺失值的预测值,在一定程度上加强弥补算法对任意缺失机制的适用性,并提高弥补的准确性。本专利技术的技术方案是通过如下步骤实现的:步骤I,将N个被评估对象作为样本集S,其中每个对象包含M个影响2型糖尿病发病的关键属性;将关键属性作为列,不同样本对应的属性值作为行,建立样本集S的矩阵表示[s(a+c;)b];并采用EM聚类方法对样本集S进行聚类,得到k个聚类簇。具体实现方法为:步骤1.1,首先将N个对象根据是否含有缺失数据分为两个样本集:完全数据集X和缺失数据集Y。所述完全数据集X为M个关键属性对应的数据均无缺失的对象集合。集合中所有对象关键属性的数据构成矩阵[xab],其中矩阵的行数a表示完全数据样本对象,列数b表示完全数据样本各属性对应的数据,b = I, 2,...,M0所述缺失数据集Y为M个关键属性对应的数据中存在一个或多个缺失的对象集合。集合中所有对象的关键属性数据形成一个矩阵[yJ,行数c表示缺失数据样本对象,列数b表示缺失数据样本各属性对应的数据。步骤1.2,设置聚类簇个数k (k彡N),由于样本集S中任意第i个样本Iii(I ^ i ^ N),均服从k个聚类簇的混合概率分布:本文档来自技高网
...

【技术保护点】
一种生物医学空缺数据弥补方法,其特征在于:针对不同缺失数据的缺失特点将缺失数据划分到具有相应特点的聚类簇中,然后根据BP神经网络算法估计完全数据属性的权重,计算含缺失数据的对应属性缺失值的预测值,实现弥补算法对任意缺失机制的适用性,并提高弥补的准确性。包括如下步骤:步骤1,将N个被评估对象作为样本集S,其中每个对象包含M个影响2型糖尿病发病的关键属性;将关键属性作为列,不同样本对应的属性值作为行,建立样本集S的矩阵表示[s(a+c)b];并采用EM聚类方法对样本集S进行聚类,得到k个聚类簇。步骤2,对步骤1得到的每个聚类簇中的完全数据集分别采用BP神经网络方法M个影响2型糖尿病发病的关键属性进行BP神经网络模型训练,获得M*k个模型,并对每个聚类簇中的缺失数据集中不同属性的缺失数据选取对应BP神经网络模型,计算该缺失数据的估计值。

【技术特征摘要】
1.一种生物医学空缺数据弥补方法,其特征在于:针对不同缺失数据的缺失特点将缺失数据划分到具有相应特点的聚类簇中,然后根据BP神经网络算法估计完全数据属性的权重,计算含缺失数据的对应属性缺失值的预测值,实现弥补算法对任意缺失机制的适用性,并提高弥补的准确性。包括如下步骤: 步骤I,将N个被评估对象作为样本集S,其中每个对象包含M个影响2型糖尿病发病的关键属性;将关键属性作为列,不同样本对应的属性值作为行,建立样本集S的矩阵表示[s(a+c)b];并采用EM聚类方法对样本集S进行聚类,得到k个聚类簇。步骤2,对步骤I得到的每个聚类簇中的完全数据集分别采用BP神经网络方法M个影响2型糖尿病发病的关键属性进行BP神经网络模型训练,获得M*k个模型,并对每个聚类簇中的缺失数据集中不同属性的缺失数据选取对应BP神经网络模型,计算该缺失数据的估计值。2.根据权利要求1所述针对含空缺值的数据的EM聚类方法,具体实现方法为: 步骤1.1,首先将N个对象根据是否含有缺失数据分为两个样本集:完全数据集X和缺失数据集Y。所述完全数据集X为M个关键属性对应的数据均无缺失的对象集合。集合中所有对象关键属性的数据构成矩阵[xab],其中矩阵的行数a表示完全数据样本对象,列数b表示完全数据样本各属性对应的数据,b = I, 2,...,M0 所述缺失数据集Y为M个关键属性对应的数据中存在一个或多个缺失的对象集合。集合中所有对象的关键属性数据形成一个矩阵[yj,行数c表示缺失数据样本对象,列数b表示缺失数据样本各属性对应的数据。步骤1.2,设置聚类簇个数k(k < N),由于样本集S中任意第i个样本叫(I < i < N),均服从k个聚类簇的混合概率分布:`nt~ P(HiIB) = YjrjPiniIej) 步骤1.3,将步骤1.2给定的初始混合概率分布参数估计值0°代入缺失数据集Y,获得Ich的后验分布概率为: J,八 0\4PyAX^\0°k) 一__ P\ycb I) = —J} 其中 Xab e X,ycb e Y Pk Kxah10k ) 由于样本集间各样本的独立性,得到数据集Y的后验分布函数为: ρ(Υ|Χ,Θ0) = Πρ(λ,Ι^,Θ°) Ir-1 步骤1.4,根据步骤1.3获...

【专利技术属性】
技术研发人员:罗森林韩龙飞潘丽敏张铁梅
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1